双方似乎处在相仿的水准和层次文字转WAV音频