实际上彼此并不了解文字转WAV音频