那么他只会有一种认为文字转WAV音频