他们其实是隐约知道个中情况的文字转WAV音频