所以他一直在往内部挖掘文字转WAV音频