看起来似乎真的是在思考一般文字转WAV音频