肯定不能像本体那样全面思考文字转WAV音频