但是他总不能直接说文字转WAV音频