此前提在理论上就是行不通的文字转WAV音频