但已经是最合理的推测了文字转WAV音频