他很有可能从一开始文字转WAV音频