我们的研究目标也许是相同的文字转WAV音频