但如果我们把所有注意力都放在文字转WAV音频