所有的猜想吻合了文字转WAV音频