用美国人的看法也许是文字转WAV音频