从他们的话语里面文字转WAV音频