从话语举动看文字转WAV音频