注意力放在了外界文字转WAV音频