往往只会记住自己的听到的文字转WAV音频