就是跟着面前的两个人文字转WAV音频