我的两个beta在看的时候都是先猜到了文字转WAV音频