但是他们却忽略掉了文字转WAV音频