按理说现在的结果就是他们最想看到的文字转WAV音频