他们选择的方式是完全正确的文字转WAV音频