最后主流意见为文字转WAV音频