这要求其实比同声传译还高了文字转WAV音频