而第三轮则尝试推定文字转WAV音频