但还是需要做最终的确诊文字转WAV音频