这也意味着我们会在最终融合传承时文字转WAV音频