最终形成完整的种族类别文字转WAV音频