我们其实是两个体系的文字转WAV音频