首先是说话上面的不同文字转WAV音频