然后就是当前的扩散文字转WAV音频