然后几乎不受控制的文字转WAV音频