他们的要求不多只有稳定文字转WAV音频