是按着一个连的规模来配置的文字转WAV音频