为什么一定是要他自己来支撑文字转WAV音频