但是提前的做一个估计和估算文字转WAV音频