如果是分阶段性的支付文字转WAV音频