两方都在大量的消耗文字转WAV音频