最终维持在一个比较稳定的层次上文字转WAV音频