很难去掌控其中的平衡文字转WAV音频