我们的设计原则是平衡文字转WAV音频