最佳的状态便是这三者平衡文字转WAV音频