现在唯一的争议在于文字转WAV音频