如果这两个环节都通过了文字转WAV音频