这是因为我们没有在现场文字转WAV音频