观众给出的具体的反馈就是文字转WAV音频