最起码要有半数以上的观众文字转WAV音频