所以当这个村民开口后文字转WAV音频