甚至是上下级口中文字转WAV音频