可能是他们嘴里的文字转WAV音频