我觉得他们说的可能是真的文字转WAV音频