也不过是从其他人的口中文字转WAV音频