既然他们会把所有一切都量化文字转WAV音频