它会由一个不能量化的文字转WAV音频