之前的猜测是错误的文字转WAV音频