完全按照他们那里的文字转WAV音频