所以他的理解是十分的正确的文字转WAV音频