大体上是按照汉冕来文字转WAV音频