而这种体制的棘手点在于文字转WAV音频