我通过区域的面积可以估计出来文字转WAV音频