所以只能是约摸估算了下位置文字转WAV音频