这就导致了根本无法判断它的准确位置文字转WAV音频