也没能捕捉到准确位置文字转WAV音频