然后才打量起周围文字转WAV音频