他的首要目标是拖延对方文字转WAV音频