通常是寻找参照物来确定自己的位置的文字转WAV音频