所以当他走到距离正在对话的两人身旁时文字转WAV音频