他们自然是听不到前面的对话的文字转WAV音频