1 인과사다리
최초에…
내가 여섯 일곱살 쯤이었을 때, 에덴동산 아담과 이브 이야기를 책에서 읽었었다. 친구와 나는 신이 선악과를 먹지 말라고 한 명령이 전혀 놀랍지 않았다. 신들이 제멋대로 하는 것은 당연하고 생각했다.
더 관심이 있었던 것은, 아담과 이브가 이 열매를 먹자마자 자신이 벌거벗음을, 우리와 같이, 의식하게 되었다는 점이었다. 십대 청소년이었던 우리는 이야기의 철학적인 면에 관심이 옮겨갔다 (이스라엘 학생들은 매년 창세기를 여러 번 읽는다). 가장 관심이 있었던 것은 인간 지식 출현과정이 즐거웠던 것이 아니라 불순종, 죄악, 형벌으로 인해 고통스러웠다는 점이었다. 에덴동산에서의 평화로운 삶을 포기할 가치가 있었을까? 농업과 과학 혁명이 현대사회가 겪고 있는 경제적 어려움, 전쟁, 사회적 불평등을 감수할 가치가 있는 것인가? 라는 생각을 했다.
오해하지 말라. 우리는 창조론자들이 아니고, 심지어 우리 선생님들도 마음속로는 다윈주의자였다. 그러나 창세기를 기록한 저자가 당시 당면한 철학문제에 대답하려고 노력했다는 것을 알았다. 마찬가지로 이 이야기는 호모사피엔스 가 지구에서 우세를 획득한 실제 과정에 대한 문화적 발자국을 담고 있다고 의심했다. 빠른 초진화적 과정에서 어떤 일련의 과정이 있었던 것인가?
공대 교수 초기 시절에는 이 질문에 대해 관심이 잠잠해졌다가, 1990년대에 『인과성』 책을 쓰면서 인과사다리를 마주하고는 갑자기 타올랐다.
수백 번째로 창세기를 다시 읽던 중, 나는 그동안 한 번도 눈치채지 못했던 미묘한 것을 깨달았다. 신이 에덴동산에서 숨은 아담을 찾을 때, 이렇게 묻는다, “내가 금지한 나무 열매를 따먹었느냐?” 아담이 대답한다, “당신이 베필로 주신 여자가 나무에서 열매를 주어 내가 먹었나이다.” 신이 이브에게 물었다. “너가 한 일이 무엇이냐?” 이브는 대답한다. “뱀이 나를 속여서 내가 먹었나이다.”
우리 모두 알고 있듯이, 이 ’책임 떠넘기기’는 신에게 통하지 않았다. 신은 결국 그 둘을 에덴동산에서 쫓아냈다. 하지만 이전에 내가 놓쳤던 핵심은 이것이다. 신은 “무엇(what)”을 물었고, 아담과 이브는 “왜(why)”로 대답했다. 신은 사실(facts)을 물었는데, 그들은 설명(explanatin)으로 대답했다. 더군다나, 두 사람은 원인을 이야기하면 자신의 행동이 다르게 보일 것이라고 철저히 믿고 있었다. 이 생각을 어떻게 할 수 있었을까?
여기에서 세 가지 근본적인 의미를 이야기할 수 있다. 첫번째는, 진화 초기 인류는 세상이 단지 건조한 사실들(오늘날 데이터로 부르는 것들)로만 이루어진 것이 아니라, 그 사실들이 정교한 원인-결과 관계의 그물망으로 서로 연결되어 있다는 것을 깨달았다. 두번째로, 우리 지식 대부분을 구성하며 기계 지능(machine intelligence)의 도대가 되어야 하는 것은 건조한 사실이 아니라 인과적 설명(causal explanation)이 되어야 한다. 마지막으로, 우리가 단순한 데이터 처리자에서 설명이 창조자로 바뀐 것은 점진적인 변화가 아니었다. 그것은 선악과라는 외부자극이 가져온 도약이었다. 이는 내가 인과사다리에서 이론적으로 연구한 것과 완벽하게 일치했다. 원데이터에서 설명을 스스로 이끌어 내는 기계는 없다. 외부 도움이 필요하다.
진화학 관점에서 찾아본다면 설명되지 않은 중대한 전환이 있다. 물론 선악과 나무를 발견되지는 않았지만 말이다. 인류가 유인원 같은 조상으로부터 500만~600만 년에 걸쳐 진화했고, 이러한 점진적인 진화가 지구 생명체에 드문 일이 아님을 우리는 알고 있다. 하지만 약 5만 년 전쯤, 특별한 변화가 일어났다. 이를 인지혁명라고 부르는 사람도 있고, (풍자적으로) 대도약Great Leap Forward으로 이라 부르는 사람도 있다. 인류는 자신의 환경과 능력을 개선하는 능력을 훨씬 더 빠른 속도로 변화시키는 능력을 획득했다.
예를 들어, 독수리와 부엉이는 수백만 년동안 시력을 놀랍게 진화시켰지만, 안경, 현미경, 망원경, 야간 고글을 만들지는 못했다. 인류는 이 기적적인 것들을 수세기에 만들었다. 나는 이 현상을 “초-진화 속도”라 부른다. 내가 진화와 공학을 비교하는 것을 사과와 오렌지륿 비교한다며 반대하는 독자들이 있을 수 있다. 그러나 바로 그 점을 이야기 하려고 한다. 진화로 인해 우리는 삶을 엔지니어링할 능력을 갖게 되었다. 독수리와 부엉이에 갖지 못한 선물이다. 문제는 “왜” 이다. 인간이 갑자기 획득했지만, 독수리에게는 없는 계산능력은 무엇인가?
여러 이론이 나왔지만, 인과관계 개념과 관련이 있는 이론이 특별히 하나 있다. 역사학자 유발 하라리~Yuval Harari~는 그의 책 『사피엔스』에서 우리 조상들이 존재하지 않는 것을 상상하는 능력이 모든 것의 핵심이었다고 주장한다. 왜냐하면 그 능력때문에 더 효과적으로 의사소통할 수 있었기 때문이다. 이 변화 이전에는 가까운 가족이나 부족들만 신뢰할 수 있었다. 이후에 신뢰는 더 큰 공동체로 확장되었다. 환상 공유로 묶여 있었는데 예를 들어 보이지 않지만 상상의 신, 사후 세계, 지도자의 신성함이 그것이다. 하라리의 이론에 동의하든 하지 않든, 상상과 인과관계 사이의 관련성은 자명하다. 어떤 사건의 결과를 상상할 수 없으면 그 사건의 원인을 묻는 것은 무의미하다. 반대로 이브가 사과를 주지 않은 세계(사실과 반대되는 가상의 세계)를 상상할 수 없다면, 당신이 선악과를 먹은 원인이 이브였다고 주장할 수 없다.
다시 우리 호모 사피엔스 조상들로 돌아가자면, 그들이 획득한 인과적 상상력때문에 “계획”이라는 복잡한 과정을 통해 여러 가지 일을 훨씬 더 효율적으로 수행할 수 있게 되었다. 한 부족이 매머드 사냥을 준비한다고 상상해 보라. 성공하려면 어떻게 해야할까? 내 매머드 사냥 기술은 엉망이겠지만, 사고기계의 연구자로서 배운 것이 있다. 사고체~thinking entity~는 — 컴퓨터든 원시인이든 교수이든 간에 — 그 정도 규모의 업무를 수행하려면 미리 계획을 해야한다는 것이다. 사냥꾼 수를 결정해야하고, 바람의 방향을 고려해 매머드에 접근할 방향을 판단해야 한다. 요약하면 사냥 전략들의 결과를 상상하고 비교해야 한다. 사고체는 현실의 멘탈모델을 가지고, 참고하며, 조작할 수 있어야 한다.

그림1.1은 이러한 멘탈모델을 어떻게 그릴 수 있는지 보여준다. 점은 각각 성공원인을 나타낸다. 주의할 점은 원인이 여러 가지이며, 어떤 것도 결정적이지 않다는 점이다. 즉, 사냥꾼이 더 많다고 해서 반드시 성공하는 것도 아니고, 비가 온다고 해서 반드시 실패한다고 단정할 수도 없다. 이러한 요인들은 성공 확률을 변화시킨다.
멘탈모델은 상상이 일어나는 무대이다. 우리가 이 모델의 일부를 국소적으로 바꾸어 보면서 다양한 시나리오를 실험할 수 있다. 사냥꾼의 멘탈모델 어딘가에는 사냥꾼 수의 영향을 평가하는 서브루틴이 있었다. 사냥꾼을 더 늘릴지 고민할 때 다른 모든 요소를 처음부터 다시 계산할 필요가 없었다. 그들은 모델 일부만 변경하면 됐다. 즉, “사냥꾼 = 8” 을 “사냥꾼 = 9” 로 바꾸고 성공확률을 계산했다. 이 모듈성이 인과모델의 핵심적인 특징이다.
물론 초기 인류가 실제로 이와 같은 그림 모델을 그렸다는 의미는 아니다. 그러나 우리가 컴퓨터에서 인간의 생각을 모방하려고 할 때나, 어려운 과학 문제를 해결하려고 할 때, 이와 같이 점과 화살표로 그림을 명시적으로 그리는 것은 매우 유용하다. 이러한 인과다이어그램은 서문에서 언급한 “인과추론 엔진”의 계산적 핵심을 이룬다.
1.1 인과의 세 가지 층
앞서 세상지식을 원인과 결과로 조직화하는 능력이, 단일한 형태이고monolithic 한번에 획득되었다는 인상을 주었을지 모르겠다. 그러나 실제로 내가 기계학습 연구에서 배운바에 따르면, 인과를 학습하는 존재는 적어도 세가지 뚜렷이 구분되는 인지능력을 통달해야 한다. 보기seeing, 하기doing, 상상하기imagining가 그것이다.
첫번째 “보기”, 혹은 “관측하기”는 우리 환경에서 패턴을 인식하는 것을 수반하고, 인지혁명 이전 초기인류 뿐만 아니라 많은 동물과 공유한다. 두번째 “하기”는 환경을 의도적으로 수정했을 때의 효과를 예측하는 것과, 이 수정 중에서 원하는 소출을 생산하는 것을 고르는 것을 수반한다. 손에 꼽는 종만이 이 기술 요소를 가지고 있다. 도구를 사용할 때, 의도적으로 하고, 우연이거나 조상으로부터 단순히 따라한 것이 아니라면, 이 세번째 층에 도달했다는 징표로 여길 수 있다. 하지만, 도구를 사용한다고 해서, 도구가 왜 작동하고, 도구가 작동하지 않을 때 무엇을 해야하는지 알려주는 “이론”을 필연적으로 소유하고 있는 것이 아니다. 상상이라는 것이 가능한 이해 수준에 도달했어야 한다. 바로 이 세번째 층 때문에, 농업과 과학에서 혁명을 가능했고, 지구에 대한 인간종의 영향력이 갑작스럽고 급격하게 변하게 되었다.
나는 이를 증명할 수는 없지만, 수학적으로 세 가지 층이 근본적으로 다르다는 것은 증명할 수 있다. 각각의 층은 그 아래 층에는 없는 능력을 발휘한다. 내가 이를 보여주기 위해 사용하는 프레임워크는 인공지능 연구의 선구자인 앨런 튜링Alan Turing으로 거슬러 올라간다. 그는 대답할 수 있는 질문의 관점에서 인지시스템을 분류할 것을 제안했다. 이 접근법은 정확히 인과관계가 무엇인지에 대한 장황하고 비생산적인 논의를 우회하고, 대신 구체적이고 답변 가능한 질문인 “원인추론자가 할 수 있는 것은 무엇인가?”에 초점을 맞춘다. 그렇기 때문에, 이 접근법은 인과관계에 대해 이야기할 때 매우 효과적이다. 더 정확히 말하자면, 인과모델을 가진 유기체는, 그러한 모델이 없는 유기체는 못하는 어떤 것을 계산할 수 있을까?

튜링이 인간 대 비인간의 이원적 분류를 탐구한데 반해, 우리의 분류에는 세 가지 층이 있는데, 이는 점차적으로 더 강력한 인과질의이다. 이러한 기준을 사용하여 세 가지 수준의 질의를 하나의 인과사다리(그림1.2)로 묶을 수 있다. 이 비유를 앞으로 계속 반복해서 사용할 것이다.
각 층에 대해 시간을 두고 자세히 살펴보자. 첫 번째 층인 연관성에서는 관측의 규칙성을 탐색한다. 이것은 올빼미가 쥐가 어떻게 움직이는지 관찰하고 잠시 후에 어디에 있을 것 같은지를 알아낼 때 하는 행동이고, 컴퓨터 바둑프로그램이 어떤 움직임이 더 높은 승률과 관련이 있는지를 알아낼 수 있도록 수백만 개의 바둑 데이터베이스를 탐구할 때 하는 행동이다. 하나의 사건을 관찰하는 것이 다른 사건을 관찰할 수 있는 가능성을 바꾸는 경우, 하나의 사건이 다른 사건과 연관되어 있다고 한다.
사다리의 첫 번째 층은 수동적 관찰을 기반으로 한 예측을 요구한다. “내가 본다면 어떻게 될까?” 라는 질문이 특징이다. 예를 들어 백화점의 마케팅 이사가 “치약을 구매한 고객이 얼마나 치실도 살 가능성은 얼마인가?” 와 같은 질문을 한다고 해보자. 이런 질문은 통계학의 기초이고 무엇보다 데이터를 수집하고 분석함으로써 답을 얻는다. 우리의 경우에는 모든 고객의 구매데이터를 모으고, 치약을 구입한 사람만 선택하고, 이 그룹에 초점을 맞추어 치실도 구입한 비율을 계산하여 답을 얻을 수 있다. 이 비율을 “조건부 확률”이라고도 하는데 “치약구입”과 “치실구입”의 연관성을 측정한다. 기호로 \(P(치실|치약)\) 으로 쓸 수 있다. “\(P\)”는 “확률”을 의미하고 세로선은 “보는 조건하에”를 의미한다.
다량의 데이터를 요약하고 변수 간의 연관성을 식별하기 위해 통계학자들은 정교한 방법들을 개발했다. 이 책에서 자주 언급되는 연관성의 전형적인 척도인 “상관관계” 또는 “회귀”에는 데이터 포인트들에 직선을 적합하고 직선의 기울기를 취하는 과정이 포함된다. 어떤 연관성에는 명백한 인과관계 해석이 있을 수 있고 다른 연관성은 그렇지 않을 수 있다. 그러나 통계학만으로는 어떤 것이 원인이고 어떤 것이 결과인지, 치약 또는 치실인지 알 수 없다. 영업관리자의 관점에서는 구분하는 것이 중요하지 않을 수도 있다. 좋은 예측에는 좋은 설명이 꼭 필요한 것은 아니다. 올빼미는 쥐가 항상 \(A\) 지점에서 \(B\) 지점으로 가는 이유를 이해하지 않고도 훌륭한 사냥꾼이 될 수 있다.
내가 오늘날의 학습기계들을 (올빼미 지능과 같은) 인과사다리 일층에 배치한 것을 보고 놀라는 독자도 있을 것이다. 우리는 거의 매일 기계학습 시스템의 급속한 발전에 대해 듣는 것 같다. 자율주행차, 음성인식 시스템, 특히 최근에는 딥러닝 알고리즘(또는 심층신경망)이 어떻게 1층일 수 있을까?
딥러닝의 성공은 정말 주목할 만하고, 많은 사람을 놀라게 했다. 그럼에도 불구하고 딥러닝의 주된 성공은 우리가 어렵다고 생각했던 특정 질문이나 과제가 실제로는 그렇지 않다는 것을 보여줬다는 점이었다. 딥러닝은 인간과 같은 AI를 달성하지 못하고 있는, 진정한 난제를 이야기하지 않았다. 결과적으로 대중은 인간처럼 생각하는 기계인 “강한 AI”가 코앞에 있거나 이미 있다고 믿고 있다. 실제로는 진실과 먼 이야기이다. 인공지능 분야가 좋은 보도자료를 만드는 종류의 “미시 발견으로 폭발적으로 증가하고 있다”, 하지만 기계는 여전히 실망스럽게도 멀었다는 뉴욕대의 신경과학자 개리 마르쿠스Gary Marcus가 최근 뉴욕타임즈에 쓴 기사에 나는 전적으로 동의한다. UCLA 컴퓨터과학 학과 동료인 애드난 다위쉐Adnan Darwiche는 논문 제목을 <인간 수준의 지능 또는 동물같은 능력?> 으로 지었는데, 질문을 아주 잘 구성한 것이라고 생각한다. 진정한 AI의 목표는 인간과 대화하고 안내할 수 있는 인간과 같은 지능을 가진 기계를 생산하는 것이다. 하지만 딥러닝이 우리에게 제공한 기계는 능력이 매우 인상적이긴 하지만 지능은 없다. 그 차이는 심오하며 현실 모델의 부재에 있다.
(딥뉴럴네트워크 프로그램을 포함한) 기계학습 프로그램은 30년 전이나 지금이나 전적으로 연관성 모드에서 작동한다. 이 프로그램들은 통계학자가 점들에 직선을 적합하는 것과 거의 같은 방법으로 함수를 적합한다. 딥뉴럴네트워크는 적합함수의 복잡성에 훨씬 많은 레이어를 추가했지만 적합프로세스에서 중요한 것은 여전히 원데이터이다. 적합에 사용하는 데이터가 증가함에 따라 정확도는 계속 개선되겠지만, “초-진화적 속도”로 개선되지는 않는다. 예를 들어, 무인자동차의 프로그래머가 새로운 상황에 다르게 반응하게 만들고 싶으면 새로운 반응을 명시적으로 추가해야 한다. 무인자동차는 위스키병을 손에 든 보행자가 경적에 다르게 반응할 것인지 스스로 알아차리지 못할 것이다. 유연성과 적응성이 없는 것은 인과사다리의 첫번째 층에서 작동하는 시스템에는 필수불가결한 것이다.
우리가 세계에 변형을 가하기 시작할 때 인과질의들의 다음 수준으로 단계가 올라간다. 이 수준의 일반적인 질문은 “우리가 치약 가격을 두 배 올리면, 치실 매출이 어떻게 될 것인가?” 이다. 이 질문은 데이터 없이 새로운 유형의 지식을 요구하는데, 바로 인과사다리의 두번째 층에 있는 개입이다.
개입하기는 대상을 보기도 하지만, 변형을 가하기 때문에 연관성보다 더 높이 위치한다. 연기를 보는 것은 연기를 만드는 것에 비해 화재의 가능성에 대해 완전히 다른 이야기를 의미한다. 데이터셋이 얼마나 큰지, 뉴럴네트워크가 얼마나 심층인지에 상관없이 수동적으로 모은 데이터로는 개입에 관한 질문에 답을 할 수 없다. 많은 과학자들은 통계에서 배운 어떤 방법도 “가격을 두 배로 늘리면 어떻게 될까요?” 와 같은 간단한 질문에 대해 답은 고사하고 표현조차 명료하게 하지 못한다는 사실을 알고 큰 충격을 받았다. 이를 알게 된 것은, 내가 이들을 사다리의 다음 단계로 올라가는데 도와줬기 때문이다.
관찰만으로 치실문제에 답할 수 없는 이유는 무엇일까? 이전 구매에 대한 방대한 데이터베이스에 가서 치약 가격이 두 배나 비쌌던 이전에 무슨 일이 있었는지 확인할 수는 없을까? 그 이유는 이전 경우에는 가격이 여러 가지 이유로 더 높았을 수 있다. 예를 들어 제품의 공급이 부족했을 수 있고 다른 모든 상점에서도 가격을 인상해야 했을 수도 있다. 그러나 지금 당신은 시장 상황에 관계없이 새로운 가격을 설정하는 의도적 개입을 다루고 있다. 고객이 다른 곳에서 더 나은 거래를 찾을 수 없을 때와 결과가 상당히 다를 수 있다. 이전에 존재했던 시장 상황에 대한 데이터가 있는 경우, 아마도 당신은 더 나은 예측을 할 수 있을 것이다. 하지만 어떤 데이터가 필요할까? 그리고 어떻게 알아낼 수 있을까? 바로 이 질문들이 인과추론 과학이 대답할 수 있는 질문들이다.
개입 결과를 예측하는 방법 중 가장 직접적인 것은 세심하게 통제된 조건에서 실험하는 것이다. 페이스북과 같은 빅데이터 회사는 이것을 알고 지속적으로 실험을 수행하여 화면의 항목이 다르게 배열되거나 고객이 다른 프롬프트(또는 다른 가격)를 받는 경우 어떤 일이 발생하는지 확인한다.
실험 없이도 개입의 효과에 대해 성공적으로 예측할 수 있다는 것은 흥미로운 사실이지만 (실리콘밸리에서도) 많이 알려지지 않았다. 예를 들어 영업관리자는 시장 조건을 포함하는 소비자 행동 모델을 개발할 수 있다. 모든 요인에 대한 데이터가 없더라도 예측을 수행하기에 충분한 주요 대리 데이터가 있을 수 있다. 강력하고 정확한 인과모델은 1단계(관찰) 데이터를 사용하여 2단계(중개) 질의에 답할 수 있다. 인과모델이 없으면 (1층 데이터만 사용하고 인과관계 모델이 없는 한) 1단계에서 2단계로 이동할 수 없다. 딥러닝 시스템들은, 훈련된 환경의 규칙을 위반한다고 정의되는 개입에 대한 질문에 답할 수 없는 이유이다.
인과관계 사다리 두 번째 층을 정의하는 질의는 “만약 … 한다면 어떻게 될까?what if we do…” 이다. 환경을 바꾸면 어떻게 될까? 이런 종류의 질의를 \(P(치실|do(치약))\) 으로 작성할 수 있다. 치약 가격을 다른 가격으로 설정했을 때 치실을 특정 가격에 판매할 확률에 대한 질문이다.
두 번째 층의 인과에서 자주 사용되는 또 다른 질문은 “어떻게How?” 이다. “만약 … 하면 어떻게 될까?” 의 사촌격이다. 예를 들어, 관리자는 치약이 창고에 너무 많이 쌓여있다고 말할 수 있다. “어떻게 판매할 수 있을까?”라고 묻는다. 즉, 가격을 얼마로 설정해야 할까? 이 경우에도 개입에 관한 것인데, 개입 여부와 방법을 결정하기 전에 개입을 머리속으로 수행하고자 하는 것이다. 인과관계 모델이 필요하다.
우리는 일상생활에서 항상 개입을 수행하지만 일반적으로 그다지 멋진 용어를 사용하지 않다. 예를 들어 두통을 치료하기 위해 아스피린을 복용할 때 우리는 하나의 변수(체내 아스피린의 양)에 개입하고 있다. 아스피린에 대한 우리의 인과적 믿음이 맞다면, “아웃컴” 변수는 “두통”에서 “두통없음”으로 변경될 것이다.
개입과 관련한 추론은 인과관계 사다리에서 중요한 단계이지만, 모든 질문을 해결해주지는 않는다. 이제 두통이 사라졌지만 왜 그런지 궁금할 수 있다. 아스피린을 먹어서? 아까 먹었던 음식? 아까 들었던 좋은 소식때문에? 이러한 질문에 답을 얻으려면, 인과관계의 사다리의 최상위 단계인 반사실 층으로 올라가야 한다. 역사를 바꿔서, “내가 아스피린을 복용하지 않았다면 어떻게 되었을까?”라고 물어야 하기 때문이다. 세상에서 이미 치료를 받은 사람에게 치료를 거부하고 두 결과를 비교할 수 있는 실험은 세상에 없기 때문에, 우리는 완전히 새로운 종류의 지식이 필요하다.
데이터는 정의상 사실이기 때문에 반사실은 데이터와의 관계에 있어 특별한 문제가 생긴다. 관찰된 일부 사실이 무효화되는 반사실 세계 또는 가상의 세계에서 어떤 일이 일어날 지 데이터는 알려줄 수 없다. 그러나 인간의 마음은 그러한 설명을 구하는 추론을 확실하고 반복적으로 한다. 이브는 “뱀이 나를 속였나이다” 를 행동의 이유로 댔을 때 그렇게 했다. 이 능력은 인간이 동물지능과 AI, 기계학습의 모델이 없는 버전과 가장 구별되는 점이다.
존재하지 않았던, “일어났을 수 있는” 세계와, 일어나지 않은 것들에 관해서도 과학이 정말 유용한 명제를 만들 수 있을까? 답은 그렇다이고, 게다가 항상 그렇다이다. 예를 들어 물리법칙은 “이 스프링에 두 배 무게의 추를 달면 늘어나는 길이도 두 배가 될 것이다” (훅의 법칙) 와 같이 반사실 주장으로 해석할 수 있다. 물론 이 명제는 수 천의 다양한 상황에서, 수십의 실험실의 수백 개 스프링에서 도출된 수많은 (2층) 실험데이터로 뒷받침된다. 하지만, 이 명제가 “법칙”으로 인정받으면, 물리학자는 무게의 가설적 값 아래에서 바로 해당 순간의 해당 스프링을 지배하는 함수관계로 해석한다. 무게가 \(x\) 파운드이고 길이가 \(L_x\) 인치인 다른 세계들 모두는, 비록 이들 중 하나만 존재했다고 하더라도, 모든 세계를 객관적으로 알 수 있고, 동시에 살아있는 것으로 간주한다.
치약예시로 돌아가면, 가장 윗 층 문제는 “과거 치약을 샀던 고객이, 가격이 두 배 올랐을 때도 살 확률은 무엇인가?” 일 것이다. 우리는 실제 세계를 가상의 세계와 (즉, 고객이 현재 가격에 치약을 구매했던 세계를 가격이 두 배 오른 세계와) 비교하고 있다.
반사실 문제들에 답할 수 있는 인과모델을 소유하면 엄청난 장점이 있다. 큰 실수가 왜 일어났는지 알게 되면, 미래에 정정조치를 할 수 있다. 특정 치료법이 어떤 사람들에게는 효과가 있고 다른 사람에게는 없다는 것을 알게되면 질병에 새로운 치료법이 발견된 것이다. “상황이 달랐다면 어떻게 되었을까?” 질문에 답하면 역사와 타인의 경험으로부터 배울 수 있는데, 인간 외에 다른 종에게는 이런 능력이 없다. 고대 그리스 철학자 데모크리투스Democritus(기원전 460-370년)가 “페르시아 왕이 되는 것보다 원인 하나를 발견하겠다.” 라고 말한 것도 놀랄 일이 아니다.
나는 반사실을 인과사다리 꼭대기에 위치시켰는데, 반사실을 인간 의식의 진화에서 결정적 사건이라고 강조하기 때문이다. 나는 유발 하라리가 상상의 것을 창조하는 능력을 새로운 능력의 징표라고 한 설명에 전적으로 동의한다. 그는 이를 인지혁명이라고 부른다. 전형적인 예시는 라이언맨 조각인데, 독일 남서부 스탠델Standel 동굴에서 발견되었고, 이후 울름 박물관Ulm Museum이 소장하고 있다 (그림1.3). 라이언맨은 대략 40,000년 된 매머드 상아에 반인반수 키메라 모습이 조각되어 있다.
라이언맨을 누가 조각했는지, 왜 조각했는지는 알 수 없지만, 알려진 것은 근대인류가 해부학적으로 만들었고, 이전의 회화, 공예와 단절을 대표한다는 것이다. 이전까지 인류가 제작한 것은 도구들과 표현작품들이었는데, 구슬, 피리, 창촉, 말조각 같은 것들이었다. 라이언맨은 다르다. 상상에 의한 창조물이다.

라이언맨은 존재하지 않았던 것을 상상하는 것은 새롭게 획득한 능력의 징표이자, 모든 철학이론, 과학발견, 그리고 현미경에서부터 비행기, 컴퓨터에 이르는 기술혁신의 전조이다. 이 모든 것은 물리적 세계에서 실현되기 전에 누군가의 상상 속에서 구체화되어야 했다.
인지능력의 이러한 도약은 우리를 인간으로 만든 해부학적 변화만큼 우리 종에게 심오하고 중요했다. 라이언맨이 생성된 후 10,000년 이내에 다른 모든 유인원은 (지리적으로 고립된 플로레스 유인원을 제외하고) 멸종되었다. 인간은 생존하기 위해, 적응하기 위해, 그리고 나중에는 지배하기 위해 상상력을 사용하여 놀라운 속도로 자연을 계속 변화시켜 왔다. 그당시 반사실을 상상함으로써 얻은 이점은 오늘날에 얻는 이익과 같았다. 유연성, 과거 행동을 반성하고 개선하는 능력, 아마도 훨씬 더 중요한 것은 과거 및 현재 행동에 대한 책임을 기꺼이 지고자 하는 자세이다.
그림1.2에 표현된 것과 같이, 인과사다리 3 층의 특징적인 질의는 “만약 내가 … 했다면?” 과 “왜?” 이다. 1 층은 이미 본 세계, 2 층은 볼 수 있는 멋진 신세계, 3층은 (보이는 것과 모순되기 때문에) 볼 수 없는 세계를 다루고 있다. 층을 올라가려면, “이론” 또는 (우리가 매우 확신하는 경우) “자연법칙” 라고까지 부르는 내부 인과과정의 모델이 필요하다. 간단히 말해서, 우리는 이해가 필요하다. 이것은 모든 과학분야에 있어 최종목표인데, 바로 우리가 아직 상상조차 하지 못한 상황에서 어떤 일이 일어날지 예측할 수 있는 이론을 개발하는 것이다. 그러나 여기서 더 나아간다. 그러한 법칙이 있으면 우리와 모순되는 세계를 만들기 위해 선택적으로 그 법칙을 위반할 수도 있다. 다음 섹션에서는 이러한 위반에 대해 설명한다.
1.2 미니-튜링 테스트
1950년 앨런 튜링은 컴퓨터가 인간처럼 생각하는 것이 무엇을 의미하는지 물었다. 그는 실용적인 테스트를 제안했는데 “모방게임”이라고 불렀지만, 이후 AI 연구자들은 모두 “튜링 테스트”로 부르고 있다. 실제로 컴퓨터와 타자기로 소통하는 평범한 인간이, 상대가 인간인지 컴퓨터인지 구별할 수 없다면 컴퓨터를 생각하는 기계라고 할 수 있다. 튜링은 이것이 가능한 범위 안에 있었다고 매우 확신했다. “나는 약 50년 안에 모방게임을 잘 하는 컴퓨터를 프로그램해서, 심문관이 5분 동안 질문한 후에 올바르게 식별할 확률이 70% 를 넘지 않게 되는 것이 가능하다고 믿는다.”
튜링의 예측은 살짝 빗나갔다. 매년 열리는 뢰브너Loebner 상 대회에서는 세계에서 가장 인간과 비슷한 “챗봇”를 찾는다. 4명의 심사위원 모두가 챗봇을 인간으로 착각하면 금메달과 10만 달러를 제공한다. 2015년 현재, 25년 동안의 경쟁에서 단 하나의 프로그램도 모든 심사위원을 속이는 데 실패했고 심지어 절반도 속이지 못했다. 튜링은 “모방게임”을 제안했을 뿐만 아니라 통과 전략도 제안했다. “어른의 마음을 모사하는 프로그램 대신 아이의 마음을 모사하는 프로그램을 만들어 보는 것이 어떻겠느냐?”고 물었다. 이를 달성하면, 아이를 가르치듯이 프로그램을 가르칠 수 있을 것이고, 20년 후에(또는 더 빠른 컴퓨터가 있다면 그보다 빨리) 인공 지능을 갖게 될 것이다. “아마도 아이의 두뇌는 문구점에서 구입하는 공책과 같다.”라고 그는 썼다. “소량의 메카니즘과 다량의 빈 종이.” 그는 틀렸다. 아이들의 두뇌에는 메커니즘과 미리 저장된 템플릿으로 가득찼다.
그럼에도 튜링은 깨달은 것이 있는 것 같다. 우리는 아이같은 지능을 창조하기 전에는 인간같은 지능을 창조하는 데 성공할 수 없을 것인데, 이 지능의 핵심 요소가 인과관계이다.
기계가 어떻게 인과지식을 획득하나? 능동적인 실험과 수동적인 관측, 그리고 프로그래머로부터의 입력(아이들이 프로그래머를 대신하는 진화, 부모, 동료로 부터 얻는 입력과 같은 입력)이 복잡하게 엮인 매우 어려운 문제이다.
하지만, 조금 덜 야심찬 문제에 답할 수 있다. 기계(와 인간)가 필요한 정보에 빠르게 접근할 수 있도록 인과지식을 표현하고, 문제를 정확히 대답하고, 아이처럼 쉽게 할 수 있는가? 사실 이는 이 책에서 다루는 중심 문제이다.
나는 이를 미니-튜링테스트라고 부른다. 간단하게 말하면, 한 기계에 어떻게든 인코딩하고, 그 후 기계가 인간이 대답할 수 있는 인과질문에 정확히 대답할 수 있는지를 테스트하는 것이다. 두 가지 이유에서 “미니”이다. 첫번째로, 이 테스트는 인간의 다른 능력들 중 시각, 자연어와 같은 인간 지능의 다른 면을 제외한 인과추론에 국한된다. 두번째로, 우리는 기계에게, 자체의 개인적 경험으로부터 이야기를 획득하는 업무를 하지 않아도 되게 하면서 편리한 표현으로 이야기를 인코딩하게 한다. 이 미니테스트에 합격하는 것이 내 일생의 과업이었다. 의식적으로는 지난 24년동안, 그리고 무의식적으로는 그 이전부터 시작했다.
미니-튜링테스트를 치를 때 표현문제가 획득문제보다 앞서야 하는 것은 쉽게 알 수 있다. 표현방법 없이는, 정보를 어떻게 저장해야 나중에 사용할 수 있을지 알 수 없을 것이다. 우리 로봇이 환경을 의도대로 조작할 수 있더라도, 우리 로봇이 이 조작결과를 인코딩할 템플릿을 부여받지 못한다면 이 방법으로 학습하는 어떤 정보라도 유실될 것이다. 인지연구에의 AI 의 핵심 업적은 “표현 먼저, 획득은 두번째” 파라다임이다. 좋은 표현형을 찾아 나선 것은 지식이 (데이터에서 왔던지, 프로그래머에서 왔던지에 상관없이) 어떻게 획득되어야 하는지에 대한 직관으로 이어졌다.
미니-튜링테스트에 관해 이야기할 때, 속여서 쉽게 성공할 수 있다고 주장하는 사람들이 많다. 예를 들어, 가능한 질문 모두를 나열하고 정답을 저장한 후 질문 받을 때 메모리에서 꺼내 읽는 것이다. 질문-정답 리스트를 저장한 멍청한 기계와 당신과 내가 대답하는 것 같이 (즉, 질문을 이해하고 멘탈 인과모델을 사용하여) 대답하는 기계를 구분할 수 있는 방법은 없다 (그래서 이런 주장이 나온다). 따라서 속이기가 쉬우면 미니-튜링테스트가 증명하는 것은 무엇이겠는가?
철학자 죤 설John Searle은 지능을 속일 능력은 지능을 가진 것에 해당한다는 튜링의 주장을 반박하기 위해 이 속이기 가능성을 1980년에 소개했다. “중국방Chinese Room” 주장으로 알려졌다. 죤 설의 도전은 흠이 단 하나 있었다. 속이는 것이 쉽지 않다. 사실 불가능하다. 변수 개수가 적더라도 가능한 질문의 수는 천문학적으로 늘어난다. 우리가 두 값 (0 이나 1) 을 가지는 인과 변수 10 개가 있다고 해보자. “변수 \(X\) 가 1 과 같은 것을 보고, 변수 \(Y\) 를 0 으로 만들고, 변수 \(Z\) 를 1과 같게 만드는 조건에서 출력이 1 일 확률은 무엇인가?” 같은 질문은 약 3천만 개가 된다. 변수가 더 많거나, 각 변수당 두 개 이상의 상태가 있으면, 가능한 개수는 상상할 수도 없을 만큼 폭증한다. 죤 설의 목록은 우주의 원자의 개수보다 더 많은 내용물이 필요하게 된다. 따라서 질문 답의 단순한 목록은 성인은 커녕 아이의 지능을 절대 모사할 수 없다.
인간에는 두뇌에 필요한 정보를 간결하게 표현하는 것과, 각 질문을 적절히 해석하고 저장된 표현에서 정답을 추출하는 효율적인 과정이 있음에 틀림없다. 따라서, 미니-튜링 테스트에 성공하기 위해 우리는 기계에, 유사하고 효율적인 표현형과 정답 추출 알고리즘을 장착시켜야 한다.
이를 만족시키는 표현형이 있는데 아이와 같은 단순함을 가지고 있다. 바로 인과 다이아그램이다. 매머드 사냥 다이아그램 예시를 이미 보았다. 점-화살표 다이아그램으로 지식을 매우 쉽게 소통할 수 있기 때문에, 나는 우리 뇌가 이런 표현을 사용한다고 믿는다. 하지만, 우리 목적에 더 중요한 것은, 이 모델은 미니-튜링 테스트에 성공한다는 것이다. 다른 어떤 모델도 이를 한다고 알려져 있지 않다. 예 몇 가지를 보자.
어떤 죄수가 총살형이 집행될 예정이라고 하자. 일련의 사건을 거쳐 집행이 된다. 먼저 법원에서 집행을 명령한다. 명령은 소대장에게 전달되고, 소대장은 집행소대에 있는 병사들(\(A\) 와 \(B\))에게 신호를 보낸다. 우리는 그들이 순종적이고 전문적인 사수이고, 명령에 의해서만 사격하고, 둘 중 하나가 쏘면 죄수가 사망한다고 가정한다.

그림1.4에서는 방금 다룬 이야기를 다이아그램으로 보여준다. 미지수(\(CO\), \(C\), \(A\), \(B\), \(D\))는 모두 참/거짓 변수이다. 예를 들어 \(D = 참\) 은 죄수가 사망했음을, \(D = 거짓\) 은 죄수가 사망하지 않음을 의미한다. \(CO = 거짓\) 은 법원 명령이 떨어지지 않았음을, \(CO = 참\) 은 떨어졌음을 의미한다.
이 다이아그램을 이용하여, 우리는 사다리 각 층의 인과질문에 대답해 볼 수 있다. 우선, 연관성질문(즉, 하나의 사실이 다른 사실에 대해 이야기하는 것)에 답할 수 있다. 만약 죄수가 사망했다면, 법원명령이 떨어졌음을 의미하는가? 우리는 (혹은 컴퓨터는) 그래프를 살펴보고 각 화살표가 내포한 법칙을 따라가고 표준 논리를 사용하여, 소대장이 지시를 하지 않았다면 두 병사는 발포하지 않았을 것이라고 결론내릴 수 있다. 같은 방법으로 소대장이 명령을 받지 않았다면 지시를 내리지 않았을 것이다. 따라서 우리 질의에 답은 “그렇다”가 된다. 다른 방법으로, 우리가 \(A\) 가 발포했다는 것을 알았다고 하자. 이것은 \(B\) 에 대해 무엇을 알려주는가? 컴퓨터는 화살표들을 따라가서 \(B\) 도 발포했다고 결론내린다 (소장이 지시를 내리지 않았다면 \(A\) 도 발포하지 않았을 것이기 때문에, \(B\) 도 발포했어야만 한다.) \(A\) 가 \(B\) 를 야기하지 않았지만(\(A\) 에서 \(B\) 로 가는 화살표가 없음), 이는 참이 된다.
인과사다리를 올라가서 개입에 관한 질문을 할 수 있다. \(A\) 병사가 소대장의 명령을 기다리지 않고, 본인의 의지로 발포를 하기로 결정하면 어떻게 될까? 죄수는 죽을 것인가 살 것인가? 사실 이 문제는 이미 모순이 있다. \(A\) 는 명령 받을 때만 총을 쏜다고 방금 이야기했는데 지금은 명령 없이 발포했다면 어떻게 될까라고 묻고 있다. 독자 여러분이 컴퓨터처럼 논리 법칙들을 사용하고 있다면, 이 문제는 의미가 없다. 1960년대 공상과학 TV 시리즈 로스트 인 스페이스 에서는 로봇이 이와 같은 상황에서 이렇게 말하곤 한다. “계산이 안된다.”
컴퓨터가 인과관계를 이해하도록 하려면, 법칙을 깨는 법을 가르쳐야 한다. 사건을 단순히 관측하는 것과 일어나게 하는 것 사이의 차이를 가르쳐야 한다. 컴퓨터에게 다음과 같이 이야기 한다. “당신이 한 사건을 일어나게 했다면 그 사건으로 향하는 화살표를 모두 제거하고 화살표가 없었던 것처럼 일반논리로 분석을 계속하라.” 개입된 변수(\(A\))로 향하는 모든 화살표를 지운다. 그리고 이 변수에 약속된 값(참)을 수동으로 설정한다. 이 이상한 “수술” 의 논리는 간단하다. 사건을 일어나게 한다는 것은, 다른 모든 영향으로부터 해방시키고, 사건을 강제로 일으키게 하는 단 하나의 영향에만 종속시키는 것이다.
그림1.5에 우리 예시의 결과인 인과다이아그램이 있다. 이 개입은 필수불가결적으로 죄수의 죽음을 야기했다. \(A\) 에서 \(D\) 로의 화살표가 내포한 인과함수이다.

수술의 결과로 \(A\) 에서 \(D\) 로의 화살표만 남기 때문에, \(A\)의 허락받지 않은 발포가 죄수를 죽음으로 이끌었을 것이라는 우리의 직관적 판단과 일치한다. 또한 우리의 판단은 \(B\) 는 발포하지 않았다 는 것이다. \(A\) 의 결정은 발포의 결과를 제외하고는, 모델의 변수에 어떠한 영향도 주지 않아야 한다. 똑같이 다음과 같이 된다. \(A\) 가 발포한 것을 우리가 본다면 , \(B\) 도 발포했다고 결론내린다. 하지만 \(A\) 가 발포를 결정한다면 , 혹은 우리가 \(A\) 에게 발포하도록 한다면 , 반대가 참이다.1 이것이 “보는 것” 과”하는 것” 의 차이점이다. 이 차이점을 파악할 수 있는 컴퓨터만 미니-튜링테스트에 통과할 수 있다.
또한 단순히 빅데이터를 수집한다고 해서 사다리를 올라가서 위의 질문에 답할 수 없을 것이다. 당신이 매일 집행장면의 기록을 수집하는 기자라고 해 보자. 데이터는 두 가지 종류의 이벤트로 구성된다. 다섯 개의 변수가 모두 참이거나 모두 거짓이다. 누가 누구의 말을 듣는지 이해하지 못하면, 이런 종류의 데이터만 가지고는 \(A\) 병사를 발포하지 않게 했을 때의 결과를 당신이 (또는 모든 기계학습 알고리즘이) 예측할 수 있는 방법은 없다.
마지막으로 인과사다리 3층을 이해하기 위해 반사실적 질문 하나를 살펴보자. 죄수가 땅에 죽어 누워 있다고 하자. 이것으로부터 우리는 (1층 개념을 사용하여) \(A\) 가 발포했고, \(B\) 가 발포했고, 소대장이 신호를 보냈고, 법원이 명령을 내렸다는 결론을 내릴 수 있다. 그러나 \(A\) 가 총을 쏘지 않기로 결정했다면? 죄수가 살아있을까? 이 질문은 현실 세계와 \(A\)가 쏘지 않은 가상의 모순된 세계를 비교하도록 요구한다. 가상의 세계에서 \(A\)로 향하는 화살표를 지워서 \(A\) 가 \(C\) 를 듣지 않도록 한다. 대신 \(A\)는 거짓으로 설정되어 과거 역사가 현실 세계와 계속 동일하게 된다. 따라서 가상의 세계는 그림1.6과 같다.

컴퓨터가 미니-튜링 테스트를 통과하려면, \(B\) 의 총에 맞았을 것이기 때문에 우리 컴퓨터는 죄수가 가상의 세계에서도 죽을 것이라고 해야 한다. 그러니 \(A\) 가 과감히 변심을 해도 죄수의 목숨을 구하지 못했을 것이다. 의심할 여지 없이 이것이 발포소대가 필요한 이유 중 하나이다. 발포소대는 법원의 명령이 이행될 것임을 보장하고, 또한 개별 사수의 책임감의 부담을 덜어 주어, (다소) 양심적으로 “어쨌든 죄수는 죽었을 것이다” 라고 말하며 자신의 행동이 죄수의 죽음을 야기하지 않았다고 말할 수 있게 한다.
답이 뻔한 간단한 질문에 대답하기도 너무 복잡해 보인다. 100퍼센트 동의한다! 당신은 인간이기 때문에 인과추론이 쉽다. 당신이 세 살이었을 때 어떤 동물이나 컴퓨터보다 인과관계를 더 잘 이해하는 놀라운 세 살짜리 두뇌를 가졌다. “미니-튜링 문제”의 요점은 컴퓨터에서도 인과추론을 가능하게 하는 것이다. 그 과정에서 우리는 인간이 어떻게 하는지에 대해 배울 수 있다. 세 가지 예 모두에서 볼 수 있듯이 우리는 컴퓨터에게 논리규칙을 선택적으로 깨는 방법을 가르쳐야 한다. 컴퓨터는 아이들도 잘하는 기술인 규칙을 깨는 데 능숙하지 않다. (동굴에 사는 사람도 그렇다! 어떤 머리가 어떤 몸과 있어야 하는지에 관한 법칙을 깨지 않고, 라이언맨은 만들 수 없었을 것이다.)
그러나 인간의 우월성에 너무 안주하지 말자. 인간이 정확한 인과관계 결론에 도달하기까지 많은 시간을 할애해야 하는 상황도 많다. 예를 들어, 변수가 더 많이 있거나, 변수가 간단한 이진(참/거짓) 변수가 아닐 수 있다. 죄수의 생사 여부를 예측하는 대신 최저 임금을 인상하면 실업률이 얼마나 오를지 예측할 수 있다. 이러한 종류의 양적 인과추론은 일반적으로 우리의 직관력을 넘어선다. 또한 총살형 예에서 우리는 불확실성을 배제했다. 소총수 \(A\) 가 총을 쏘기로 결정하자마자 소대장이 명령을 내렸을 수도 있고, 소총수 \(B\) 의 총이 막혔을 수도 있다. 불확실성을 처리하려면 그러한 이상이 발생할 가능성에 대한 정보가 필요하다.
확률이 모든 것을 결정하는 예를 보여주겠다. 천연두 백신이 처음 도입되었을 때 유럽에서 공개토론이 촉발되었다. 데이터에 따르면 예상과 다르게 천연두 자체보다 천연두 백신접종으로 사망한 사람이 더 많았다. 당연히 어떤 사람들은 이 정보를 사용하여 백신접종을 금지해야 한다고 주장했다. 실제로 백신접종은 천연두를 박멸하여 생명을 구하는 것이었다. 몇몇 가상 데이터로 효과를 설명하고 분쟁을 해결해 보자.
백만 명의 어린이 중 99%가 백신접종을 받았고 1%가 백신접종을 받지 않았다고 하자. 어린이가 백신접종을 받으면 부작용이 발생할 확률은 백분의 1이고 치명적일 확률은 백분의 1이다. 반면에 천연두에 걸릴 가능성은 없다. 한편, 어린이가 백신접종을 받지 않으면 백신 부작용 가능성은 확실히 없지만 천연두에 걸릴 확률은 50분의 1이다. 마지막으로 천연두가 5건 중 1건의 경우 치명적이라고 가정해 보자.
여러분은 백신접종이 좋은 생각이라는 데 동의할 것이다. 부작용이 생길 확률은 천연두에 걸릴 확률보다 낮고 부작용은 천영두보다 훨씬 덜 위험하다. 이제 데이터를 살펴보자. 100만 명의 어린이 중 990,000명이 백신을 맞고 9,900명이 부작용을 보이며 99명이 사망한다. 한편, 10,000명은 백신접종을 받지 않고 200명은 천연두에 걸리고 40명은 질병으로 사망한다. 요약하면, 천연두(40)보다 백신접종(99)으로 더 많은 어린이가 사망한다.
보건당국 앞에서 “죽음의 백신!” 이라고 쓰인 팻말을 들고 시위하는 부모들을 이해할 수 있다. 그리고 데이터를 보면 그들 말이 맞는 것 같다. 백신접종은 실제로 천연두 자체보다 더 많은 사망을 초래한다. 그러나 논리가 그들 편일까? 백신접종을 금지해야 할까 아니면 예방 효과를 감안해야 할까? 그림1.6에 이 예의 인과관계 다이아그램이 있다.
앞에서 백신접종률은 99 % 였다. 이제 “백신접종률을 0으로 설정했다면 어땠을까?”라는 반사실적 질문을 던져 보자. 위에서 제시한 확률을 사용하여 100 만 명의 어린이 중 20,000명이 천연두에 걸리고 4,000명이 사망했다는 결론을 내릴 수 있다. 가상 세계와 현실 세계를 비교하면, 백신을 미접종시 3,861 명의 어린이(4,000명과 139명의 차이)의 생명이 희생되었으리라는 것을 알 수 있다. 반사실 언어 덕분에 우리는 이러한 피해를 피할 수 있었다.2

인과관계를 학습하는 학생이 얻을 수 있는 교훈은 인과모델에는 단순히 화살표를 그리는 것 이상의 의미가 있다는 것이다. 화살표 뒤에는 확률이 있다. 우리가 \(X\) 에서 \(Y\) 로 화살표를 그릴 때, 우리는 어떤 확률 규칙이나 함수가 \(X\) 가 변할 때 \(Y\) 가 어떻게 변할지 지정한다는 것을 암시적으로 말하고 있다. 우리는 법칙이 무엇인지 알 수도 있다. 혹은 법칙을 데이터에서 추정해야 할 수 있다. 그러나 인과혁명의 가장 흥미로운 특징은 이러한 수학적 세부사항을 완전히 지정하지 않아도 되는 경우가 많다는 것이다. 다이아그램 자체의 구조 를 통해 모든 종류의 인과관계 및 반사실 관계를 추정할 수 있는 경우가 자주 있다. 단순한 관계인지 복잡한지, 결정적인지 확률적인지, 선형인지 비선형인지와 상관없이 말이다.
컴퓨팅 관점에서 볼 때 우리의 미니-튜링 테스트 전략은 세 가지 예 모두에서 동일한 루틴을 사용했다는 점도 주목할 만하다. 이야기를 다이아그램으로 변환, 질의 듣기, 주어진 질의에 해당하는 (개입적 혹은 반사실적) 수술 수행 (질의가 연관적이면 수술이 필요하지 않음), 수정된 인과모델을 사용하여 답변을 계산하는 루틴이다. 이야기를 변경할 때마다 수많은 새로운 질의를 사용하여 기계를 훈련할 필요가 없다. 이 접근방식은 유연성이 좋아서 매머드, 발포소대, 백신접종과 관련이 있는지 여부에 관계없이 인과다이아그램을 그릴 수 있으면 작동한다. 이것이 바로 우리가 인과추론엔진에 원하는 것이다. 인간이 누리고 있는 유연성이다.
물론 다이아그램에 마법 같은 것은 본질적으로 없다. 인과관계 정보를 전달하기 때문에 유용한 것이다. 즉, 다이아그램을 구성할 때 “누가 직접 죄수를 죽였을까?” 또는 “백신접종의 직접적인 영향은 무엇일까?” 라고 질문했다. 단순한 연관성에 대해 질문하여 다이아그램을 구성했다면 이러한 기능을 제공하지 않았을 것이다. 예를 들어, 그림 1.7에서 백신접종 \(\rightarrow\) 천연두 화살표를 반대로 하면 데이터에서 연관성에선 동일하지만 천연두가 백신접종에 영향을 미친다는 잘못된 결론을 내릴 수 있다.
수십 년동안 나는 이러한 종류의 질문들을 경험하고 난 후, 인지적 의미와 철학적 의미 모두에서 원인과 결과에 대한 개념이 확률보다 훨씬 더 근본적인 개념이라고 확신하게 되었다. 우리는 언어를 이해하기도 전에, 그리고 수학을 알기도 전에 원인과 결과를 배우기 시작한다 (연구에 따르면 3세 아동은 인과사다리 전체를 이미 이해함.) 마찬가지로 인과다이아그램이 전달하는 지식은 확률분포로 인코딩된 지식보다 일반적으로 훨씬 강건하다. 예를 들어, 시대가 바뀌었고 훨씬 더 안전하고 효과적인 백신이 도입되었다고 가정해 보겠다. 또한 위생과 사회경제적 조건이 개선되어 천연두에 걸릴 위험이 감소했다고 가정해 보겠다. 이 변화는 모든 확률에 극단적으로 영향을 줄 것이다. 하지만 놀랍게도 다이아그램은 변하지 않는다. 이것이 인과모델링의 핵심 비밀이다. 더군다나, 데이터에서 백신의 장점을 추정하는 법을 배우면, 전체 분석을 매번 새로 할 필요가 없다. 들어가기장에서 보았듯이, estimand (즉, 질의에 대답하기 위한 레시피) 는 여전히 유효하고, 다이아그램이 변하지 않는 한 새로운 데이터에 적용해서 질의에 새로운 추정값을 생산할 수 있다. 나는 이 강건함때문에 인간 직관이 통계적 관계가 아닌 인과적 관계를 따라 조직화되었다고 생각한다.
1.3 확률과 인과관계
인과관계가 확률로 치환될 수 없다는 인식은 어렵게 어렵게 얻어졌는데, 개인적으로도, 그리고 철학자와 과학자들에게도 그렇다. “원인”의 의미를 이해하는 것은 철학자들이 오랫동안 탐구해 온 전통적인 주제였다. 1700년대와 1800년대의 데이비드 흄과 존 스투어트 밀에서부터 1900년대 중반 한스 라이헨바흐Hans Reichenbach와 패트릭 수페스Patrick Suppes에까지, 오늘날의 낸시 카라이트Nancy Carwrite, 볼프강 슈폰Wolfgang Spohn과 크리스토퍼 히치콕Christopher Hitchcock에 이르기까지 그렇다. 특별히 라이헨바흐와 수페스부터 시작한 철학자들은 “확률증가”라는 개념을 사용하여 다음과 같이 확률로 인과관계를 정의하려고 했다. \(X\) 가 \(Y\) 의 확률을 증가시키면, \(X\) 가 \(Y\) 의 원인이다.
이 개념은 직관과 잘 들어맞는다. 예를 들어, 절대적으로 그런 것은 아니지만, 선행하는 것이 결과를 만들었을 가능성이 있다는 것을 느끼면서 “난폭하게 운전하면 사고의 원인이 된다” 또는 “당신이 게으르기 때문에 이 과목에서 낙제할 것이다” 라고 말한다. 따라서 확률이 오르는 것이 인과사다리의 1층과 2층 사이의 다리여야 한다고 생각하는 사람이 있을 수 있다. 아차, 이 직관때문에 수 십년동안의 시도가 실패로 끝났다.
이 시도가 실패한 이유는 생각 자체때문이 아니라, 공식적으로 설명되는 방식때문이었다. 예외 없이, 철학자들은 조건부 확률을 사용하여 “\(X\) 가 \(Y\) 의 확률을 증가시킨다” 라고 표현했고, \(P(Y|X) > P(Y)\) 로 썼다. 독자 여러분이 눈치챘겠지만, 이 해석은 틀렸다. “증가시킨다” 는 \(X\) 의 \(Y\) 에의 인과적 영향을 함축하는 인과적 개념이다. 반면에 \(P(Y|X) > P(Y)\) 표현식은 관측에 대해서만 이야기하고, “\(X\) 를 보면, \(Y\) 의 확률이 증가한다” 를 의미한다. 하지만 이 증가는 \(Y\) 가 \(X\) 의 원인이거나, 다른 변수(\(Z\))가 두 변수의 원인인 경우를 포함해서 다른 이유들 때문에 생긴 것일 수 있다. 이거였구나! 이런 이유 때문에 철학자들은 “다른 이유들”을 제거하려고 하면서, 원 상태로 돌아가게 된다.
\(P(Y|X)\) 와 같은 표현식에 있는 확률은 인과사다리 첫번째 층에 속하기 때문에, 두번째나 세번째 층의 질의에 전혀 (스스로) 답할 수 없다. 간단해 보이는 첫번째 층의 개념으로 인과관계를 “정의”하려는 시도는 모두 성공하지 못한다. 내가 이 책에서 인과를 정의하지 않았던 이유이다. 정의를 하려면 요약을 해야하고, 요약을 하려면 아래 층으로 내려가야 한다. 나는 인과질의에 어떻게 답해야 하는지와 답을 하기 위해 어떤 정보가 필요한지를 설명하기 위한 건설적인 프로그램을 추구해왔다. 이것이 이상해 보일 수 있는데, 수학자들이 유클리드 기하학에 대해 정확히 같은 방법을 취한다는 것을 생각해 보라. 기하학 책에는 “점” 이나 “선” 용어의 정의가 없을 것이다. 하지만 우리는 유클리드 공리들(혹은 유클리드 공리들의 다양한 현대적 버전)에 기반하여 점과 선에 관한 질의 모두에 답할 수 있다.3
확률증가 기준을 자세히 살펴보고, 이것이 어디서 작동하지 않는지 알아보자. \(X\) 와 \(Y\) 의 공통원인, 즉 교락요인 문제는 철학자들에게 골치아픈 것이었다. 확률증가 기준을 액면 그대로 받아들이면, 범죄확률이 아이스크림이 많이 팔리는 달에 증가하므로, 아이스크림 판매가 범죄를 일으킨다고 결론내려야 할 것이다. 이 경우, 날씨가 따뜻한 여름에 아이스크림 판매와 범죄율이 동시에 높기 때문에 이 현상을 설명할 수 있다. 그럼에도 불구하고 우리는 아이스크림이 아닌 날씨가 원인이라고 말할 수 있는 철학적 기준이 무엇인지 대해 여전히 묻고 있다.
철학자들은 소위 “배경요인”(교락요인의 다른 말)에 조건부로 하여 정의를 수정하기 위해 열심히 노력해서, \(P(Y|X, K=k)> P(Y|K=k)\) 기준을 만들었다. 여기에서 \(K\) 는 배경 변수들을 의미한다. 사실, 기온을 배경변수로 취급하면 이 기준은 우리 아이스크림 예에 잘 들어맞는다. 예를 들어, 우리가 기온이 화씨 90도 (\(K=90\))인 날만 본다면, 아이스크림과 범죄 사이의 잔여 연관성을 발견하지 못할 것이다. 확률이 오르는 환상을 본 것은 90도였던 날들을 30도였던 날들과 비교할 경우에만 국한된다.
하지만, 어떤 철학자도 다음 질문, “어떤 변수들이 배경집합 \(K\) 에 포함되고 조건부가 되어야 하는가?”에 설득력있는 일반적인 해답을 제시할 수 없었다. 이유는 명확하다. 교락도 인과개념이어서, 확률적 문제정의에 들어맞지 않기 때문이다. 1983년 낸시 카트라이트Nancy Cartwright는 이 교착상태를 극복했고, 인과요소를 이용하여 배경문맥을 자세하게 기술했다. 그녀는 우리가 결과에 “인과적으로 관련된” 요인들에 조건부를 해야한다고 제안했다. 인과사다리 2층 개념을 빌려와서, 확률에만 기반하여 원인을 정의하지 않은 것이다. 이는 진일보한 것이지만, 원인을 순환적으로 정의하고 있다는 비판이 쏟아졌다.
\(K\) 에 무엇이 적절한 요소인지에 관한 철학적 논쟁은 20년 이상 지속되었고, 무감각에 이르렀다. 4장에서 바른 기준을 보게 될 것이어서, 여기에서 스포일하지 않겠다. 지금은 이 기준이 실질적으로 인과다이아그램 없이 설명하는 것이 불가능하다고 이야기하는 것만으로 충분하다.
요약하면, 확률적 인과성은 교락이라는 암초에 항상 좌초되었다. 확률적 인과관계의 집착자들이 배에 새로 난 구멍에 임시방편으로 땜빵할 때마다, 같은 암초에 좌초되고 다른 구멍에서 물이 새기 시작한다. 당신이 조건부 확률의 언어로 “확률증가”를 잘못 표현한다면, 사다리 위 층으로 데려다 줄 확률적 땜빵은 없을 것이다. 이상하게 들릴 수 있지만, 확률증가의 개념은 확률의 용어로 표현될 수 없다.
do-연산자를 사용하면 확률증가 개념에서 빠져나올 수 있다. 우리는 \(P(Y|do(X))> P(Y)\) 이면 \(X\) 가 \(Y\) 를 야기한다라고 말할 수 있다. 개입은 2층 개념이므로, 이 정의는 확률증가의 인과해석을 포괄할 수 있고 이는 또한 인과다이아그램을 통해 작동될 수 있다. 다른 말로 하면 우리에게 인과다이아그램과 데이터가 있고, 연구자가 \(P(Y|do(X))>P(Y)\) 인지를 묻는다면, 우리는 이 질문을 논리정연하고 알고리즘적으로 대답할 수 있고 확률증가 개념으로 \(X\) 가 \(Y\) 의 원인인지를 결정할 수 있다.
나는 철학자가 인과관계, 귀납법, 과학적 추론의 논리와 같은 복잡한 개념들에 대해 무엇이라 이야기하는지 고도로 집중한다. 철학자들은 과학적 논쟁과 데이터를 다루는 현실에서 일어나는 야단법석으로부터 떨어져 있다는 잇점이 있다. 그들은 다른 과학자들보다 통계학의 “반인과 편향”에 덜 오염되었다. 철학자들은 인과관계에 대해 적어도 아리스토텔레스로 돌아가는 인과관계에 대한 사고의 전통을 요청할 수 있고, 인과관계를 이야기할 때 얼굴이 붉어지거나, “연관성” 라벨 뒤로 숨기지 않을 수 있다.
그러나, 철학자들은 인과관계의 개념을 수학화하려고 노력할 때 (이 자체는 칭찬할만 함) 너무 성급했기 때문에, 그들이 알고 있는 불확실성을 다루는 언어인 확률의 언어에만 전념하지 못했다. 그들은 지난 십년 정도동안 이 실수를 대부분 만회했지만, 불행하게도 지금까지 계량경제학에서는 유사한 생각이 “그레인져Granger 인과성”, “벡터 자동회귀vector autoregression”와 같은 이름 아래 추구되고 있다.
고백할 것이 있다. 나도 동일한 실수를 했다. 확률보다 인과성을 항상 우선시하지 않았다. 반대였다! 인공지능을 연구하기 시작한 1980년대 초반, AI 가 빠트린 것 중에 가장 중요한 것이 불확실성이었다고 믿었다. 게다가 불확실성을 확률로 표현해야 한다고 주장했다. 따라서 3장에서 설명하듯이 나는 불확실성 아래에서의 추론방법인 베이지언 네트워크를 개발했는데 이는 이상적이고 탈중심화된 두뇌가 확률을 결정에 통합하는 것을 모사한다. 베이지언 네트워크는 한 사실을 알 때 다른 사실이 참 혹은 거짓일 가능성을 빠르게 계산할 수 있다. 당연하게도, 베이지언 네트워크는 AI 커뮤니티에서 빠르게 유행이 되었고 그리고 오늘날까지 불확실성 아래에서 추론을 위한 인공지능의 주요 패러다임으로 여겨진다.
베이지언 네트워크가 성공을 계속한 것은 기쁜 일이었지만, 인공지능과 인간 지능 사이에 간극을 없애는 데에는 실패했다. 여러분은 어떤 재료가 빠졌는지 알아차릴 수 있을 것이다. 바로 인과성이다. 정말로 인과 유령들은 사방에 있었다. 화살표는 여전히 원인에서 결과로 향하고 있었고, 실무자들은 화살표의 방향이 뒤집어졌을 때 진단시스템이 다룰 수 없게 되었다는 것을 자주 목격했다. 하지만 대부분 우리는 이것이 지적 행동의 중심 면이 아닌, 문화적 습관이었거나 예전 생각 패턴의 유물이었다고 생각했다.
그 당시 나는 확률의 힘에 취해서 인과성을 확률적 의존성을 표현하고 관련 변수들을 그렇지 않은 것들을 구분하는데 있어 편하고, 정신적 속기법인 하위개념이라고 생각했다. 1988년에 내가 쓴 인공지능 시스템에서 확률적 추론 책에서 “인과는 관련성 관계의 특정 구조에 관해 효과적으로 말할 수 있는 언어이다” 라고 썼다. “관련성”이 명백하게 1층 개념이기 때문에 오늘에서야 보면 부끄럽다. 책이 출판되었을 때 나는 틀렸다는 것을 마음속에서 알았다. 동료 컴퓨터 과학자들에게 내 책은 불확실성 아래의 추론에 있어서 바이블이 되었지만 나는 배교자처럼 느꼈다.
베이지언 네트워크는 모든 문제들이 확률이나, (이 장에서 본 용어를 사용하여) 변수 사이의 연관성으로 요약되는 세계에 살고 있다. 그들은 인과사다리의 2층이나 3층으로 올라갈 수 없다. 다행스럽게도 그들은 맨 꼭대기로 올가가기 위해서는 두 번 약간 수정을 해야 했다. 첫번째는 1991년에 그래프 수술 개념이 고안되어 관측과 개입을 함께 할 수 있게 되었다. 1994년에는 두 번째 작업으로 인해 3층으로 올라가서, 반사실을 다룰 수 있게 되었다. 자세한 사항은 뒤에서 충분히 논의할 필요가 있다. 중요한 것은 이것이다. 확률은 정적 세계에 대한 우리의 믿음을 인코딩하는 반면, 인과성은 개입이나 상상에 의해 세상이 변화했을 때 확률이 변하는지, 변하면 어떻게 변하는지를 알려준다.