노이즈: 생각의 잡음, 대니얼 카너먼, 올리비에 시보니, 캐스 선스타인, 김영사, 2022(1판 6쇄)
똑같은 소프트웨어 개발자에게 똑 같은 작업을 완수하는 데 시간이 얼마나 걸릴 것으로 예상하는지 각기 다른 두 날에 물었다. 그들이 예상한 소요 시간은 평균 70퍼센트 차이가 났다.
면접관들은 같은 지원자를 대단히 다르게 평가한다. 같은 직원의 인사고과도 천차만별이다. 평가 대상이 되는 업무 수행 능력보다 누가 그를 평가하느냐에 따라 인사고과가 갈린다.
무엇보다 놀랍게도 판사들은 20개 사건 중 16개 사건에서, 피고에게 징역형을 선고하는 것이 적절한가를 두고 만장일치에 이르지 못했다.
잡음 감사는 전문적인 판단을 내리는 사람들과 그들을 고용한 조직이 의견 일치라는 환상에 빠져 있음을 보여줬다. 사실상 그들이 매일같이 하는 전문적인 판단에 의견 불일치가 존재하는데도 말이다.
예를 들어 내과 의사들에게 같은 사례에 대해서 두 차례에 걸쳐 진단을 내릴 것을 요청하면, 그들은 매순간 상당히 다른 진단을 내릴 것이다. 미국의 주요 와인 대회에서 같은 와인을 두 번 시음한 와인 감별사들은 18퍼센트의 와인에 대해서만 똑 같은 점수를 줬다(똑 같은 점수를 받은 와인들은 대체로 최악의 와인들이었다).
불과 패슬러는 “스스로에게 같은 질문을 두 번 했을 때는 다른 누군가에게서 두 번째 의견을 구할 때의 10분의 1 정도의 판단 개선 효과를 얻는다”고 말했다. 개선 효과가 그렇게 크지는 않다. 하지만 시간 간격을 두고 두 번째 예측을 하면, 개선 효과는 훨씬 더 커진다.
지금쯤이면 모두가 적어도 상황 잡음의 원천 하나는 눈치챘을 것이다. 그건 바로 판단을 내리는 순간 판단자의 기분이다.
고든 페니쿡Gordon Pennycook 연구진은 의미 없지만 심오하게 들리는 문장에 대한 사람들의 반응을 여러 차례 연구했다. 그들은 유명 인사들의 말에서 무작위로 선택한 명사와 동사를 조합해 문법적으로 옳은 문장을 만들어냈다. 예를 들어 ‘완전함이 무한한 현상을 잠재운다’ 또는 ‘숨겨진 의미가 독보적인 추상적인 미를 변형시킨다’ 등의 문장을 만들어냈다. 이런 의미 없는 말에 동조하는 상황을 개소리 수용성bullshit receptivity이라 부른다. (‘개소리’는 프린스턴대학교 철학 교수 해리 프랑크푸르트가 통찰이 돋보이는 <개소리에 대하여>를 출판한 뒤 일종의 전문용어가 됐다. 그는 다른 유의 허언과 개소리를 구별해냈다.)
앞서 보았듯이 가령 망명 판사가 앞선 심리에서 두 차례 연속 망명을 허가했다면, 다음 망명 신청자의 미국 망명이 승인될 가능성은 19퍼센트 하락한다. 이러한 변산성은 분명 문제가 있다. 하지만 이것은 판사들 사이에서 관측되는 변상성 앞에서는 무색해진다. 어느 마이애미 법원에서 자야 람지노갈레스Jaya Ramji-Nogales 연구진은 다른 판사들이 망명 신청자의 5퍼센트에게만 망명을 허용한 데 반해, 판사 한 병은 무려 88퍼센트에게 망명을 허용했다는 사실을 확인했다.
달리 말하면, ‘나’라는 사람이 늘 똑같진 않으며, 생각보다 시간이 흐르면서 판단의 일관성이 떨어진다. 그래도 조금 안심될 만한 말을 하자면, 나는 오늘의 다른 누군가보다 어제의 나와 더 비슷한 사람이다.
초반의 인기는 자기강화적이다. 만약 어떤 안건이 첫날 지지를 거의 얻지 못했다면, 그 안건은 끝내 국민투표를 통과하지 못할 것이다.
이런 예측을 위해 국제적인 컨설팅 회사에 고용된 박사 수준의 심리학자들은 업무 실적의 평가와 .15의 상관계수를 얻어냈다(일치 백분율=55%). 다시 말해 심리학자들이 한 후보자를 다른 후보자보다 더 강력하다고 평가했을 때, 그들이 선호하는 후보자가 업무에서 우수한 실적을 올릴 확률은 55퍼센트였다. 솔직히 이건 그다지 인상 깊은 결과가 아니다.
아마도 잠재력 평가 결과가 예측에는 쓸모없었기 때문에 정확도가 낮았다고 생각할 수 있다.
밀의 연구 결과에 따르면, 자신의 판단의 질에 대해서 느끼는 만족감이 얼마나 높든지 간에 그 만족감은 환상, 즉 타당성의 환상illusion of validity일 뿐이다.
판단의 단순화는 간소한 모델 또는 단순한 규칙을 통해 나타난다. 간소한 모델은 터무니없이 단순화되어 마치 수박 겉 핥기 식으로 어림잡아 계산한 듯한 현실적인 모델이다. 그런데도 간소한 모델은 놀라울 정도로 정확한 추정값을 도출할 수 있다.
많은 전문가들은 임상적 판단과 기계적 판단을 둘러싼 논란을 무시한다. 그들은 자신의 판단과 직관을 신뢰하고, 기계가 자신보다 더 정확한 판단을 내릴 수 있다는 가능성을 의심한다.
그들은 알고리즘이 의사결정을 내리는 것은 비인간적이며 책임회피라고 생각한다. 예를 들어 의학적 진단에서 알고리즘은 인상적인 진보를 이뤘지만 일상적으로 사용되진 않는다. 채용과 승진에 관한 결정에서 알고리즘을 사용하는 조직은 거의 없다. 할리우드의 영화제작자들은 어떤 공식이 아니라 자신들의 판단과 경험을 근거로 영화 제작을 승인한다. 출판사들도 자신들의 판단과 경험을 바탕으로 출판을 결정한다.
더 포괄적으로 말하면, 스스로 서사를 만들어서 관측한 사건을 설명해내는 능력이 사람들로 하여금 세상을 이해한다고 느끼게 만든다. 어떤 사건의 원인을 찾는 여정은 대체로 늘 성공적이다. 왜냐하면 원인이란 것은 이 세상에 대한 무한한 사실과 믿음으로부터 도출될 수 있기 때문이다. 예를 들어 저녁 뉴스를 본 사람이라면 누구나 주식 시장에 나타난 거대한 움직임들 가운데 설명되지 않는 것이 거의 없다는 사실을 알 것이다.
여기서 짚고 넘어갈 부분이 있다. 인과적 사고가 통계적 사고보다 훨씬 더 자연스럽게 다가온다는 점이다. 통계적으로 다뤄야 하는 설명조차 인과적 서사로 쉽게 변하는 것은 이 때문이다. ‘그들은 경험이 부족했기 때문에 실패했다’라든지 ‘그들은 뛰어난 리더가 있어서 성공했다’ 같은 판단에 대해 생각해보자. 경험이 부족한 팀도 성공한 바 있고, 위대한 리더도 실패한 바 있다는 반증이 쉽게 떠오를 것이다.
이러한 사고의 오류를 피하는 대안이 세상에 대한 이해를 포기하는 것이라면, 결함이 있더라도 이런 사고방식에 의존할 수밖에 없을 것이다. 하지만 ‘인과적 사고’와 ‘과거를 이해하고 있다는 환상’ 때문에 우리는 어떤 일이 일어날지 너무나 자신만만하게 예측한다.
어느 연구는 칼로리가 메뉴의 오른쪽보다 왼쪽에 있을 때 소비자들이 칼로리 정보의 영향을 더 받는다는 흥미로운 사실을 보여줬다. 칼로리가 메뉴의 왼쪽에 적혀 있으면 소비자들은 칼로리 정보를 먼저 받아들이고, 메뉴를 보기도 전에 ‘칼로리가 엄청 높네!’라거나 ‘칼로리가 그렇게 높지 않네!’라는 생각을 한다. 그들이 처음에 보이는 긍정적이거나 부정적인 반응은 이후 그들의 선택에 큰 영향을 준다. 이와 대조적으로 소비자들이 메뉴를 먼저 보면 칼로리를 확인하기 전에 ‘맛있겠다!’라거나 ‘별로 맛있어 보이진 않네!’라는 식으로 생각하게 된다. 여기서도 그들의 처음 반응이 이후의 메뉴 선택에 지대한 영향을 미친다.
미국 법은 민사 배심원들에게 민사사건에 대해서 징벌적 손해배상을 내릴 수 있도록 하지만, 이때 그들이 참고할 만한 그 어떤 정보도 제공되지 않는다. 법은 노골적으로 다른 사건에서의 징벌적 손해배상액 규모에 대해 배심원단이 이야기를 나누지 못하도록 금한다. 미국 법은 배심원들의 정의감이 죄질에 대한 숙고를 통해 정확한 처벌을 도출하는 데로 나아갈 것이라고 상정한다. 그러나 이는 심리학적으로 난센스다. 사람에겐 그럴 능력이 없다.
잡음이 눈에 보이지 않는 것은 인과적 사고의 직접적인 결과다. 잡음은 본질적으로 통계적이다. 우리가 유사한 판단들의 집합에 대해 통계적으로 사고하면, 그때야 비로소 잡음이 눈에 띈다.
일부 전문가의 판단 정확도는 평가의 대상이 아니다. 이는 누구를 향한 비난이 아니며, 말 그대로 사실일 뿐이다. 많은 교수, 학자 그리고 경영 컨설턴트는 존경-전문가들이다. 그들의 신뢰성은 학생, 동료 또는 고객으로부터 그들이 받는 존경에 의해 결정된다.
누가 옳고 그른지를 결정하는 데 참값이란 존재하지 않는다. 그래서 우리는 존경-전문가들이 서로의 의견에 동의하지 않을 때조차 그들의 의견을 귀중하게 여긴다.
낮은 인지반응검사 점수는 유령, 점성술 그리고 초감각적인 현상에 대한 믿음을 포함하여 많은 현실 판단 및 믿음과 연관된다. 인지반응검사 점수는 사람들이 노골적으로 틀린 ‘가짜 뉴스’에 속아 넘어갈지 말지를 예측한다. 그리고 심지어 사람들이 스마트폰을 얼마나 많이 사용하느냐 와도 관련된다.
보건 분야는 판단의 요소를 제거하면서 진보한다. 판단 영역을 계산 영역으로 바꾸는 것이다.
근무평정 시스템에 대하여 수천 건의 연구 논문이 쏟아졌다. 대부분의 연구자들은 근무평정에 굉장한 수준의 잡음이 존재한다는 사실을 발견했다. 이렇게 번쩍 정신이 들게 하는 연구 결과는 대체로 다면평가에서 나왔다. 다면평가는 다수의 평정자가 여러 항목에 걸쳐 동일한 피평정자를 평가하는 근무평정 방법이다. 다면평가 연구의 결과는 그리 예쁘지 않다. 연구에 따르면 진변량, 즉 개인의 업무 실적에 영향을 주는 변량은 전체 변량의 20~30퍼센트 이상을 차지했다. 나머지 70~80퍼센트는 제도 잡음이었다.
도대체 이 잡음은 어디서 오는 것일까? 근무평정의 변량에 대한 여러 연구 덕분에, 제도 잡음을 구성하는 모든 요소가 근무평정에도 존재한다는 사실이 밝혀졌다. 실제로 근무평정을 해보면 그 구성요인들이 무엇인지 쉽게 이해할 수 있을 것이다. 린과 메리라는 두 명의 평정자가 있다. 린은 관대하고 메리는 엄격하다. 그래서 평균적으로 린은 메리보다 모든 피평정자에게 높은 점수를 준다. 여기서 수준 잡음이 확인된다.
요점은 상대평가에 기초한 근무평정 시스템은 조직이 상대적인 업무 실적을 중요하게 여기는 경우에만 적절하다는 것이다. 예를 들어 대령이 장군으로 승급되는 것처럼 개인의 절대적인 업무와 상관없이 정해진 비율만이 승진할 수 있는 조직에선 상대평가가 말이 된다. 하지만 절대적인 업무 실적을 평가하기 위해선 상대평가를 도입하는 것은 비논리적인 결정이지만, 많은 기업에서 이렇게 한다. (절대적) 기대치를 충족시키지 못한 것으로 평가되는 피평정자의 비율을 미리 정하는 것은 잔인할 뿐 아니라 불합리하다. 엘리트 부대의 10퍼센트에 반드시 ‘기준 미달’이라는 평가를 내려야 한다는 건 어리석은 소리다.
2015년 회계법인 딜로이트Deloite는 매년 직원 6만 5,000명의 근무평정을 실시하는 데 200만 시간을 썼다. 근무평정은 조직이 가장 두려워하는 의식이 되었다. 피평정자만큼이나 평정자도 근무평정을 싫어한다. 어느 연구에 따르면 관리자, 직원과 인사 책임자의 무려 90퍼센트가 근무 평정 시스템이 기대하던 결과를 도출하는 데 실패했다고 생각했다. 이 연구를 통해, 대부분의 관리자가 경험한 바가 다시금 확인된 것이었다. 직원의 역량 개발 계획과 관련될 때 근무평정은 개선 효과를 가져올 수 있지만, 근무평정 자체가 대체로 직원의 사기를 진작시키기보다는 일할 의욕을 꺾는다. 어느 결과에 따르면 “지난 수십 년 동안 [근무평정] 프로세스를 개선하고자 많은 노력을 했으나, 프로세스는 부정확하 정보를 생산했고 사실상 업무 실적을 높이는 것과 아무 상관이 없었다.”
이에 절망하여 소수이지만 점점 많은 기업들이 근무평정을 완전히 없애버리는 급진적인 선택을 고려하고 있다.
면접의 목적이 직무를 잘 수행할 지원자와 그렇지 못할 지원자를 가려내는 것이라면, 표준화된 면접이 그렇게 유익하지는 않다. 더 분명하게 말하자면, 대체로 표준화된 면접은 쓸모가 없다.
면접관이 입사 지원자에게 준 점수와 최종 선발된 지원자의 업무 수행도의 상관관계를 밝히는 연구가 많이 진행됐고, 위와 같은 결론에 도달했다.
조앤 모리슨은 자신의 논리를 설명하지 않았지만, 그녀는 그 교훈을 어렵게 깨달았다. 그녀는 특히 중요한 결정에 관해서 사람들이 자신이 원하는 대로 판단을 내리지 못하는 상황을 견디지 못한다는 것을 알았다. 그녀는 의사결정자들이 어떤 공식이 사용되는지를 알면 시스템을 어떻게 조작하는지를 봐서 익히 알고 있었다. 그들은 스스로 바람직하다고 생각하는 결론에 도달하기 위해서 점수를 바꿨다.
사람들은 자신들만의 독특한 사정을 누군가가 자세히 들여다보고 평가하여 판단을 내리기를 원한다. 사람들은 이러한 개인적인 대우가 잡음을 낳는다는 것을 알고 있거나 모르고 있을 것이다. 잡음이 독립적이 인격체로서 대우받기 위해서 치러야 하는 대가라면, 사람들은 그것은 치를 가치가 있는 대가라고 주장한다.
기업은 판단과 결정에 어느 정도의 융통성을 허용할 수 있다. 설령 그렇게 하면 잡음이 생기더라도, 융통성이 새로운 신념과 가치에 따라서 회사의 정책을 바꿀 기회가 될 수 있다.
의사는 환자에게 처방을 내릴 때 규칙이나 기준 둘 중 어느 하나를 사용한다. ‘매일 아침과 밤에 한 알씩 복용하시오’는 규칙이다. 반면에 ‘필요하다 싶을 때 한 알씩 복용하시오’는 기준이다.
판단이라는 단어를 사용할 때, ‘사고’와 헷갈려선 안 된다. 판단은 훨씬 더 협소한 개념이다. 판단은 일종의 측정이며, 판단의 측정 도구는 인간의 마음이다.