Blog Archive

레이블이 데이터과학인 게시물을 표시합니다. 모든 게시물 표시
레이블이 데이터과학인 게시물을 표시합니다. 모든 게시물 표시

2021-06-01

나는 감이 아니라 데이터로 말한다

나는 감이 아니라 데이터로 말한다. 신현호 저.

제목이 약간 도발적이다. 너희들은 감으로 이야기하지만 나는 객관적 사실을 가지고 이야기한다는 것인가? 이 책을 집어든 것이 대략 1년 쯤 전이었던 것 같다. 한참 데이터 관련 책들을 모두 읽어보자고 작심하던 때였다. 박형준의 『빅데이터 빅마인드』, 스타벅스의 데이터 과학자 차현나가 쓴 『데이터 읽기의 기술』, 좀 다른 이야기이지만 연세대 산업공학과 임춘성 교수가 쓴 『멋진 신세계』, 사회학자 하워드 베커가 쓴 『증거의 오류』, 한양대 경영대학 장석권 교수가 쓴 『데이터를 철학하다』 , 구글 데이터 과학자의 『모두 거짓말을 한다』 등을 보았다.

그 중에 증거의 오류와 데이터를 철학하다는 읽다가 너무 지루해서 집어던졌다. 가장 재미있게 본 두 권은 『모두 거짓말을 한다』와 『나는 감이 아니라 데이터로 말한다』였다. 전자는 구글의 검색 데이터만 가지고도 많은 사회 현상을 설명/예측할 수 있는 경제학자 출신 데이터 과학자의 통찰이 빛났었다. 후자의 책 역시, 경제학자 출신의 데이터 과학자가 데이터로 설명력을 높여주는 여러 가지 인간 집단의 특성과 사회적인 현상을 바라보는 틀을 배울 수 있어서 좋았다.  그리고 별로 기대하지 않았지만 생각보다 괜찮았고 인사이트를 주었던 책은 『빅데이터 빅마인드』, 데이터 과학자들이 무슨 일을 하는지 자세하게 알고 싶어 잔뜩 기대했지만 별로 기대에 차지 않았던 책은 『데이터 읽기의 기술』이었다.

경제학자들의 관심사가 무엇인지, 그리고 그 관심사들이 결국 심리학자들의 관심사와 얼마나 중첩되는지 엿보게 된 것 같다. 세상 일에 관심을 갖는 경제학자들과 사회학자들이 사회 현상을 이해하기 위해 여러 가지 데이터를 수집하고, 관찰한다. 그 데이터는 결국, 사람들의 행동과 반응을 집합적으로 모은 것이고, 그 안에는 인간 행동의 원리, 심리학의 관찰과 실험 데이터가 들어있다. 마치 데이터라는 다리를 통해, 세상과 인간을 더 잘 설명할 수 있도록 여러 학문들이 만난다고나 할까. 

책은 상당히 재미있다.  다음과 같은 질문들을 생각해보자.

로또 1등 당첨자가 나온 곳에서는 다음에도 당첨자가 또 나올까? 지금까지 슛을 많이 넣은 농구 선수는 다음 번에  슛을 성공할 확률이 더 높은 것일까? 투스트라이크 이후에 심판의 스트라이크 판정 확률은 낮아질까? 전염병 예방 백신을 맞고 부작용으로 사망할 확률보다 전염병으로 사망할 확률이 훨씬 높은데 왜 어떤 사람들은 백신을 안 맞으려고 할까? 유전무죄는 실제 법정에서 판결 결과로 나타날까? 딸을 가진 아빠들은 더 페미니스트 성향을 갖게 될까? 국회의원이나, 이사회에 여성 할당제를 실시하면 능력이 안 되는 여성들이 더 등용될까? 월드컵 기간에는 심장 마비로 인한 사망률이 더 높아질까? 1인1투표를 통해 부자와 가난한 사람들이 모두 동등한 참정권을 갖게 된 것일까? 왜 백화점/인터넷 할인가는 9,900원과 같은 9로 끝나는 경우가 많은가? 잘 생긴 사람이 선거에서 뽑힐 가능성이 더 높을까? 정부 정책은 장기적으로 효과가 있을까? 담배세를 얼마나 올려야 국민 건강에 이득이 될까? 중년의 위기는 실존하는가?

이런 여러 가지 재미난 질문들에 대해서, 단순히 주장이나 당위가 아니라, 데이터를 증거로 답을 찾아간다. 그 데이터들은 때로는 통제된 실험실의 데이터이기도 하고, 엄청나게 많은 사람들에 대한 응답 데이터이기도 하고, 시장이나 주가를 분석한 데이터이기도 하고, 오랜 기간 축적된, 또는 추적하거나, 관찰한 데이터이기도 하다. 

사람들에게는 휴리스틱(heuristic, 발견법)이라는 간편하고 훌륭한 의사결정 기제가 있다. 그러나 휴리스틱은 종종 많은 편파와 오류를 만들어내기도 한다. 그래서 증거와 데이터에 기반해서 세상을 이해하려는 의식적인 노력이 필요하다. 그럴 때 세상의 다양한 데이터를 어떻게 바라보고, 수집하고, 끌어와야 하는지, 그것을 어떻게 읽어낼 수 있는지에 대해 모범 사례들을 접하고 싶다면, 이 책을 읽어보라고 권하고 싶다.

2021-04-25

가짜 뉴스의 심리학

 

가짜 뉴스의 심리학: 결코 아니라고 생각하지만 나 또한 믿기 쉬운 (박준석 지음)

미국에서 도널드 트럼프가 대통령이 되면서, 극단적인 진영간의 대립은 전례없이 심화되었다. 그리고 그런 진영의 대립에 크게 기여한 것으로 가짜 뉴스를 빼놓을 수 없다. 사람들은 왜 간단한 팩트 체크도 하지 않고, 가짜 뉴스에 빠져드는 것일까? 지능이나 지식이나 판단력이 부족해서일까? 결코 그렇지 않다는 것, 그리고 그런 위험성은 나에게도 예외가 아니라는 것을, 이 책에서, 적나라하게, 심리학과 데이터 과학에 기반하여 보여준다.

가장 널리 알려진 확증 편향(confirmation bias)은 내가 맞다고 생각하는 것에 부합하는 정보만 걸러서 처리하는 것인데, 소셜 미디어의 필터 버블(filter bubble) 현상을 통해, 나와 비슷한 생각을 가진 사람들에게 둘러쌓여 그런 편향이 더 강해지는 환경에 놓이게 되었다. 그 외에도 인간이 지닌 여러 가지 한계가 언급된다. 인지적 자원을 쓰기 싫어하는 인지적 구두쇠(cognitive miser) 성향, 다니엘 카네만이 말했던 시스템 1과 시스템 2 사고 경로, 기계 학습에서 말하는 과적합(overfitting)으로 설명할 수 있는 음모론, 동기화된 논증(motivated reasoning), 단순 노출 효과(mere exposure effect), 수면자 효과(sleeper effect), 거짓 진실 효과(illusory truth effect), 가용성 휴리스틱(availability heuristic), 베이즈 정리(Bayes' theorem)에 나오는 사전/기저 확률을 무시한 판단 등등등. 이제는 꽤 많은 사람이 알고 있지만, 가장 점수가 높았다던 MIT 학생들도 100점 만점에 73점의 점수밖에 획득하지 못했다는 CRT 문제(cognitive reflection test)를 주위 친구들에게도 던져보고 싶다. 깊이있는 사고를 하지 않고, 소위 말하는 것 필링(gut feeling, 직감?)으로 얼마나 큰 실수를 저지를 수 있는지... 

책에서 나온 4·15 부정선거 음모론의 백미는 동기와 정서가 강력하게 작용하였을 때, 소위 말하는 전문가 또는 유사 전문가들도 가짜 뉴스 생산에 일조하게 된다는 것이었다. 대표적인 것이 선거에서의 지역별 득표율을 마치 주사위를 여러 번 던지는 독립 사건처럼 취급하여, 2의 424승분의 1의 확률로 발생 가능성이 극히 낮은 일이 발생했다는 물리학자의 어처구니 없는 주장이다. 비슷한 논리의 부정 선거 음모론은 진보 진영에서도 일어났다. 지금까지 일어난 과거의 현상을 설명하는 모형을 만들 때에, 현실에 없는 전제를 너무 많이 깔고, 복잡하게 튜닝하는 것이 오히려 설명력을 떨어뜨릴 수 있다는 것, 그리고 미래에 발생하는 현상을 설명하지 못한다는 것, 그렇지 않으면, 비현실적인 전제에 기반한 음모론, 결국에는 가짜 뉴스가 될 수 있다는 것! 지식 수준이 높은 사람들도 이런 유혹에 쉽게 빠질 수 있다. 

저자는 말미에 전문가에 대한 존중을 말한다. 미국에서 앤서니 파우치 국립 알레르기 전염병 연구소 소장이 코로나 음모론과 백신 음모론으로 어처구니 없는 공격을 받는 것을 생각하면 전문성 또는 전문가에 대한 신뢰도 중요한 것 같다. 그러나 전문가의 권위를 절대화하여 반론을 제기하지 못하여 생기는 어처구니 없는 사건들도 있었다. 내 생각에 가장 기억에 남는 사례는 두 가지가 있다. 첫 번째는 1990년대 일인데, 손으로 책을 읽는다는 초능력 소녀에 적지 않은 과학자들이 속아넘어가고 그것을 과학적으로 검증하겠다고 달려들었던 어처구니 없는 일이었고, 그것의 절정은 세브란스 병원 의사들이 그 소녀의 뇌파를 측정하면서 실제 책을 읽을 때의 뇌파와 동일하게 나온다며 놀라워하던 일이었다. 두 번째는, 황우석 사건이 발생했던 초기에,국보급 과학자였던 황우석에게 내가 감히 어떻게 도전하느냐며 그를 옹호하던 사람들, 그리고 그 이후에도 국가적인 이익을 앞세워 황우석을 추종하는 경향이었다. 

누구나 가짜 뉴스에 속아넘어가고, 진영 논리와 편향, 오류에 빠질 수 있다. 나는 특히 사람에 대해 판단할 때 조심, 또 조심한다. 회사에서는 인사 평가라는 그럴듯한 제도를 핑계삼아 사람을 끊임없이 평가한다. 그런 평가는 인간의 모든 오류와 편파가 들어갈 구석이 너무나 많다. 그래서 초기에 저평가했던 사람이 나중에 알고 보니 보석같은 존재였던 경우도 있고, 그 반대의 경우도 있다. 그래서 나는 사람에 대한 평가는 최대한 유보한다. 특히나, 평가나 판단이 부정적인 것이라면. 그것이 사람을 신뢰하지 않고 일을 한다는 것은 아니지만, 전적으로 신뢰하거나, 전적으로 의심하는 양 극단을 조심하면서, 그 사람을 섣불리 좋은 사람, 또는 못 믿을 사람으로 낙인찍지 않으려고 노력한다. 권력을 가진 사람일 수록, 사람에 대한 판단의 영향력과 댓가가 너무 크기 때문이다.

조국 사태와 검찰 개혁, 법무부장관과 검찰총장의 대립 속에서 동일한 사건과 사안에 대해 극단적으로 다른 시각이 충돌하였다. 나의 소셜 미디어 친구들은 나와 유사한 진영에 속해있고, 비슷한 시각을 가진 사람들로 가득 차 있었다. 그런데, 기존 진보 진영에서 이 사안을 계기로 다른 시각을 가진 사람들이 나왔다. 개인적으로 나는 그것이 다행이라고 생각했다. 그러나, 양 극단의 시각이 첨예하게 싸우다보니, 쉽게 내 편과 네 편으로만 편가르기가 되고, 당신의 의견은 내 편이냐, 아니냐로만 단순화되는 것이 참 안타까웠던 것 같다. 

그래서 항상 진실 앞에 겸손해야 함을 느낀다. 내가 아는 것이 전부가 아니고, 내가 생각하는 것이 틀릴 수 있고, 나도 인간의 편향과 오류에서 결코 자유롭지 않으며, 새로운 사실 앞에 나의 믿음을 바꿀 수 있고, 진실은 아직 모른다는 겸손함을 유지하는 것은 말처럼 쉽지 않다.