우리는 복잡한 통계 숫자로 가득찬 세상에서 살고 있다.
"코로나19 백신 효과율은 95% 육박"
"1인 가구 빚 규모 1년 새 37% 감소"
전문가가 아닌 이상 일반 사람들은 이런 뉴스 기사에서 나온 수치를 믿을 수밖에 없다.
특히 정부에서 발표하는 통계발표라면 더욱 신뢰하는 것 같다.
하지만 통계가 사실은 교묘하게 사기 치기 딱 좋은 도구라는 걸 알게 된다면?!
이 책의 저자 대럴 허프는 통계로 사기 치는 방법을 알려주기 위해
일종의 입문서, 『새빨간 거짓말 통계』을 집필하였다.
그리고 이 책은 1954년에 출간되었지만 현재까지도 회자되는 베스트셀러 중 하나이다.
(빌 게이츠가 '두 번이나' 추천했다는 게 상당히 구미가 당겼다.)
필자 역시 통계의 오류가 있다고는 생각하지만
그 수치가 제시된 값에서 크게 벗어나진 않겠지... 정도로 가벼운 의심만 해왔다.
하지만 이제는 가벼운 의심 정도로는 부족한 것 같다.
이번 데이터리안의 데이터넥스트레벨챌린지를 통해
본 책을 꼼꼼히 잘 읽고 거짓된 통계에 속지 않는 자세를 배우고자 한다.
4월 한달 동안 매주 게시물을 올리면서 인상 깊었던 부분에 대해 작성하도록 하겠다.
계속해서 의심해라! 『새빨간 거짓말 통계』를 읽고 (1)
PART 1 : 언제나 의심스러운 여론조사
"당신 집에서는 어떤 잡지를 구독하고 계십니까?"
결과를 표로 정리해 분석하였더니 상당히 많은 사람이 <하퍼즈>(주로 지식층이 읽는 종합잡지)를 구독하며
<트루 스토리>(대중적인 오락잡지)를 구독하는 사람은 그리 많지 않은 것으로 나타났다.
당시 발행 부수를 보면 <트루 스토리>는 수십 만 부를 발행하는 <하퍼즈>보다 훨씬 더 많은 수백 만 부 이상었다.
-- 25pg
위의 글의 소제목은 '거짓말쟁이들',
상당 수의 사람들이 위 질문을 받고 거짓 답변을 했다는 것이다.
아마 더 고상해보이고, 교양 있어 보이고 싶은 마음에
"전 하퍼즈를 즐겨 읽어요,," 라고 답변을 했을 것이다.
아무리 표본을 제대로 뽑거나 전수조사를 했더하더라도
사람들은 쉽게 거짓말을 할 수 있다는 점을 유의해야한다.
이 질문을 바꾸어서 '과월호 잡지를 삽니다' 는 식으로 하면
더 많은 정보를 얻을 수 있겠지만 현재 무엇을 읽는지는 알 수 없고
단지 지금까지 무엇을 읽어왔는지 정도를 알 수 있을 것이다.
책에 나온 질문과 비슷하게 꾸며보면 이런 질문이 나올 것 같다.
"당신이 가장 재미있게 읽은 책은 무엇인가요?"
잡지 케이스와 같은 맥락으로 상상해보면
아마 질문을 받은 사람들은 좀 더 고상해보이고 싶은 마음으로 거짓말을 할 것이다.
만화책 같은 오락책보다는 고전, 유명 CEO 추천 베스트셀러 등의 책이 많이 나오지 않을까?
PART 2 : 평균은 하나가 아니다
그러므로 만일 당신이 평균급여라는 이름의 수치를 보았다면 항상 이런 질문부터 해야한다.
"어떤 종류의 평균값이요? 그 평균값을 계산할 때, 누구까지 포함했나요?"
-- 56pg
가장 많은 공감이 갔던 대목 중 하나이다.
평균값은 계산할 때 어디까지 포함했는지에 따라 값이 천차만별로 달라질 수 있다.
한 예로 한 중소기업의 대표가 평균임금에 대한 경영보고서를 작성한다고 해보자.
종업원에 비해 경영진만 너무 많은 폭리를 취한 것처럼 작성할 수는 없으므로
종업원은 경영진들의 급여까지 포함해서 계산해 산술평균값을 올릴 수 있다.
이 대목을 읽을 때는 '와,, 이건 좀,,,' 고개가 절레절레 흔들렸다.
마치 내 일인 양, 상상력 풀가동되면서 끙끙거리며 읽었던 부분 중 하나이다.
평균이라는 통계값은 정말 착각하기 쉬운 통계값이고
이 친구를 만난다면 어떤 종류의 평균값인지, 어떤 값이 포함되었는지 아는 게 중요하다고 느꼈다.
PART 3 : 작은 숫자를 생략하여 사기를 치는 법
"당신의 자녀의 키가 얼마까지 자랄지 알고 싶으면 도표에서 현재의 키에 해당하는 곳을 찾아 보십시오."
...
모든 아이들의 키가 똑같은 방식으로 성장하지는 않는다.
어떤 아이들은 처음에는 천천히 자라다가 나중에는 갑자기 커질 수도 있고,
다른 아이들은 얼마 동안 급작스럽게 크다가 나중에 가서야 천천히 자랄 수도 있으며,
또 점진적으로 일정하게 성장하는 아이도 있으니까.
-- 81~82pg
이 글을 읽을 때 어릴 때 소아과에 방문하면서 벽에 걸려 있던
키 성장 그래프 도표가 머릿 속에서 싸악 지나가는 신기한 경험을 했다.
실제로 그때의 나도 현재의 키가 해당하는 곳을 손가락으로 이어가면서
어른이 되면 얼마나 커질지 짐작해본 적이 있다.
글에서 설명한 도표는 대규모로 실시한 측정 자료를 토대로 얻은 '평균값'을 이용한 그림이다.
임의로 추출한 100명이라면 아동 100명의 장래 평균 키를 충분히 정확하게 추정하는 것은 어렵지 않다.
그러나 부모들은 자신의 자녀, 즉 한 아이만의 신장에만 관심을 갖고 있기 때문에
그 목적에서라면 이 도표는 전혀 쓸모가 없다.
(만약 통계 결과의 유의수준이나 평균값으로부터의 편차를 알려줬다면 달랐을지도 모른다.)
글에서 나온 것처럼 아이들이 크는 방식은 정말 가지각색이다.
필자 역시 생각해보니까 그때 도표에서 말한 키보다 4cm는 더 큰 것 같다.
내 케이스만 봐도 이 도표는 일단 과학적으로 정밀하다고 볼 수 없다.
정말로 알고 싶다면 외려 아이의 부모와 조부모의 키를 알아보는 편이 더 정확할 것이다.
'Book' 카테고리의 다른 글
책임감 있는 데이터 분석가로 성장하기 위한 지침서, 『새빨간 거짓말, 통계』를 읽고 (3) (2) | 2024.04.21 |
---|---|
통계로 눈을 속이는 법 『새빨간 거짓말, 통계』를 읽고 (2) (0) | 2024.04.14 |