이번 글에서는 『새빨간 거짓말, 통계』에서 '통계로 눈을 속이는 구체적인 방법'을 소개하겠다.
이 책의 원제 'How To Lie With Statistics'(통계로 거짓말 치는 법)인 게 잘 드러나는 부분이다.
방법은 크게 오차, 그래프, 억지 숫자를 활용하는 것이다.
각 방법과 책 속에서 필자에게 인상 깊었던 부분을 추가로 설명하면서
어떻게 통계로 눈을 속이는지에 대해 자세히 알아보도록 하겠다.
『새빨간 거짓말, 통계』 독후감의 다른 내용이 궁금하다면?
계속해서 의심해라! 『새빨간 거짓말 통계』를 읽고 (1)
우리는 복잡한 통계 숫자로 가득찬 세상에서 살고 있다. "코로나19 백신 효과율은 95% 육박" "1인 가구 빚 규모 1년 새 37% 감소" 전문가가 아닌 이상 일반 사람들은 이런 뉴스 기사에서 나온 수치를
data-analytics-nayoonee.tistory.com
1. 오차의 활용
PART 4 : 쓸데없는 숫자로 벌어지는 헛소동
'정상'적인 IQ 점수는 100이 아니고, 예컨대 90에서 110 사이의 범위를 뜻하며
이 범위 내의 아이들과 이 범위를 벗어난 아이들을 비교하는 것만이 의미가 있을 뿐,
IQ 점수의 차이가 얼마 되지 않는 아이들끼리 비교한다는 것은 별 의미가 없는 일이라는 것이다.
-- 96pg
두 사람의 IQ 점수가 각각 98점, 101점이라고 할 때
우리는 98점인 사람보다 101점의 사람의 지능이 더 높다고 생각하기 쉽다.
하지만 이는 오차범위가 제대로 제시되지 않아 벌어지는 헛소동일 뿐이다.
예상오차가 100에 대하여 3이라고 알려져 있다면
98점의 IQ는 98+-3, 101점의 IQ는 101+-3으로 표현하는 게 좋다.
따라서 IQ처럼 여러 표본 추출에서 얻은 결과를 언급할 때는
얻은 결과에 그 오차범위에 대해 항상 언급해야 한다.
제시되어 있지 않더라도 항상 마음 속에 염두해 두어야 한다.
(물론 IQ 검사가 한 사람의 지능을 대표하는 표본이라고 생각하지는 않지만 말이다.)
2. 그래프의 활용
PART 6 : 백문이 불여일견이라고? 천만에!
예컨대 변량이 하나이면서 막대의 높이뿐만 아니라 폭까지도 변화시키거나,
또는 척 보아서는 그 부피가 얼마인지 알아보기 힘든 3차원 입체 그림으로 나타내었다면 우선 의심해볼만하다.
또 중간을 절단해 짧게 만든 막대 그래프는 앞 장에서 살펴본 잘려진 그래프와 마찬가지의 위력을 발휘할 수 있다.
-- 116pg
막대그래프는 간단하지만 위의 방법처럼
높이와 폭, 축을 변형하거나 중간 부분을 절단하여
아주 손쉽게 남을 속이는 결과를 만들 수 있다.
막대그래프에 만족할 수 없다면
도표를 활용해 그 위력을 더해볼 수 있다.
예를 들어 A국가와 B국가 각 목수의 평균 주급을 비교할 때
'돈자루' 모양의 그림을 활용한다고 해보자.
A국가의 목수가 B국가의 목수보다 평균 2배의 주급을 받는다.
A국가의 돈자루의 높이가 B국가의 돈자루의 높이보다 2배 더 크게 그릴 수 있겠다.
하지만 서로 닮은 입체의 부피의 비는 대응하는 변의 길이의 비의 세제곱에 비례한다.
즉 2배의 세제곱 차이가 나서 부피가 8배 차이 나게 된다.
말로는 그저 2배라고 얼버무리면서도 실제로는 8배라는 엄청난 인상을 심어놓는 것이다.
이런 도표는 그동안 신문에서 자주 봤었는데
단 한번도 그 크기나 양이 왜곡되었을거라고 생각을 못했었다.
앞으로는 뉴스를 볼 때 이 도표로 어떤 부분이 왜곡되고,
무엇을 목적으로 각색되었는지를 염두에 두어야겠다.
3. 억지 숫자의 활용
PART 7 : 아전인수를 위한 마구잡이 통계
만약 이 여론조사 기간 중에 흑인에 대한 차별이 증가하는 현상이 빚어지면,
흑인의 취업 기회는 백인의 취업 기회와 동등하다고 응답하는 비율이 증가할 것이라는 것을 알 수 있다.
...
이런 식으로 아전인수 격의 억지 숫자를 같다 붙임으로써
획기적인 결과를 얻어낼 수가 있었던 것이다.
즉, 상황이 악화되면 악화될수록 그 반대로 여론조사는 더 호의적인 결과를 낳게 된다.
-- 132pg
억지 숫자를 잘 사용하면 전혀 다른 결론을 만들어낼 수 있다는 것을 의미하는 대목이다.
프린스턴 대학의 여론조사 연구소에서 진행한 연구 조사에 따르면,
취업의 기회가 백인과 흑인에게 동등한 취업 기회가 주어지는지에 대한 질문에
인종에 대한 편견을 갖고 있는 사람들의 2/3는 이렇게 답했다.
"백인과 흑인 모두 동등한 취업의 기회가 주어지는 거 아닌가요?"
인종에 대한 편견이 강할 수록, 흑인에 대한 차별이 강해질 수록
흑인과 백인의 취업 기회가 동등하고 응답하는 비율이 증가할 것이다.
그리고 이 통계 결과는 한 뉴스기사에 정확한 숫자와 함께
"흑인에 대한 공평한 대우가 계속 실현되고 있다." 라는 헤드라인과 대서특필 된다면
사람들은 계속해서 왜곡된 진실을 마주할 수밖에 없을 것이다.
즉, 상황이 악화되면 악화될 수록 더 호의적인 결과를 가져올 수 있다는 것이다.
데이터 분석에 흥미가 많은 나에게 숫자는 책임감 있게 다뤄야하는 것 중 하나이다.
그치만 누군가가 숫자를, 그것도 소수점의 숫자를 들이밀면서 말한다면
뭐가 진짜고 가짜인지 구별하기 쉽지 않을 것 같다.
반대로 나 또한 어떤 분석 결과에 대해 말할 때
특정 숫자를 가지고 들이밀어서 속이려 들 수도 있는 것이다.
앞으로 정말 많은 숫자를 만지고 바라보게 될텐데
이번 책을 읽고 숫자를 어떻게 하면 책임감 있게 다뤄야하는지에 대해 약간의 감을 얻은 상태이다.
숫자를 둘러싼 맥락을 바라보는 관점을 잘 키울 수 있도록
남은 분량도 꾸준히 잘 읽고 기록을 남겨보도록 하겠다.
'Book' 카테고리의 다른 글
책임감 있는 데이터 분석가로 성장하기 위한 지침서, 『새빨간 거짓말, 통계』를 읽고 (3) (2) | 2024.04.21 |
---|---|
계속해서 의심해라! 『새빨간 거짓말 통계』를 읽고 (1) (1) | 2024.04.07 |