지난주 '통계로 눈을 속이는 방법'으로 오차, 그래프, 억지 숫자를 활용하는 방법에 대해 알아보았다.
이번주는 평균값, 백분율을 활용하여 통계를 조작하는 사례에 대해 살펴보고
지금까지의 내용을 정리할 겸 통계 조작으로부터 피할 수 있는 방법과 소감으로 마무리하고자 한다.

『새빨간 거짓말, 통계』 독후감의 다른 내용이 궁금하다면?
1주차
계속해서 의심해라! 『새빨간 거짓말 통계』를 읽고 (1)
우리는 복잡한 통계 숫자로 가득찬 세상에서 살고 있다. "코로나19 백신 효과율은 95% 육박" "1인 가구 빚 규모 1년 새 37% 감소" 전문가가 아닌 이상 일반 사람들은 이런 뉴스 기사에서 나온 수치를
data-analytics-nayoonee.tistory.com
2주차
통계로 눈을 속이는 법 『새빨간 거짓말, 통계』를 읽고 (2)
이번 글에서는 『새빨간 거짓말, 통계』에서 '통계로 눈을 속이는 구체적인 방법'을 소개하겠다. 이 책의 원제 'How To Lie With Statistics'(통계로 거짓말 치는 법)인 게 잘 드러나는 부분이다. 방법은
data-analytics-nayoonee.tistory.com
1. 적절하지 않은 평균값 규정
PART 9 : 통계를 조작하는 법
이 괴상한 통계 조작에는 두 가지 사실이 과장되어 있다.
중앙값을 사용하지 않고 산술평균값을 사용하였다는 점.
한 가정의 소득이 가족 수에 비례한다는 가정이다.
-- 181~182pg
적절하지 못한 평균값의 규정이 얼마나 신뢰하기가 힘든지를 보여주는 대목이다.
1949년 통계청의 발표에 따르면 한 가정의 연간 평균 소득은 3,100달러인 반면,
러셀 세이지 재단에서 발표한 기사에서는 연간 평균 소득은 5,004달러나 된다고 하였다.
이렇게 큰 차이가 생긴 이유는 통계청은 중앙값을 사용하였고,
러셀 세이지 재단은 국민 개개인의 소득 총합계를 1억 4,900만 명의 미국 인구로 나누어
1인당 1,251달러라는 산술평균값을 얻고 4인 가족은 4를 곱하여 5,0004 달러라는 결론을 냈다.
통계청은 이상치를 고려해 미국 가정의 연간 소득의 중앙값을 선택한 반면,
러셀 세이지 재단은 생활 여건이 이전보다 좋아졌다는 것을 효과적으로 표현하기 위해
산술평균값을 활용하였고, 가정의 소득과 가족 수가 비례한다는 억지스러운 가정을 사용한 것이다.
그렇게 된다면 좋겠지만 4인 가족의 소득이 2인 가족의 소득의 2배가 되는 것은 쉽지 않은 게 사실이다.
어떤 표본을 대표하는 값으로 중앙값, 평균값을 자주 활용하는데
데이터의 분포를 먼저 확인해 어떤 대표값으로 하는 게 좋을지 고려하는 게 필수적이다.
또한 통계 자료를 바라볼 때도 어떤 목적으로 이 자료가 만들어졌는지 유념하면서
통계의 속임수에 빠져들지 않는 자세를 들이는 것이 중요하다.
2. 백분율로 속이기
PART 9 : 통계를 조작하는 법
<콜럼버스 디스패치>지는 어느 회사의 제품이 3,800%의 폭리를 취하면서 판매되고 있다고 폭로한 일이 있었는데,
원가가 1.75 달러인 제품을 40달러에 판매하고 있다는 것이다.
...
이익률을 계산하는 자신들만의 독특한 방법을 사용해 이와 같은 터무니 없는 수자를 얻게 된 것이다.
-- 187~188pg
이익률을 계산하는 데는 여러 가지 방법이 있다.
중요한 건 어떤 방법을 기준으로 했는지를 반드시 밝혀놔야한다는 것이다.
1) 원가에 대한 이익률 : 제품을 생산하는 데 필요한 비용에 비해 얼마나 많은 이익이 발생했는지를 계산
(40-1.75)/1.75 * 100 = 2,185%
2) 판매 가격에 대한 이익률 : 제품을 판매하여 얻은 이익을 고려하여 판매 가격에 대한 이익을 계산
(40-1.75)/40 * 100 = 95,6%
3) 사례에서 활용한 이익률 : 이익률이 아닌 이익의 총액을 구하는 계산 (잘못됨)
(40-1.75) * 100 = 3,825%
아마 <콜럼버스 디스패치>는 '엄청난 폭리를 취하는 악덕 기업'이라는 타이틀에 맞게
그들만의 독특한 방법을 활용해 이렇게 터무니 없는 3,825% 라는 숫자를 만든 것이다.
위의 두 사례는 공통적으로 자신들의 입장을 유리하게 이끌어가기 위해
평균값, 백분율을 활용해 통계 조작을 저지르고 있다.
소수점 같은 숫자로 표현되다 보니까 괜히 더 정확해 보이는 착각에 빠지기가 쉽다.
이에 대해 저자는 통계의 기초는 수학이지만 그 실제 내용은 과학이면서
동시에 예술이기 때문에 주관적으로 판단될 수 있는 여지가 다분하다고 설명한다.
그렇다고 해서 그저 통계 숫자에 끌려다닐 수는 없는 법.
지금까지 알아보았던 통계를 속이는 방법을 정리할 겸,
아래의 다섯 가지의 체크리스트를 통해
통계 조작에서 피할 수 있는 자세를 길러보도록 하겠다.
✅ 누가 발표했는지 출처를 살펴보기
이론의 완벽성을 과시하기 위해서인지,
또는 명예를 위해서인지, 독을 목적으로 하는 것인지 등
통계를 발표한 주체와 목적을 잘 살펴볼 필요가 있다.
권위 있는 이름이 인용되어 있을 때는 그 권위자가 그 이야기와 관련되어 있는지,
그 사실을 지지하고 있는지도 확인할 필요가 있다.
✅ 어떤 방법으로 알게 되었는지 조사 방법에 주의하기
표본의 추출 방법이 부적당했던 것은 아니었는지,
표본이 신뢰할 만한 결론을 얻기에 충분한 크기를 가지는지,
어떤 유의한 결론을 내릴 만큼 충분히 많은 사례가 있는지를 살펴보자.
✅ 빠진 데이터는 없는지 숨겨진 자료를 찾아보기
평균값에 편차가 명시되어 있는지,
비교할 수 있는 다른 숫자가 빠져있지는 않은지,
지수를 계산할 때 무엇을 기준으로 정했는지 등
생략된 데이터 속에서 중요한 요소가 있을 수 있다는 점을 유념하자.
✅ 내용이 뒤바뀌어 쟁점이 바뀌었는지 살펴보기
조사 내용이 극히 사적이라 내용이 왜곡될 수 있다는 점,
전자와 후자의 관계가 원인과 결과라는 관계로 바뀐 것은 아닌지 등
기초가 된 데이터와 결론 사이에 어떤 바꿔치기가 있었는지 주의해야 한다.
✅ 상식적으로 말이 되는 이야기인가 살펴보기
증명되지도 않은 가정을 토대로 장황하게 이야기가 전개되는지,
아무런 변화 없이 그대로 지속된다는 가정 하에 이야기가 전개되는지 등
정확한 숫자로 상식을 마비시키고 있지는 않은지 주의해야 한다.
3주간 『새빨간 거짓말, 통계』를 읽고 통계를 조작하는 것이 얼마나 쉬운지 알 수 있었다.
또한 데이터 분석가를 희망하는 나에게 다시 한번
데이터 분석가로서의 임무를 환기시켜주었다.
데이터 속에서 유의미한 것을 추출하되,
추출하는 방식에서 조작되는 부분은 없는지 늘 살펴봐야한다는 것.
또한 다루고 있는 데이터가 틀릴 수 있다는 생각을 가져야하는 것이다.
생각해보면 세상이 얼마나 변화무쌍한데
이걸 하나의 막대그래프로 요약할 수 있다는 게 억지인 것 같기도 하다.
만약 그렇다고 주장하는 통계를 만난다면 경계부터 해야겠다.
이런 자세로 분석에 임한다면 조금은 힘들겠지만
시간이 지나면서 덜 틀릴 수 있지 않을까 기대한다.
필요할 때마다 다시 꺼내 읽으면서
책임감 있게 데이터를 다룰 수 있는 분석가로 성장하도록 하겠다.
'Book' 카테고리의 다른 글
통계로 눈을 속이는 법 『새빨간 거짓말, 통계』를 읽고 (2) (0) | 2024.04.14 |
---|---|
계속해서 의심해라! 『새빨간 거짓말 통계』를 읽고 (1) (1) | 2024.04.07 |