유의수준이 0.005인 세상은 어떤 곳일까? : <Redefine statistical significance> 논문 요약

주장 : 유의수준을 0.05에서 0.005로 변경하자

현재 많은 연구에서 유의수준을 0.05로 설정하여 결과를 유의하다고 판단하고 있다.

하지만 이건 실제로 우연에 의한 결과일 가능성이 높은 경우도 있다.

즉 실제로 거짓인 것을 참으로 판단하는 False positive가 발생할 가능성이 높은 것이다.

반면, 유의수준을 0.005로 낮추면 연구 결과가 유의한 것으로 간주되기 위해 보다 강력한 증거가 필요하다.

따라서 우연에 의한 결과가 유의한 것으로 잘못 간주되는 경우가 줄어들고 연구 결과를 더 신뢰할 수 있게 된다.

이는 연구 결과를 다시 재현할 때 더 높은 확률로 동일한 결과를 얻을 수 있게 만들어줄 것이다.

(참고로 본 논문에서 유의수준 0.005는 사전 확률이 높은 연구 분야에 대해서만 적용할 것으로 주장한다.)

증거의 강도 측정하는 방법

증거의 강도를 측정하는 2가지 방법, P값과 Bayes factor을 비교해보자.

1. P값

특정 가설이 맞다고 가정할 때 우연히 이 정도의 결과가 나올 확률을 의미한다.

보통 0.05보다 크면 그 결과는 우연히 나온 것으로 여겨 귀무가설을 채택, 대립가설을 기각한다.

0.05보다 작으면 그 결과를 우연이 아닌 것으로 여기고 귀무가설을 기각, 대립가설을 받아들인다.

2. Bayes factor

베이즈 통계햑에서 사용되는 개념으로,

데이터가 주어졌을 때 한 가설을 다른 가설에 비해 얼마나 더 지지하는지 나타내는 지표이다.

쉽게 말하면 우리가 이미 알고 있는 정보를 고려해 가설을 평가하는 것을 의미한다.

이처럼 증거의 강도를 측정할 때 P값이나 Bayes factor를 사용하는데

둘 사이의 관계를 살펴보고 유의수준을 0.005로 선택해야하는 근거를 찾아볼 수 있다.

0.005를 선택해야하는 이유

그림1: P값와 Bayes factor 간의 관계

둘의 관계는 귀무가설 대신 대립가설을 더 지지하는 증거가 얼마나 강한지를 의미한다.

P값이 0.05일 때, Bayes factor는 2.4~3.4 사이에 있는데

그 강도가 강하지 않아 귀무가설이 여전히 고려될 수 있다.

따라서 P값이 0.05일 때는 대립 가설을 지지하는 증거는 상대적으로 약하다고 할 수 있다.

반면, P값이 0.005 일 때 Bayes factor는 14~26 사이에 있다.

그 강도는 전통적인 베이지안 요인 분류에 따르면 '강한' 증거에 분류되어

대립 가설을 지지하는 증거가 상대적으로 강하다고 할 수 있다.

그림2: 통계력과 False positive rate 간의 관계

위의 그래프는 통계력과 P값 임계값이 변할 때 False positive rate가 어떻게 변화하는지 보여준다.

통계력은 실제 효과가 존재할 때 통계 검정이 이를 감지할 수 있는 능력을 나타낸다.

즉, 높은 통계력은 거짓 귀무가설을 올바르게 기각할 가능성이 더 크다.

그래프에 따르면 P값 임계값이 (0.05 -> 0.005)로 낮아지면서

통계력이 증가함에 따라 False positive rate는 감소하는 경향을 보인다.

이는 보다 엄격한 유의수준 0.005를 사용하게 된다면 높은 통계력을 가진 연구를 수행함으로써

False positive 결과의 가능성을 줄이고, 결과의 신뢰성을 높일 수 있다는 것을 의미한다.

최근 생명과학 연구에서 논문 샘플의 96%가 p<0.05 임계값을 통해 통계적으로 유의미한 결과를 주장하고 있다.

그러나 이러한 연구의 복제율(초기 연구 결과가 다른 연구에서도 동일한 방향으로 나타나는 비율)은 매우 낮은 문제가 있다.

이러한 분야에서 유의수준 0.005 라는 새로운 표준을 채택하면 잠재적인 이득이 엄청날 것으로 기대한다.

예상 반대 의견

1. 유의수준 0.005로 인해 False negative 비율이 너무 높아질 것이다.

False negative 비율은 실제로 참인 것을 거짓으로 부정하는 비율로,

진짜 효과를 놓칠 가능성이 높아지고 잘못된 결론으로 비효율적인 자원 사용이 발생할 수 있다.

그러나 저자는 새로운 유의수준에 도달하지 못한 증거는 단순히 시사적인 것으로 취급되어야 한다고 한다.

표본 크기를 늘려 통계력을 일정하게 유지한다면 False negative 비율이 증가하지 않을 거라고 한다.

2. 다양한 편향 요인에 해결해주지 못한다.

1) 다중 가설 검정
연구자가 동일한 데이터 세트에서 여러 가설을 테스트하는 경우

그 중 일부 결과가 우연히 유의미한 것으로 나타날 수 있다.

2) P-hacking
연구자가 데이터를 조작하여 결과를 얻으려고 할 때 편향이 발생한다.

(ex. 데이터의 일부를 제거하거나 다양한 통계 분석 방법을 시도하여 유의미한 결과를 찾아내려는 경향)

3) 출판 편향

유의미한 결과를 가진 연구는 학술 저널에 더 많이 게재되며,

부정적인 결과나 중립적인 결과는 출판되기 어려울 수 있다.

이 때문에 학계에 특정 연구 결과에 대한 부정적인 편향이 생길 수 있다.

4) 낮은 통계력

연구에서 효과를 감지할 수 있는 통계력이 낮아 새로운 발견을 놓치는 원인이 될 수 있다.

이에 대해 저자는 이 지적에 대해 동의하면서

동시에 유의수준 0.005는 이러한 문제들의 해결책이 아니라 보완책이라고 주장한다.

3. 통계적 유의성에 대한 적절한 유의수준은 각 연구마다 다르다.

이에 대해 저자는 유의수준 0.005를 사전 확률이 높은 연구 분야에 대해서만 적용하는 것으로 주장하고 있다.

이러한 분야에서는 사전적으로 특정 가설이 참일 가능성이 높기 때문에 새로운 발견을 주장하기 위한 기준을 낮출 수 있다.

4. 임계값 변경은 통계적 유의성 검정보다 더 나은 방법이 아니다.

많은 사람들은 통계적 유의성 검정보다 더 나은 접근 방법이 있다고 동의하지만

이에 대한 합의는 아직 이루어지지 않았다. 실제로 미국 통계협회의 회장은 p값의 오해와 오용에 대해 많은 문제를 다루었지만

이러한 결함을 해결하기 위한 명시적인 정책 권고를 제시하지 않은 상태이다.

위와 같은 문제에 대응하기 위해서는 무엇보다 좋은 방향으로 연구를 설계.

사전에 통계력을 계산, 계획적인 분석 절차, 투명한 통계 분석 보고 등을 제안했다.

결론

p값과 귀무가설이라는 개념을 처음 소개한 로널드 피셔 역시 0.05는
임의적인 선택이었고 이후 이론에서도 더 낮은 임계값이 필요하다는 것을 입증하였다.
유의수준 0.005로 통계적 유의성 임계값을 낮추면 연구의 재현성이 즉시 향상될 것이다.
유의수준 0.005에 도달하지 못한 결과는 여전히 중요할 수 있으며 이를 공정하게 대우해야한다.
학술 저널은 이 새로운 유의수준으로의 전환을 돕는 데 도움이 될 수 있다.

위와 같은 주장을 통해 유의수준 0.005는 연구자들과 독자들이 증거를 더 정확하게 이해하고 소통하는 데에 도움을 줄 것으로 예상한다.

참고자료

Redefine statistical significance

Nayoon's Data Analytics