ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [통계 이론] 1. 평균과 분산, p-value, 귀무가설, 대립가설, 1종 오류
    Python Data Analysis 2022. 11. 6. 22:54

    데이터의 대표적인 특징을 잘 설명해주기 위해서 대표값을 구한다.

    그 중에서 평균과 분산을 가장 많이 쓴다.

     

    평균 : 데이터의 중심값으로서 자료의 특성을 대표한다. 단, 아웃라이어의 영향을 많이 받는다(취약하다)

     

    분산 : 평균값을 중심으로 각 데이터가 얼마나 펴져 있는지 (펴져 있는 평균적인 거리를 의미)

    각 데이터에서 평균을 빼고, 이 값을 제곱해서 다 더한 뒤 전체 갯수로 나눈다.

    자유도는 분자에서 이미 평균값을 한번씩 빼줬기 때문에 전체 갯수-1로 분모도 빼주는 것이라 이해하자


    p-value : 유의수준, probability value, 확률값

    어떤 사건이 우연히 발생할(독립변수가 종속변수에 영향을 준다고 할 수 없는) 확률

    따라서 0.05보다, 5%보다 p값이 높으면 이 사건은 우연히 발생한 것이다. 그냥 아무 의미 없는 연구인 것이다.

    반대로, 0.05보다 5%보다 피값이 작다면 이 사건은 우연히 발생한 게 아니라, 어떤 이유나 인과관계가 있다고 추정하는 것이다. 즉, 유의미한 관계가 있다고 볼 수 있다.


    H0 : 귀무가설, Null Hypothesis, 이 가설이 맞다면 아무 일도 없다. 기존의 상태이다. =0

    H1 : 대립가설, Alternative Hypothesis, !=0

    가설 검정 : 둘 중 어떤 가설이 맞는지 검정하는 작업

    귀무가설이 맞다면, 모든 것은 우연이다. 아무런 의미가 없는 의견이었다.

    귀무가설이 틀리면, 새로운 의견은 우연이 아닌 유의미한 차이가 있는 것이다.

     

    1종 오류 : 실제는 참인데, 연구결과가 거짓으로 나오는 경우이다. 이것을 알파라고 부른다.

    즉, p밸류는 이 1종 오류가 발생할 확률이다. 1종 오류가 발생해도 5% 미만이라면 통과시켜주겠다는 뜻이다.

    어떤 사건이 우연히 발생했지만(귀무가설이 참), 이를 우연히 발생하지 않았다고(귀무가설이 거짓) 하여도 0.05, 5%까지는 그냥 봐주겠다는 의미이다.

     

     

     

     

    외부 참조 링크

    https://www.youtube.com/watch?v=7p4tjnQso48 

     

    댓글

Just do Justin