[통계 이론] 1. 평균과 분산, p-value, 귀무가설, 대립가설, 1종 오류

Python Data Analysis 2022. 11. 6. 22:54

데이터의 대표적인 특징을 잘 설명해주기 위해서 대표값을 구한다.

그 중에서 평균과 분산을 가장 많이 쓴다.

평균 : 데이터의 중심값으로서 자료의 특성을 대표한다. 단, 아웃라이어의 영향을 많이 받는다(취약하다)

분산 : 평균값을 중심으로 각 데이터가 얼마나 펴져 있는지 (펴져 있는 평균적인 거리를 의미)

각 데이터에서 평균을 빼고, 이 값을 제곱해서 다 더한 뒤 전체 갯수로 나눈다.

자유도는 분자에서 이미 평균값을 한번씩 빼줬기 때문에 전체 갯수-1로 분모도 빼주는 것이라 이해하자

p-value : 유의수준, probability value, 확률값

어떤 사건이 우연히 발생할(독립변수가 종속변수에 영향을 준다고 할 수 없는) 확률

따라서 0.05보다, 5%보다 p값이 높으면 이 사건은 우연히 발생한 것이다. 그냥 아무 의미 없는 연구인 것이다.

반대로, 0.05보다 5%보다 피값이 작다면 이 사건은 우연히 발생한 게 아니라, 어떤 이유나 인과관계가 있다고 추정하는 것이다. 즉, 유의미한 관계가 있다고 볼 수 있다.

H0 : 귀무가설, Null Hypothesis, 이 가설이 맞다면 아무 일도 없다. 기존의 상태이다. =0

H1 : 대립가설, Alternative Hypothesis, !=0

가설 검정 : 둘 중 어떤 가설이 맞는지 검정하는 작업

귀무가설이 맞다면, 모든 것은 우연이다. 아무런 의미가 없는 의견이었다.

귀무가설이 틀리면, 새로운 의견은 우연이 아닌 유의미한 차이가 있는 것이다.

1종 오류 : 실제는 참인데, 연구결과가 거짓으로 나오는 경우이다. 이것을 알파라고 부른다.

즉, p밸류는 이 1종 오류가 발생할 확률이다. 1종 오류가 발생해도 5% 미만이라면 통과시켜주겠다는 뜻이다.

어떤 사건이 우연히 발생했지만(귀무가설이 참), 이를 우연히 발생하지 않았다고(귀무가설이 거짓) 하여도 0.05, 5%까지는 그냥 봐주겠다는 의미이다.

외부 참조 링크

[Python] Numpy(넘파이) 내용 정리 (0)	2022.11.06
[Python 기초 문법] map( ), input( ).split( ), bool( ) (0)	2022.10.04
python 기초 문법 (+ 산술, 관계, 논리 연산자 / 2진수, 8진수, 16진수) (0)	2022.10.03

그냥해 저스틴 그냥해 저스틴