<회귀분석>
1. 회귀분석과 로지스틱 회귀분석
ㅇ 회귀분석 : 하나 이상의 연속형 독립변수들이 연속형 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법
- 반응변수(종속변수)/설명변수(독립변수)
- 회귀계수의 추정 : 최소제곡법, 최소자승법
ㅇ 로지스틱 회귀분석 : 하나 이상의 연속형 독립변수들인 이산형(범주형) 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법
2. 회귀분석의 종류
ㅇ 단순회귀 : 1개의 독립변수와 반응변수가 직선(선형) 관계
ㅇ 다중회귀 : 2개 이상의 독립변수와 반응변수의 직선(선형) 관계
ㅇ 다항회귀 : 2개 이상의 독립변수와 반응변수가 2차 함수 이상의 관계
ㅇ 비선형 회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우 (ex. 지수함수,로그함수, 삼각함수 등)
3. 회귀분석의 가정
ㅇ 선형성 : 독립변수와 반응변수는 선형관계를 갖고 있어야 한다.
ㅇ 독립성 : 독립변수와 반응변수는 서로에게 영향을 끼치지 않는 독립관계이다.
ㅇ 등분산성 : 모든 독립변수에 대해서 반응변수는 일정한 분산을 보유하고 있어야 한다.
ㅇ 비상관성 : 잔차들끼리 상관이 없어야 함
ㅇ 정상성(정규성) : 오차들이 평균이 u, 표준편차가 o인 정규분포를 따라야 한다.
- Q-Q Plot, 샤피로-윌크검정, 콜로고로프-스미노프검정, 히스토그램
4. 잔차도
선형 회귀모형의 적합성을 파악하기 위해 실제값과 추정치의 오차를 산정도 표현한 것
5. 회귀분석 모형에서 확인할 사항
ㅇ 모형이 통계적으로 유의미한가 : F분포값, 유의확률(p-value)
ㅇ 회귀계수들이 유의미한가? 회귀계수의 T값과 유의확률(p-value)
ㅇ 모형이 얼마나 설명력을 갖는가? 결정계수(R^2) 확인(0~1의 값)
ㅇ 모형이 데이터를 잘 적합하고 있는가? 잔차통계량을 확인하고 회귀진단
6. 단순선형 회귀분석
ㅇ 1개의 독립변수 (x)에 대하여 종속변수(y)의 관계를 분석하고 식으로써 표현
ㅇ 실제 데이터와 오차가 가장 작아지는 직선의 방정식을 찾기 위해 최소제곱법을 활용
Y = β0 + β1 * X + ε (Y : 반응변수, β0 : 회귀계수 상수항, β1 : 회귀계수 기울기, X : 독립변수, ε : 오차항)
ㅇ 회귀분석 귀무가설
- 회귀모형에 대한 귀무가설은 ‘모든 회귀계수는 0이다’ 이다.
- 각각의 회귀계수에 대한 귀무가설은 ‘회귀 계수는 0이다’ 이다.
- 회귀모형이 선정되기 위해서는 위 두 귀무가설을 모두 기각할 수 있어야 한다.
ㅇ 단순 회귀분석의 해석
- 회귀모형의 p-value 값(1.97e-06)이 0.05보다 작으므로 회귀모형의 귀무가설을 기각한다.
- 회귀계수의 p-value 값이 모두 1.97e-06 보다 작으므로 위 회귀계수는 유의마하다고 판단할 수 있다.
- 회귀모형의 귀무가설, 회귀계수의 귀무가설을 모두 기각할 수 있으므로 위 회귀모형은 유의하다고 할 수 있다.
- 결정 계수 값 0.9668을 보아 위 모형은 전체 데이터의 96.68%를 설명함을 알 수 있다.
- 추정회귀식 : Y = 16.8291 – 2.4371X + e
ㅇ 회귀분석의 분산분석표
7. 다중선형회귀분석
ㅇ 2개 이상의 독립변수(X1, X2, …)에 대하여 종속변수의 관계를 수치적으로 파악하기 위한 기법
ㅇ 실제 데이터와 오차가 가장 작아지는 회귀 방정식을 찾기 위해 최소제곱법을 활용
ㅇ 다중선형회귀분석의 해석 : 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설
- 회귀모형의 통계적 유의성 검증 : 회귀모형의 p – value 값이 0.05보다 작으므로 회귀모형의 귀무가설을 기각한다.
- 각각의 회귀계수의 p-value 값을 유의수준과 비교하여 0.05보다 큰 yard를 제거하고 회귀분석을 재수행한다.
- 모든 회귀계수의 p-value 값이 0.05보다 작을때까지 재수행하나 너무 많은 변수를 제거하는 것은 무의미하다.
- 다중선형회귀분석이므로 수정된 결정계수값을 통해 가장 설명력이 높은 모형을 선택
- 수정된 결정계수값 0.8491을 통해 위 모형은 전체 데이터의 84.91%를 설명함을 알 수 있다.
- 추정되는 회귀식은 price = 2734.22 + 121.30 X yard + 235.57 Xarea + 438.23 Xpark – 16.49
8. 다항회귀분석
ㅇ 1개 이상의 독립변수 그리고 2차 이상의 독립변수에 대하여 종속변수와의 관계를 수치적으로 파악하기 위한 통계 기법으로 오차의 제곱합이 최소가 되는 최소제곱법을 활용하여 회귀식을 추정
- 회귀모형의 p-value 값이 2.388e-14로 유의수준 0.05보다 작으므로 회귀모형의 귀무가설을 기각한다.
- 각각의 회귀계수 모두 0.05보다 작으므로 위 회귀계수가 유믜미하다고 판단할 수 있다.
- 회귀계수 및 회귀모형의 귀무가설을 모두 기각할 수 있으므로 위 모형은 통계적으로 유의하다.
- 수정된 결정계수 값 0.8948을 보아 위 모형은 전체 데이터의 89.48%를 설명함을 알 수 있다.
- 추정되는 회귀식은 y = 26.4626 + 36.2257t -5.5544 t^2
9. 최적 회귀방정식
ㅇ 종속변수(y)를 설명하기 위한 k개의 독립변수 중 최적의 회귀방정식을 찾는 것이 목표
ㅇ 일반적으로 변수의 수가 증가할수록 편항(bias)는 작아지고 분산(variance)는 증가
ㅇ 결정계수를 활용할 수도 있지만 벌점(페널티)을 활용
ㅇ 변수 선택지표(벌점)
- AIC (아카이케 정보 기준) : 가장대표적인 벌점 지표로 편향과 분산이 최적이 되는 지점을 탐색하지만 자료의 수가 많아질수록 부정확해지는 단점이 있다.
- BIC (베이즈 정보 기준) : AIC의 단점을 보완한 벌점이지만 AIC보다 큰 패널티를 가지는 단점이 있기 때문에 변수가 적은 경우에 사용이 권장된다.
- 멜로우 Cp : Cp값이 독립변수의 수 + 상수항의 수보다 작을 때는 좋은 모형이며, Cp값이 독립변수의 수보다 크면 나쁜 모형으로 판단한다.
ㅇ 최적 회귀방정식 종류
- 전진선택법 : 상수항의 모형에서 출발하여 변수를 하나씩 추가하면서 최적의 회귀방정식을 구축
- 후진제거법 : 모든 변수를 포함한 모형에서 출발하여 변수를 하나씩 제거하면서 최적의 회귀방정식을 구축
- 단계별 선택법 : 상수항 모형에서 출발하여 변수를 하나씩 추가할 때, 변수를 하나씩 제거할 때의 벌점을 모두 고려하여 최적의 회귀방정식을 구축
<관련 기출문제>
2023.02.15 - [자격증공부] - [ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part2 기출문제
<ADsP 요약+기출문제 자료 다운로드(바로가기)>
'자격증공부 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 요약 (0) | 2023.02.20 |
---|---|
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 기출문제 (0) | 2023.02.20 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 기출문제 (0) | 2023.02.19 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 요약 (0) | 2023.02.19 |
[ADsP] (3과목) 데이터 분석 - 데이터 전처리 기출문제 (0) | 2023.02.19 |