<회귀분석>
1. 다음 중 회귀분석을 수행하기 위한 가정사항이 아닌 것은 무엇인가?
① 선형성
② 등분산성
③ 정규성
④ 공분산성
※ 정답 : 4번
2. 다음은 무엇에 대한 설명인가?
회귀분석에서 각 독립변수에 대한 회귀계수를 추정하기 위한 방법으로 잔차의 제곱합이 최소가 되는 회귀식을 찾는 방법이다.
( 최소제곱법 )
3. 다음은 종속변수 y를 추정하기 위해 독립변수 x에 대하여 회귀분석을 수행한 결과이다. 다음 중 결과를 잘못 해석한 것은 무엇인가?
① 유의수준 0.05 이내에서 위 결과는 통계적으로 유의하다.
② 해당 결과는 전체 데이터의 79.29%를 설명하고 있다.
③ x의 회귀계수는 3.6471로 추정된다.
④ F 통계량의 자유도로 보아 9개의 데이터로 회귀분석을 수행하였다.
※ 정답 : 4번 : 10개
4. 아래 분산분석표의 빈칸으로 들어갈 값으로 잘못된 것은 무엇인가?
① ㄱ – 90
② ㄴ – 100
③ ㄷ - 2
④ ㅁ – 4.5
※ 정답 : 3번 - 5
5. 아래 분산분석 표를 통해 결정계수 값을 바르게 계산하시오.
( 0.9 )
※ 정답 : 회귀제곱합/전체 = 90/100
6. 다음은 다중선형회귀분석을 수행한 결과를 타나낸 것이다. 다음 중 잘못 해석한 것은 무엇인가?
① lm(data=var_data, target ~ var1 + var2 + var3 + var4)로 분석을 수행해도 같은 결과를 얻는다.
② 수정된 결정계수값으로 보아 위 모형은 전체 데잍터의 약 64%를 설명하고 있다.
③ var4의 회귀계수에 대한 추정치가 통계적으로 유의하지 않아 해당 모형은 활용할 수 없다.
④ 전체 100개의 데이터를 활용하여 회귀분석을 수행하였다.
※ 정답 : 3번
7. 다음은 다중선형회귀분석을 수행한 결과를 타나낸 것이다. 아래 결과를 보고 var1 = var2 = var3 = var4 = 1 인 경우에 대해서 추정되는 종속변수값을 바르게 계산하시오.
( -18.6573 )
※정답 : Targe = -25.3345 + 5.1105*var1 -1.8969*var2 + 2.8446*var3 + 0.6190*var4
8. 독립변수(x)와 독립변수의 제곱(x2)을 활용하여 종속변수(y)를 추정하기 위해 회귀분석을 수행한 결과이다. 다음 중 잘못 해석한 것은 무엇인가?
① 위 모형의 p-value값을 보아 유의수준 0.05 이내에서 통계적으로 유의하다.
② 위 모형은 두 개 이상의 변수를 갖고 있는 다중회귀모형이다.
③ 결정계수 값을 보아 위 모형은 전체 데이터의 88%이상을 설명한다.
④ x의 p-value 값이 유의수준 5% 내에서 기각할 수 없어 x를 제외하고 회귀분석을 한번 더 수행하는 것이 권장된다.
※ 정답 : 2번 – 다항회귀모형
9. 다음 설명은 회귀분석의 여러 기법들 중 무엇에 대한 설명인가?
여러 개의 독립변수 후보들 중 가장 최적인 회귀방정식을 찾는 방법으로 상수항만 있는 모형에서 출발하여 벌점에 따라 변수를 추가하는 반복 작업을 통해 최적 회귀방정식을 찾아내는 방법
① 단순선형회귀
② 다항회귀
③ 전진 선택법
④ 후진 제거법
※ 정답 : 3번
10. 다음 설명은 최적 회귀방정식을 추정하는데 있어서 벌점의 지표 중 하나에 대한 설명이다. 어느 지표에 대한 설명인지 고르시오.
자료의 수가 많아질수록 부정확해지는 문제를 해결하기 위해 도입된 변수 선택 지표이다. 또한 다른 벌점들 보다 높은 패널티를 갖기 때문에 변수의 개수가 적은 경우에 활용이 권장된다.
① AIC
② BIC
③ 멜로우 Cp
④ 결정계수
※ 정답 : 2번
11. 로지스틱회귀분석은 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계기법이다. 다음 중 로지스틱 회귀모형의 검정방법으로 알맞은 것을 고르시오.
① 최소제곱법
② 양측검정
③ F검정
④ 카이제곱 검정
※ 정답 : 4번
12. 회귀분석에서 다중공선성은 모형의 일부 설명변수가 다른 설명변수와 상관되어 있을 때 발생하는 현상이다. 다음 중 다중공선성에 대한 설명으로 부적절한 것은?
① 다중공선성은 회귀계순의 분산을 증가시켜 불확실성을 감소시킨다.
② 모형의 일부 예측변수가 다른 예측변수와 상관되어 있을 때 발생하는 문제이다.
③ 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 따라 달라질 수 있으므로 높은 상관관계가 있는 설명 변수는 변환을 한 다음 모형에서 사용해야 한다.
④ R에서 다중공선성을 확인하는 함수로 vif가 있으며, 보통 vif값이 10이상이면 다중공선성을 의심한다.
※ 정답 : 1번
- 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만든다.
13. 다음 중 추정된 다중회귀모형이 통계적으로 유의미한지 확인하는 방법으로 적절한 것은?
① F통계량
② 결정계수
③ t통계량
④ 잔차를 그래프로 그리고 회귀진단을 한다.
※ 정답 : 1번
14. 다중 회귀분석에서 가장 적합한 회귀모형을 찾기 위한 과정의 설명으로 가장 부적절한 것은?
① 독립변수의 수가 많아지면 모델의 설명력이 증가하지만 모형이 복잡해지고 독립변수들 간에 서로 영향을 미치는 다중공선성의 문제가 발생하므로 상대적인 조정이 필요하다.
② 회귀식에 대한 검정은 독립변수의 기울기가 0이 아니라는 가정을 귀무가설, 기울기가 0인 것을 대립가설로 놓는다.
③ 잔차의 독립성, 등분산성 그리고 정규성을 만족하는지 확인해야 한다.
④ 회귀분석의 가설검정에서 p값이 0.05보다 작은 값이 나와야 통계적으로 유의한 결과로 받아들일 수 있다.
※ 정답 : 2번
- 회귀식에 대한 검정은 독립변수의 기울기가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설
15. 회귀분석에서 결정계수(R2)에 대한 설명으로 부적절한 것은?
① 총 변동 중에서 설명이 되지 않는 오차에 의한 변동이 차지하는 비율이다.
② 회귀모형에서 입력 변수가 증가하면 결정계수도 증가한다.
③ 다중 회귀분석에서는 최적 모형의 선정기준으로 결정계수 값보다는 수정된 결정계수 값을 사용하는 것이 적절하다.
④ 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소한다.
※ 정답 : 1번
- 결정계수는 총 변동 중에서 회구모형에 의하여 설명되는 변동이 차지하는 비율이다.
16. 다음 중 최적회귀방정식을 선택하기 위한 방법에 대한 설명으로 가장 부적절한 것은?
① 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다.
② AIC나 BIC의 값이 가장 작은 모형을 선택하는 방법으롤 모든 가능한 조합의 회귀분석을 실시한다.
③ 전진선택법이나 후진제거법과 동일한 최적 모형을 선택하는 것이 단계적 방법이다.
④ 전진선택법은 설명변수를 추가했을 때 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가한다.
※ 정답 : 3번
- 단계적 방법은 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법이므로 전진선택법과 후진선택법과 동일한 최적의 모형을 가지는 것은 아니다.
<관련 이론정리 요약>
2023.02.20 - [자격증공부] - [ADsP] (3과목) 데이터 분석 - 통계분석 Part2 요약
<ADsP 요약+기출문제 자료 다운로드(바로가기)>
'자격증공부 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제 (0) | 2023.02.20 |
---|---|
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 요약 (0) | 2023.02.20 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 요약 (0) | 2023.02.20 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 기출문제 (0) | 2023.02.19 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 요약 (0) | 2023.02.19 |