본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 요약

320x100

 

<통계학 개론>

1. 통계와 통계분석

ㅇ 통계 : 분석하고자 하는 집단에 대해 조사하거나 실험을 통해 자료의 요약된 형태의 데이터를 추출, 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고 분석하는 학문
ㅇ 통계분석 : 목적에 맞게 특정 대상으로부터 데이터를 획득하고, 적절한 통계기법을 활용해 의사결정을 하는 과정

2. 전수조사와 표본조사

전수조사 : 통계 분석을 수행하기 위해 조사 대상이 되는 자료 모두에 대해 데이터 수집을 실시
(ex. 대한민국 성인 남성의 평균키를 조사할 때 2천만명 모두를 조사)
표본조사 : 통계분석을 수행하기 위해 조사 대상이 되는 자료의 일부분에 대하여 데이터 수집 실시
(ex. 대한민국 성인 남성 평균키 조사 시 현실적으로 2천만명을 대상으로 전수조사는 불가능하므로 성인 남성 일부를 대상으로 조사하는 표본조사가 요구됨)

 - 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추추되지 못함으로서 발생하는 오차

 - 비표본오차 : 표본오차를 제외한 모든 오차로서 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차

 - 표본편이 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차로 확률화에 의해 최소화하거나 없앨 수 있다.

320x100

3. 표본 추출방법

ㅇ 표본 추출 방법 선택의 중요성 : 표본은 조사대상 전체를 잘 나타낼 수 있어야 하며, 추출방법에 따라 결과가 달라질 수 있으므로 신중한 선택이 필요
ㅇ 표본 추출방법 종류
 1) 단순 랜덤 추출법 : 가장 쉽고 단순한 방법으로 임의로 자료를 무작위로 추출 (ex. 사다리타기, 제비뽑기)
 2) 계통 추출법 : 각 데이터에 번호를 부여한 뒤 일정 간격을 두고 데이터를 추출, 모집단의 모든 원소에 일련번호 부여, 순서대로 나열한 후 k개씩 n개의 구간으로 나눈 후 각 구간에서 하나를 임의로 선택 (간격을 얼마나 둘지는 조사자의 선택)
 3) 집락 추출법 : 데이터를 여러 개의 군집으로 나눈 뒤 각 군집에서 일정 개수만큼 단순 랜덤 추출, 각각의 군집들은 서로 유사한 형태를 보유하고 있으므로 군집 내 이질, 군집 간 동질 (ex. 학교에서 학년은 다르더라도 같은 반끼리 묶는 경우(1-10반, 2-10반, 3-10반), 군집 내 이질/군집간 동질 특성 보유)
 4) 층화 추출법 : 집락추출과 유사하지만 데이터를 군집화 할 때 유사데이터를 하나의 군집으로 묶음, 각각의 군집들은 서로 유사한 형태를 보유하고 있으므로 군집 내 동질, 군집간 이질 비례 층화 추출법과 불비례 층화 추출법으로 구분 (ex. 학교에서 같은 학년끼리 하나의 군집으로 묶는 방법과 같이 군집 내 동질, 군집 간 이질의 특성 보유)
  - 비례 층화 추출법 : 각 군집이 보유한 원소의 수에 비례하여 표본을 추출
  - 불비례 층화 추출법 : 각 군집이 보유한 원소의 수에 비례하지 않게 표본을 추출
    (ex. 1학년 100명, 2학년 200명, 3학년 300명에서 60명을 추출한다면? 비례는 학년별 인원 수를 고려하여 1학년 10명/2학년 20명/3학년 30명 추출)

4. 자료의 척도

ㅇ 관측하고자 하는 대상의 속성 (ex. 학교, 순위, 운도, 키)
ㅇ 척도의 종류
 1) 질적 척도
  - 명목 척도 : 측정 대상이 어느 집단에 속하는지 나타내는 자료 (ex. 대학교, 지역)
  - 순서 척도 : 측정 대상이 명목 척도이면서 서열 관계가 존재하는 자료 (ex. 학년, 순위, 등급)
 2) 양적 척도
  - 구간 척도 : 측정 대상이 보유한 속성의 을 측정할 수 있으며 구간 사이가 의미 있는 자료, 절대적인 원점이 없음. (ex. 온도, 지수)
  - 비율 척도 : 측정 대상이 구간 척도이면서 절대적 기준 0이 존재하여 사칙 연산이 가능한 자료 (ex. 신장, 몸무게 등)

반응형

5. 기초 통계량

평균(기댓값) : 일반적인 산술 평균을 의미하며 데이터를 요약할 때 가장 대표적으로 사용되는 값
중앙값 : 평균의 함정을 피하기 위한 하나의 척도로 자료를 순서대로 나열했을 때 가운데 위치 값
최빈값 : 평균의 함정을 피하기 위한 하나의 척도로 자료 중 가장 발생 빈도가 높은 값
분산 : 자료들이 평균으로부터 얼마나 멀리 떨어져 있는지 나타내는 척도. 하지만 기존 자료들과 단위가 통일되지 않는 문제가 존재(기존 자료들 단위의 제곱으로 통일된 단위가 아님)
표준편차 : 분산의 단위 통일 문제를 해결한 지표로 자료들이 평균으로부터 얼마나 멀리 떨어져 있는지 나타내는 척도(분산의 제곱근 값)
첨도 : 자료가 얼마나 평균에 많이 밀집해있는지 나타내는 척도. 첨도값이 3일 때 정규분포형태를 이룬다. 때로는 첨도값에서 3을 빼서 첨도값이 0일 때 정규분포형태라고 말하기도 한다.

왜도 : 자료의 비대칭 정도를 나타내는 측도로 왜도값이 음수일 때 왼쪽으로 긴 꼬리를, 왜도값이 양수일 때 오른쪽으로 긴 꼬리를, 왜도값이 0일 때 평균을 중심으로 양쪽이 대칭인 분포

공분산 : 두 확률변수 X, Y에 대한 상관정도를 나타낸 값으로 하나의 변수의 증감여부에 따라 다른 변수의 증감여부를 나타내는 값
 - X가 증가할 때 Y도 증가하는 정비례 관계인 경우 의 공분산을, X가 증가할 때 Y가 감소하는 반비례 관계인 경우 의 공분산을 가지며 상관관계가 존재하지 않을 때 공분산의 값은 0을 갖는다.
 - 하지만 최솟값 최댓값이 존재하지 않아 어느 정도 상관관계의 강약을 파악할 수 없는 문제가 존재

상관계수 : 최댓값 최솟값이 존재하지 않는 공분산의 문제를 해결한 척도두 변수의 상관정도를 나타내는 값
 - 상관계수 값이 1일 때는 완벽한 정비례 관계를, 상관계수 값이 -1일 때는 완벽한 반비례 관계

6. 확률과 확률분포

확률 : 발생 가능한 모든 사건들의 집합 중 특정사건이 발생할 수 있는 비율로 0과 1 사이의 값
 - P(A) = 특정 사건 A의 개수 / 전체 사건의 개수(표본공간)
조건부 확률 : 특정 사건 A가 이미 발생했을 때 사건 B가 발생할 확률
 - P( B | A ) = P( B ∩ A ) / P(A)
독립사건 : 두 사건 A, B에 대해서 사건의 서로가 영향을 주지 않는 관계로 사건 A의 발생 여부와 상관없이 사건 B의 확률에 변화가 없는 사건 (ex. A가 동전을 던져서 앞면이 나오는 사건일 때, B가 주사위를 던져서 3이 나오는 사건)
 - P( B | A ) = P(B)
 - P( B | A ) = P( A
∩ B ) / P(A) = P( A ∩ B ) = P(A) * P(B)
배반사건 : 두 사건 A, B에 대해서 서로 공통인 부분이 존재하지 않는 사건으로 교집합이 공집합 (ex. A가 주사위에서 3보다 작은 눈이 나오는 사건일 때, B가 3보다 큰 눈이 나오는 사건)
 - P( A ∩ B ) = Ø
확률변수 : 무작위 실험을 수행했을 때 각각의 결과 값들을 표현하는 변수 (ex. 동전을 던졌을 때 나올 수 있는 결과는 앞면과 뒷면)
확률분포 : 확률변수의 모든 값에 대하여 각 값이 발생할 수 있는 확률 값들의 분포이산형 확률분포연속형 확률분포로 나누어진다.

7. 표본을 도표화함으로써 모집단 분포의 개형을 파악하는 방법

ㅇ 히스토그램(도수분포표, 연속형), 막대그래프(범주형), 줄기-잎 그림, 상자그림, 산점도(연속적인 수), 파레토그림(명목형자료에서 중요한 소수를 찾는데 유용)

8. 이산형 확률분포

확률질량함수, 확률변수 X가 취할 수 있는 값들의 수를 셀 수 있는 분포로 모든 확률들은 0과 1 사이 값을 가지며, 각 사건의 확률의 합은 1이다. ( 0 ≦ P(X) ≦ 1        /      ∑ P(X) = 1 )
베르누이분포 : 확률변수 X가 취할 수 있는 값이 2개인 확률분포로 흔히 성공과 실패로 나눌 수 있다.
   (ex. 하나의 동전을 던져서 앞면이 나올 확률, 제비뽑기에서 당첨될 확률)
이항분포 : n번의 베르누이 시행을 통해서 k번 성공할 확률의 분포
   (ex. 하나의 동전을 3번 던져서 2번 앞면이 나올 확률, 3번 제비뽑기 중 2번 당첨될 확률_
기하분포 : 여러 번의 베르누이 시행에서 처음 성공이 나올 때까지 k번 실패할 확률
   (ex. 동전을 던져서 3번째 처음으로 앞면이 나올 확률)
다항분포 : 이항분포가 확장된 개념으로 각각의 시행이 3개 이상의 결과를 가질 수 있는 시행을 n번 시행할 때 특정 결과가 나올 확률 분포
   (ex. 주사위를 5번 던졌을 때 1이 1번, 2가 2번, 3이 2번 나올 확률)
포아송분포 : 단위시간 또는 단위공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포로 기댓값과 분산 모두가 단위시간 또는 단위공간당 사건이 발생할 비율과 같은 값.
   (ex. 8시간 동안 3번의 장난전화가 왔을 때, 1시간 동안 2번의 장난전화가 올 확률)

9. 연속형 확률분포

ㅇ 확률변수 X가 취할 수 있는 값들의 수를 셀 수 없는 분포, 확률밀도함수의 면적이 확률을 의미
         

균일분포 : 확률변수 X가 취할 수 있는 모든 값에 대해 같은 확률 값을 갖는 분포 (ex. 얼마나 들었는지 모르는 최대 용량이 200ml인 우유팩 속의 우유 양)
정규분포 : 평균이 μ, 표준편차가 σ 로 평균에 가장 밀접해 있으며, 평균에서 멀어질수록 빈도가 낮은 종 모양의 그래프로 일상생활에서 가장 흔히 볼 수 있는 분포 (ex. 한 학년의 평균 점수들의 분포)
T분포 : 자유도가 n인 T분포는 정규분포와 유사하게 평균이 0, 좌우가 대칭인 종 모양 그래프, 정규분포보다 두꺼운 꼬리를 가지며 자유도 n이 커질수록 표준정규분포에 가까워짐, 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다. (ex. 하나의 집단에 대한 모평균 검정(일 표본 T검정), 두 개의 집단에 대한 모평균 비교(이 표본 T검정))
카이제곱분포 : 표준정규분포를 따르는 n개의 확률변수들의 제곱의 합의 분포자유도는 표준정규분포의 개수 n이다. (ex. 2개 이상의 집단에 대한 동질성 검정)
F분포 : 서로 독립이며 자유도가 n, m인 두 카이제곱 분포를 각각의 자유도로 나누어 서로를 나눈 비용 (ex. 등분산 검정(두 확률 분포의 분산이 같은지 여부), 분산 분석)

10. 추정과 가설검정

ㅇ 모수의 추정 : 조사대상 전체를 조사하는 것은 현실적으로 불가능하거나 어렵기 때문에 표본조사를 통해 모수를 예측하는 것
 - 모수 : 통계학에서 모집단을 대표할 수 있는 하나의 알고 싶은 궁극적인 값
 - 점 추정 : 모집단의 모수가 하나의 값일 것이라 예측하는 것, 불편 추정량이란 모수의 추정하기 위한 값으로 실제 모수와 차이의 기댓값이 0을 의미
 - 구간 추정 : 모집단의 모수가 존재할 것이라 예상되는 특정 구간을 예측하는 것, 신뢰도(신뢰수준)으로는 95%와 99%를 가장 많이 사용
ㅇ 가설검정 : 모집단의 특성에 대한 주장을 가설로 세우고 표본조사를 통해 가설의 옳고 그름을 판정
 - 귀무가설(H0) : 일반적으로 ‘차이가 없다’를 의미하는 = 기호를 사용하여 나타내는 가설
 - 대립가설(H2) : 귀무가설 반대되는 주장. 귀무가설을 기각(틀렸다고 증명)시킴으로써 반증하는 가설
   .  1종 오류 : 귀무가설이 사실일 때 귀무가설을 기각하는 오류
   .  2종 오류 : 대립가설이 사실일 때 귀무가설을 채택하는 오류(대립가설을 기각하는 오류)
   .  1종 오류가 커지면 제 2종 오류가 작아짐,  2종 오류가 커지면 제 1종 오류가 작아짐
     -> 암 환자를 암환자가 아니라고 판단하는게 치료의 시기를 놓치기에 더 위험한 오류이므로 통계학자들은 1종 오류만 조정하기로 함

  귀무가설(H0) 채택
대립가설(H2) 기각
대립가설(H2) 채택
귀무가설(H0) 기각
귀무가설(H0) 사실 올바른 결정  1종 오류
대립가설(H2) 사실  2종 오류 올바른 결정

 - 검정 통계량 : 귀무가설의 채택 여부를 판단하기 위해 사용되며, 표본집단으로부터 얻은 자료를 특정 수식에 의해 얻은 값

 - 기각역 : 귀무가설을 기각할 수 있는 범위

 - 유의수준(α) : 귀무가설이 참일 때 이를 기각하는  1종 오류를 범할 최대 확률(일반적으로 0.05 사용), 1%와 5%를 주로 사용하며, 가설검정을 수행하는 환경에 맞게 조절 가능
   . 유의확률(p-value) : 귀무가설을 지지하는 확률을 나타내는 값으로 유의수준과 비교하여 귀무가설 채택여부를 결정
                  p-value < 유의수준(α) : 귀무가설 기각   /   p-value > 유의수준(α) : 귀무가설 채택

ㅇ 일 표본 T검정
 - 일 표본 양측 T 검정 : 하나의 모집단 모평균이 특정 값임을 검정
   (ex. 공장에서 생산되는 지우개의 평균 중량은 50g 이다.)

 - 일 표본 단측 T 검정 : 하나의 모집단의 모평균이 특정 값보다 크거나 혹은 작음을 검정
   (ex. 공장에서 생산되는 지우개의 평균 중량은 50g 이하이다.)

ㅇ이 표본 T검정

 - 이 표본 양측 T 검정 : 두 개의 모집단 모평균이 같음을 비교
   (ex. A 회사의 급여는 B 회사의 급여와 같다.)
 - 이 표본 단측 T 검정 : 두 개의 모집단의 모평균에 대하여 크고 작음을 검정
   (ex. A 회사의 급여는 B 회사의 급여보다 많다.)

ㅇ 대응 표본 T검정

 두 모집단 서로 대응 되는 관계에 있을 때, 전과 후의 비교를 검정
   (ex. 새로운 운동법의 체중 감량의 효과는 없다.)

ㅇ 분산분석

 - 세 개 이상의 집단에 대해서 모평균을 비교하기 위한 검정
   (ex.  신형 휴대폰 A, B, C의 속도 차이는 없다.)
 - 분산분석 사후검정 : 분산분석 단점 귀무가설을 기각할 경우 여러 집단 중 어느 집단끼리 다른지 파악할 수 없음
   (ex. Tukey 검정, Duncan 검정, Bonferroni 검정, Fisher LSD 검정)

요인 제곱 합 자유도(Df) 제곱 평균 F
처리 SSR a = 집단 수 – 1 MSR = SSR / a F = MSR / MSE
잔차 SSE b = 전체 수  집단 수 MSE = SSE / b
SST = SSR + SSE a + b = 전체 수 – 1    

11. 모수검정

ㅇ 모수검정
 - 가정된 분포의 모수에 대해 가설
 - 관측된 자료를 이용해 표본평균, 표본분산 등 이용

ㅇ 비모수검정

 - 모집단의 분포에 대해 아무 제약을 가하지 않고 검정 실시

 - 모집단 대한 아무런 정보가 없을 때 사용하는 방법

 - 관측 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용

 - 평균과 분산이 없고, 평균 값의 차이, 신뢰구간을 구할 수 없다.

 - 모집단의 특성을 몇 개의 모수로 결정하기 어려우며 수많은 모수가 필요할 수 있다.

 - 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정

 - 부호검정, 순위합검정, 크루스칼-왈리스 검정, 맨-휘트니 검정

 

<관련 기출문제>

2023.02.19 - [자격증공부] - [ADsP] (3과목) 데이터분석 - 통계분석 Part1 기출문제

 

[ADsP] (3과목) 데이터분석 - 통계분석 Part1 기출문제

1. 아래 보기에 들어갈 A와 B를 바르게 고른 것은 무엇인가? 두 개의 사건에 대하여 두 사건이 서로 공통 부분이 존재하지 않는 경우를 ( A )관계라 하며, 두 개의 사건이 공통인 부분이 존재한다

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형