728x90
반응형
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.
01 통계분석의 이해
- 통계: 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태로 표현
- 방법: 총 조사, 표본조사(sampling)
- 모집단: 조사하고자 하는 대상 집단 전체 표본: 모집단의 일부 원소 모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 표본 추출 방법
- 단순랜덤 추출: 임의의 n개 추출, 확률 동일 (복원/비복원)
- 계통 추출: 구간을 나눠 k개씩 띄어서 표본 선택
- 집락 추출: 군집별로 랜덤추출
- 층화 추출: 이질적 원소들로 구성된 모집단에서 각 계층을 대표할 표본 추출
- 측정
- 명목척도: 어떤 집단에 속하는지 분류 (성별, 출생지 등)
- 순서척도: 서열 관계 관측 (학년, 선호도, 신용등급 등)
- 구간척도: 속성의 양 측정 (온도, 지수 등)
- 비율척도: 비율이 가지는 의미, 0 존재, 사칙연산 가능 (무게, 나이, 시간, 거리 등)
- 통계 분석
- 통계적 추론(추측통계): 모수 추정, 가설 검정, 예측
- 기술통계: 평균, 표준편차, 중위수, 최빈값, 그래프 표현
- 확률 및 확률분포
- 확률변수: 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 이산형 확률분포: 0이 아닌 확률값을 갖는 셀 수 있는 경우
- 베르누이 분포: 결과가 2개의 값 (동전 던지기)
- 이상분포: 베르누이 시행을 n번 했을 때 k번 성공할 확률
- 기하분포, 다항분포, 포아송분포
- 연속형 확률분포: 값이 어느 특정구간 전체에 해당하는 경우 → 균일분포, 정규분포, 지수분포
- t분포: 두 집단의 평균이 동일한지 확인
- X^2 분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 (두 집단 간 동질성 검정)
- F분포: 두 집단 간 분산의 동일성 검정에 사용
추정 및 가설검정
- 추정: 표본으로부터 미지의 모수 추측
- 점추정: 모수가 특정 값일 것이라 추정
- 평균, 표준편차, 중앙값 등 추정
- 조건: 불편성, 효율성, 일치성, 충족성
- 구간추정: 모수가 특정 구간에 있을 것이라 추정
- 추정량 분포에 대한 전제 주어짐, 신뢰수준 주어짐
- 모분산을 알거나 대표본 → 표준정규분포
- 모분산을 모르거나 소표본 → t분포
- 점추정: 모수가 특정 값일 것이라 추정
가설검정
- 귀무가설이 옳다는 전제하에 검정통계량 추출 → 가능성에 의해 귀무가설 채택여부 결정
- 귀무가설: ‘비교하는 값과 차이가 없음, 동일함’
- 대립가설: 뚜렷한 증거가 있을 때 주장
- 유의수준: 귀무가설이 옳은데 기각할 확률
- 1종오류: 귀무가설 참 → 기각 (크기 0.1, 0.05, 0.01로 고정)
- 2종오류: 귀무가설 거짓 → 채택 (최소가 되도록 기각역 설정)
비모수 검정
- 모집단 분포에 대해 아무 제약 없이 실행
- 가설 설정: ‘분포의 형태 동일’ 또는 ‘동일하지 않음’ 형태
- 순위나 두 관측값 차이의 부호 이용
- 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수
02 기초 통계 분석
- 기술 통계: 자료의 특성을 표, 그림, 통계량 등 사용해 쉽게 파악하도록 정리/요약
- 통계량 분석
- 중심 위치: 평균, 중앙값, 최빈값
- 산포의 측도: 분산, 표준편차, 범위, 사분위수 범위, 변동계수, 표준오차
- 분포의 형태
- 왜도: 비대칭 정도
- 양수: 최빈값 < 중앙값 < 평균
0: 최빈값 = 중앙값 = 평균
음수: 평균 < 중앙값 < 최빈값
- 양수: 최빈값 < 중앙값 < 평균
- 첨도: 뾰족한 정도
- 양수: 긴 꼬리, 뾰족
0: 정규분포
음수: 짧은 꼬리, 완만
- 양수: 긴 꼬리, 뾰족
- 왜도: 비대칭 정도
- 그래프 분석
- 범주형 자료: 막대그래프, 파이차트 등
- 연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림 등
- 시계열 자료: 꺾은선 그래프
- 연관성 분석
- 종속변수(반응변수, y), 독립변수(설명변수, x)
- 산점도: 두 변수사이 선형관계/함수관계 확인, 이상값 존재 여부, 집단 수 확인
- 공분산: 두 확률변수 간 방향성 확인
- 상관분석
- 두 변수간 상관 정도를 상관계수를 통해 확인
- 상관계수: -1 ~ 1 사이 값, 양수는 양의 상관, 음수는 음의 상관 표현, 0은 상관이 없음 의미
- 피어스 상관계수: 등간척도 이상으로 측정된 두 변수의 상관관계 측정
→ 연속형 변수, 정규성 가정 - 스피어만 상관계수: 순서/서열 척도의 두 변수 간 상관관계 측정
→ 순서형 변수, 비모수적 방법, 순위 기준 - R프로그램
→ cor(x, y, method = “spearman”)
→ rcorr(as.matrix(data명), type=“spearman”)
03 회귀분석
- 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향 추정
- 영향 주는 변수(x): 설명변수, 독립변수, 예측변수
- 영향 받는 변수(y): 반응변수, 종속변수, 결과변수
- 회귀분석 종류
- 단순회귀: 독립변수 1개, 종속변수와 관계 직선
- 다중회귀: 독립변수 k개, 종속변수와 관계 선형
- 로지스틱회귀: 변수가 범주형
- 다항회귀: 독립변수 k개, 종속변수와 관계 1차 함수 이상
- 곡선 회귀: 독립변수 1개, 종속변수와 관계 곡선
- 비선형회귀: 미지의 모수들의 선형관계로 이루어지지 않음
- 결정계수(R^2)
- 전체제곱합(SST) → 자유도 n-1
- 회귀제곱합(SSR) → 자유도 p
- 오차제곱합(SSE) → 자유도 n-p-1
- 0 ≤ 결정계수 ≤ 1 (1에 가까울수록 잘 설명함)
- 선형회귀분석 가정
- 선형성: 입력변수와 출력변수의 관계
- 독립성: 잔차와 독립변인 값 관련X
- 등분산성: 잔차의 분산이 입력변수와 무관하게 일정
- 비상관성: 잔차끼리 상관 X
- 정상성(정규성): 잔차항이 정규분포
- 단순선형회귀분석: 입력변수와 출력변수 간 산점도로 확인
- 다중선형회귀분석: 잔차와 출력변수 간 산점도로 확인
- 다중선형회귀분석
- 다중공선성: 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정 곤란
- 다중공선성 검사
- VIF(분산팽창요인) 10보다 크면 문제 심각
- 상태지수 10이상 문제, 30보다 크면 심각
- 변수선택법
- 모형선택: 모든 가능한 독립션수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택
- 전진선택법: 중요한 설명변수부터 차례로 추가, (변수가 많은 경우 사용 가능)
- 후진소거법: 가장 적은 영향을 주는 변수부터 하나씩 제거 (변수가 많은 경우 활용 어려움)
- 단계별 방법: 전진선택법에 의해 변수 추가, 중요도 약화시 제거
- 벌점화된 선택 기준
- 모형의 복잡도에 벌점
- AIC, BIC 최소가 되는 모형 선택
04 시계열 분석
- 시계열 자료
- 시간의 흐름에 따라 관찰된 값들
- 목적: 미래의 값 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)
- 일변량시계열분석: 하나의 변수에 관심을 갖는 경우
- 다중시계열분석
- 계량경제: 시계열 데이터에 대한 회귀분석
- 비정상성 시계열 자료: 다루기 어려운 시계열 자료
- 정상성 시계열 자료: 비정상 시계열을 다루기 쉬운 자료로 변환한 자료
- 정상성 (모두 만족)
- 평균 일정: 모든 시점에 대해 일정한 평균 (차분을 통해 정상화)
- 일반 차분: 바로 전 시점의 자료를 뺌
- 계절 차분: 여러 시점 전의 자료를 뺌
- 분산 일정: 변환을 통해 정상화
- 공분산도 특정 시점에서 t, s에 의존하지 않고 일정: 시차에만 의존
- 정상시계열
- 어떤 시점에서 평균과 분산, 특정 시차의 길이를 갖는 자기공분산을 측정하면 동일 값
- 항상 평균값으로 회귀하려는 경향, 변동은 평균값 주변에서 일정 폭 유지
- 비정상시계열: 특정 기간의 시계열 자료에서 얻은 정보를 다른 시기로 일반화 불가
- 평균 일정: 모든 시점에 대해 일정한 평균 (차분을 통해 정상화)
- 자료 분석법
- 수학적 이론모형: 회귀분석방법, box-jenkins
- 직관적 방법: 지수평활법, 시계열 분해법 (시간에 따른 변동이 느린 경우)
- 장기 예측: 회귀분석방법
- 단기 예측: box-jenkins, 지수평활법, 시계열 분해법
- 시계열 모형
- 자귀회귀모형(AR모형)
- ACF(자기상관함수)는 빠르게 감소, PACF(부분자기함수)는 절단점 존재 ⇒ AR(절단점-1)
- 자기상관계수: k 기간 떨어진 값들의 상관 계수
- 부분 자기상관계수: 중간에 있는 값의 영향을 제외시킨 상관관계
- 이동평균모형(MA모형)
- 유한한 개수의 백색잡음의 결합 (언제나 정상성 만족)
- ACF에 절단점 존재, PACF는 빠르게 감소
- 1차 모형: 간단, 시계열이 같은 시점의 백색 잡음과 바로 전 시점의 백색 잡음의 결합 2차 모형: 전 시점 백색 잡음과 시차가 2인 백색 잡음의 결합
- 자귀회귀누적이동평균모형(ARIMA(p, d, q))
- 비정상시계열 모형 → 차분이나 변환 통해 정상화 (AR / MA / ARMA)
- d=0, ARMA(p, q)모형 → 정상성 만족
- p=0, IMA(d, q)모형 → d번 차분시 MA(q)모형 따름
- q=0, ARI(p, d)모형 → d번 차분시 AR(p)모형 따름
- 분해시계열
- 추세요인: 선형, 이차식 형태, 지수적 형태
- 계절요인: 요일마다 반복, 월마다 반복, 분기마다 반복 등 고정된 주기에 따라 변화
- 순환조사: 명백한 이유 없이 알려지지 않은 주기를 가지고 변화
- 불규칙요인: 위의 요인으로 설명할 수 없는 회귀분석에서의 오차
- 자귀회귀모형(AR모형)
05 다차원척도법(MDS)
- 개체들 사이의 유사성/비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현
- 개체들 사이의 집단화를 시각적으로 표현
- 표현
- 거리 계산: 유클리드 거리행렬 활용
- 스트레스 값: 상대적 거리의 정확도를 높이기 위한 적합 정도 표현
- Stress나 S-Stress를 부적합도 기준으로 사용
→ 최소가 될 때까지 반복 수행
- 종류
- 계량적 MDS (metric)
- 데이터가 구간척도나 비율척도인 경우 활용
- 유클리드 거리행렬 계산해 비유사성 표현
- 비계량적 MDS (nonmetric)
- 데이터가 순서척도인 경우
- 순서를 거리 속성과 같도록 변환해 표현
- 계량적 MDS (metric)
06 주성분분석(PCA)
- 상관관계가 있는 변수들을 선형으로 결합해 상관관계가 없는 변수로 분산을 극대화 (변수 축약)
- 다중공선성이 높은 변수 축소
- 연관성이 높은 변수 축소
- 주성분분석 vs 요인분석
- 공통점: 데이터 축소에 활용
- 요인분석: 변수의 수 지정 없음(분석자가 요인의 이름 명명), 대등한 관계의 변수, 목표변수 X
- 주성분분석: 변수의 수 4개 이상 넘지 않음 (제1주성분, 제2주성분), 제1주성분이 가장 중요, 목표변수 O
- 선택법
- 누적기여율이 85% 이상
- scree plot을 활용해 고유값이 수평을 유지하기 전단계
- R 프로그래밍
- princomp, pca: 스펙트럴 분해
- procomp: 특이치 분해
728x90
반응형
'Note > Certificate' 카테고리의 다른 글
[ADsP 시험] 제29회 데이터분석 준전문가(ADsP) 독학 후기 (0) | 2021.06.19 |
---|---|
[ADsP] 3과목 요약 정리 : 3-5 정형 데이터 마이닝 (0) | 2021.06.15 |
[ADsP] 3과목 요약 정리 : 3-3 데이터 마트 (0) | 2021.06.15 |
[ADsP] 3과목 요약 정리 : 3-2 R프로그래밍 기초 (0) | 2021.06.15 |
[ADsP] 3과목 요약 정리 : 3-1 데이터 분석 개요 (0) | 2021.06.15 |