01 통계분석의 이해

통계: 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태로 표현
- 방법: 총 조사, 표본조사(sampling)
- 모집단: 조사하고자 하는 대상 집단 전체 표본: 모집단의 일부 원소 모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 표본 추출 방법
  1. 단순랜덤 추출: 임의의 n개 추출, 확률 동일 (복원/비복원)
  2. 계통 추출: 구간을 나눠 k개씩 띄어서 표본 선택
  3. 집락 추출: 군집별로 랜덤추출
  4. 층화 추출: 이질적 원소들로 구성된 모집단에서 각 계층을 대표할 표본 추출
- 측정
  1. 명목척도: 어떤 집단에 속하는지 분류 (성별, 출생지 등)
  2. 순서척도: 서열 관계 관측 (학년, 선호도, 신용등급 등)
  3. 구간척도: 속성의 양 측정 (온도, 지수 등)
  4. 비율척도: 비율이 가지는 의미, 0 존재, 사칙연산 가능 (무게, 나이, 시간, 거리 등)
통계 분석
1. 통계적 추론(추측통계): 모수 추정, 가설 검정, 예측
2. 기술통계: 평균, 표준편차, 중위수, 최빈값, 그래프 표현
확률 및 확률분포
- 확률변수: 특정값이 나타날 가능성이 확률적으로 주어지는 변수
1. 이산형 확률분포: 0이 아닌 확률값을 갖는 셀 수 있는 경우
  - 베르누이 분포: 결과가 2개의 값 (동전 던지기)
  - 이상분포: 베르누이 시행을 n번 했을 때 k번 성공할 확률
  - 기하분포, 다항분포, 포아송분포
2. 연속형 확률분포: 값이 어느 특정구간 전체에 해당하는 경우 → 균일분포, 정규분포, 지수분포
  - t분포: 두 집단의 평균이 동일한지 확인
  - X^2 분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 (두 집단 간 동질성 검정)
  - F분포: 두 집단 간 분산의 동일성 검정에 사용
  ⇒ 자유도가 커질수록 정규분포에 가까움

추정 및 가설검정

추정: 표본으로부터 미지의 모수 추측
1. 점추정: 모수가 특정 값일 것이라 추정
  - 평균, 표준편차, 중앙값 등 추정
  - 조건: 불편성, 효율성, 일치성, 충족성
2. 구간추정: 모수가 특정 구간에 있을 것이라 추정
  - 추정량 분포에 대한 전제 주어짐, 신뢰수준 주어짐
  - 모분산을 알거나 대표본 → 표준정규분포
  - 모분산을 모르거나 소표본 → t분포

가설검정

귀무가설이 옳다는 전제하에 검정통계량 추출 → 가능성에 의해 귀무가설 채택여부 결정
귀무가설: ‘비교하는 값과 차이가 없음, 동일함’
대립가설: 뚜렷한 증거가 있을 때 주장
유의수준: 귀무가설이 옳은데 기각할 확률
- 1종오류: 귀무가설 참 → 기각 (크기 0.1, 0.05, 0.01로 고정)
- 2종오류: 귀무가설 거짓 → 채택 (최소가 되도록 기각역 설정)

비모수 검정

모집단 분포에 대해 아무 제약 없이 실행
가설 설정: ‘분포의 형태 동일’ 또는 ‘동일하지 않음’ 형태
순위나 두 관측값 차이의 부호 이용
부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수

02 기초 통계 분석

기술 통계: 자료의 특성을 표, 그림, 통계량 등 사용해 쉽게 파악하도록 정리/요약
통계량 분석
1. 중심 위치: 평균, 중앙값, 최빈값
2. 산포의 측도: 분산, 표준편차, 범위, 사분위수 범위, 변동계수, 표준오차
3. 분포의 형태
  - 왜도: 비대칭 정도
    - 양수: 최빈값 < 중앙값 < 평균
      0: 최빈값 = 중앙값 = 평균
      음수: 평균 < 중앙값 < 최빈값
  - 첨도: 뾰족한 정도
    - 양수: 긴 꼬리, 뾰족
      0: 정규분포
      음수: 짧은 꼬리, 완만
그래프 분석
1. 범주형 자료: 막대그래프, 파이차트 등
2. 연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림 등
3. 시계열 자료: 꺾은선 그래프
연관성 분석
- 종속변수(반응변수, y), 독립변수(설명변수, x)
- 산점도: 두 변수사이 선형관계/함수관계 확인, 이상값 존재 여부, 집단 수 확인
- 공분산: 두 확률변수 간 방향성 확인
상관분석
- 두 변수간 상관 정도를 상관계수를 통해 확인
- 상관계수: -1 ~ 1 사이 값, 양수는 양의 상관, 음수는 음의 상관 표현, 0은 상관이 없음 의미
- 피어스 상관계수: 등간척도 이상으로 측정된 두 변수의 상관관계 측정
  → 연속형 변수, 정규성 가정
- 스피어만 상관계수: 순서/서열 척도의 두 변수 간 상관관계 측정
  → 순서형 변수, 비모수적 방법, 순위 기준
- R프로그램
  → cor(x, y, method = “spearman”)
  → rcorr(as.matrix(data명), type=“spearman”)

03 회귀분석

하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향 추정
- 영향 주는 변수(x): 설명변수, 독립변수, 예측변수
- 영향 받는 변수(y): 반응변수, 종속변수, 결과변수
회귀분석 종류
1. 단순회귀: 독립변수 1개, 종속변수와 관계 직선
2. 다중회귀: 독립변수 k개, 종속변수와 관계 선형
3. 로지스틱회귀: 변수가 범주형
4. 다항회귀: 독립변수 k개, 종속변수와 관계 1차 함수 이상
5. 곡선 회귀: 독립변수 1개, 종속변수와 관계 곡선
6. 비선형회귀: 미지의 모수들의 선형관계로 이루어지지 않음
결정계수(R^2)
1. 전체제곱합(SST) → 자유도 n-1
2. 회귀제곱합(SSR) → 자유도 p
3. 오차제곱합(SSE) → 자유도 n-p-1
⇒ SST = SSR + SSE
- 0 ≤ 결정계수 ≤ 1 (1에 가까울수록 잘 설명함)
회귀식 검증: F검정 회귀계수 검증: t검정
선형회귀분석 가정
1. 선형성: 입력변수와 출력변수의 관계
2. 독립성: 잔차와 독립변인 값 관련X
3. 등분산성: 잔차의 분산이 입력변수와 무관하게 일정
4. 비상관성: 잔차끼리 상관 X
5. 정상성(정규성): 잔차항이 정규분포
- 단순선형회귀분석: 입력변수와 출력변수 간 산점도로 확인
- 다중선형회귀분석: 잔차와 출력변수 간 산점도로 확인
다중선형회귀분석
- 다중공선성: 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정 곤란
- 다중공선성 검사
  1. VIF(분산팽창요인) 10보다 크면 문제 심각
  2. 상태지수 10이상 문제, 30보다 크면 심각
  ⇒ 선형관계가 강한 변수 제거
변수선택법
- 모형선택: 모든 가능한 독립션수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택
- 전진선택법: 중요한 설명변수부터 차례로 추가, (변수가 많은 경우 사용 가능)
- 후진소거법: 가장 적은 영향을 주는 변수부터 하나씩 제거 (변수가 많은 경우 활용 어려움)
- 단계별 방법: 전진선택법에 의해 변수 추가, 중요도 약화시 제거
벌점화된 선택 기준
- 모형의 복잡도에 벌점
- AIC, BIC 최소가 되는 모형 선택

04 시계열 분석

시계열 자료
- 시간의 흐름에 따라 관찰된 값들
- 목적: 미래의 값 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)
1. 일변량시계열분석: 하나의 변수에 관심을 갖는 경우
2. 다중시계열분석
3. 계량경제: 시계열 데이터에 대한 회귀분석
4. 비정상성 시계열 자료: 다루기 어려운 시계열 자료
5. 정상성 시계열 자료: 비정상 시계열을 다루기 쉬운 자료로 변환한 자료
정상성 (모두 만족)
1. 평균 일정: 모든 시점에 대해 일정한 평균 (차분을 통해 정상화)
  - 일반 차분: 바로 전 시점의 자료를 뺌
  - 계절 차분: 여러 시점 전의 자료를 뺌
2. 분산 일정: 변환을 통해 정상화
3. 공분산도 특정 시점에서 t, s에 의존하지 않고 일정: 시차에만 의존
- 정상시계열
  - 어떤 시점에서 평균과 분산, 특정 시차의 길이를 갖는 자기공분산을 측정하면 동일 값
  - 항상 평균값으로 회귀하려는 경향, 변동은 평균값 주변에서 일정 폭 유지
- 비정상시계열: 특정 기간의 시계열 자료에서 얻은 정보를 다른 시기로 일반화 불가
자료 분석법
1. 수학적 이론모형: 회귀분석방법, box-jenkins
2. 직관적 방법: 지수평활법, 시계열 분해법 (시간에 따른 변동이 느린 경우)
3. 장기 예측: 회귀분석방법
4. 단기 예측: box-jenkins, 지수평활법, 시계열 분해법
시계열 모형
1. 자귀회귀모형(AR모형)
  - ACF(자기상관함수)는 빠르게 감소, PACF(부분자기함수)는 절단점 존재 ⇒ AR(절단점-1)
  - 자기상관계수: k 기간 떨어진 값들의 상관 계수
  - 부분 자기상관계수: 중간에 있는 값의 영향을 제외시킨 상관관계
2. 이동평균모형(MA모형)
  - 유한한 개수의 백색잡음의 결합 (언제나 정상성 만족)
  - ACF에 절단점 존재, PACF는 빠르게 감소
  - 1차 모형: 간단, 시계열이 같은 시점의 백색 잡음과 바로 전 시점의 백색 잡음의 결합 2차 모형: 전 시점 백색 잡음과 시차가 2인 백색 잡음의 결합
3. 자귀회귀누적이동평균모형(ARIMA(p, d, q))
  - 비정상시계열 모형 → 차분이나 변환 통해 정상화 (AR / MA / ARMA)
  - d=0, ARMA(p, q)모형 → 정상성 만족
  - p=0, IMA(d, q)모형 → d번 차분시 MA(q)모형 따름
  - q=0, ARI(p, d)모형 → d번 차분시 AR(p)모형 따름
4. 분해시계열
  - 추세요인: 선형, 이차식 형태, 지수적 형태
  - 계절요인: 요일마다 반복, 월마다 반복, 분기마다 반복 등 고정된 주기에 따라 변화
  - 순환조사: 명백한 이유 없이 알려지지 않은 주기를 가지고 변화
  - 불규칙요인: 위의 요인으로 설명할 수 없는 회귀분석에서의 오차

05 다차원척도법(MDS)

개체들 사이의 유사성/비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현
개체들 사이의 집단화를 시각적으로 표현
표현
- 거리 계산: 유클리드 거리행렬 활용
- 스트레스 값: 상대적 거리의 정확도를 높이기 위한 적합 정도 표현
- Stress나 S-Stress를 부적합도 기준으로 사용
  → 최소가 될 때까지 반복 수행
종류
1. 계량적 MDS (metric)
  - 데이터가 구간척도나 비율척도인 경우 활용
  - 유클리드 거리행렬 계산해 비유사성 표현
2. 비계량적 MDS (nonmetric)
  - 데이터가 순서척도인 경우
  - 순서를 거리 속성과 같도록 변환해 표현

06 주성분분석(PCA)

상관관계가 있는 변수들을 선형으로 결합해 상관관계가 없는 변수로 분산을 극대화 (변수 축약)
다중공선성이 높은 변수 축소
연관성이 높은 변수 축소
주성분분석 vs 요인분석
- 공통점: 데이터 축소에 활용
- 요인분석: 변수의 수 지정 없음(분석자가 요인의 이름 명명), 대등한 관계의 변수, 목표변수 X
- 주성분분석: 변수의 수 4개 이상 넘지 않음 (제1주성분, 제2주성분), 제1주성분이 가장 중요, 목표변수 O
선택법
- 누적기여율이 85% 이상
- scree plot을 활용해 고유값이 수평을 유지하기 전단계
R 프로그래밍
- princomp, pca: 스펙트럴 분해
- procomp: 특이치 분해

728x90

'Note > Certificate' 카테고리의 다른 글

[ADsP 시험] 제29회 데이터분석 준전문가(ADsP) 독학 후기 (0)	2021.06.19
[ADsP] 3과목 요약 정리 : 3-5 정형 데이터 마이닝 (0)	2021.06.15
[ADsP] 3과목 요약 정리 : 3-3 데이터 마트 (0)	2021.06.15
[ADsP] 3과목 요약 정리 : 3-2 R프로그래밍 기초 (0)	2021.06.15
[ADsP] 3과목 요약 정리 : 3-1 데이터 분석 개요 (0)	2021.06.15

[ADsP] 3과목 요약 정리 : 3-4 통계 분석

01 통계분석의 이해

추정 및 가설검정

가설검정

비모수 검정

02 기초 통계 분석

03 회귀분석

04 시계열 분석

05 다차원척도법(MDS)

06 주성분분석(PCA)

'Note > Certificate' 카테고리의 다른 글

티스토리툴바