[ADsP] 3과목 요약 정리 : 3-4 통계 분석
Note/Certificate

[ADsP] 3과목 요약 정리 : 3-4 통계 분석

728x90
반응형

'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.

01 통계분석의 이해

  • 통계: 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태로 표현
    • 방법: 총 조사, 표본조사(sampling)
    • 모집단: 조사하고자 하는 대상 집단 전체 표본: 모집단의 일부 원소 모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
    • 표본 추출 방법
      1. 단순랜덤 추출: 임의의 n개 추출, 확률 동일 (복원/비복원)
      2. 계통 추출: 구간을 나눠 k개씩 띄어서 표본 선택
      3. 집락 추출: 군집별로 랜덤추출
      4. 층화 추출: 이질적 원소들로 구성된 모집단에서 각 계층을 대표할 표본 추출
    • 측정
      1. 명목척도: 어떤 집단에 속하는지 분류 (성별, 출생지 등)
      2. 순서척도: 서열 관계 관측 (학년, 선호도, 신용등급 등)
      3. 구간척도: 속성의 양 측정 (온도, 지수 등)
      4. 비율척도: 비율이 가지는 의미, 0 존재, 사칙연산 가능 (무게, 나이, 시간, 거리 등)
  • 통계 분석
    1. 통계적 추론(추측통계): 모수 추정, 가설 검정, 예측
    2. 기술통계: 평균, 표준편차, 중위수, 최빈값, 그래프 표현
  • 확률 및 확률분포
    • 확률변수: 특정값이 나타날 가능성이 확률적으로 주어지는 변수
    1. 이산형 확률분포: 0이 아닌 확률값을 갖는 셀 수 있는 경우
      • 베르누이 분포: 결과가 2개의 값 (동전 던지기)
      • 이상분포: 베르누이 시행을 n번 했을 때 k번 성공할 확률
      • 기하분포, 다항분포, 포아송분포
    2. 연속형 확률분포: 값이 어느 특정구간 전체에 해당하는 경우 → 균일분포, 정규분포, 지수분포
      • t분포: 두 집단의 평균이 동일한지 확인
      • X^2 분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 (두 집단 간 동질성 검정)
      • F분포: 두 집단 간 분산의 동일성 검정에 사용
      ⇒ 자유도가 커질수록 정규분포에 가까움

추정 및 가설검정

  • 추정: 표본으로부터 미지의 모수 추측
    1. 점추정: 모수가 특정 값일 것이라 추정
      • 평균, 표준편차, 중앙값 등 추정
      • 조건: 불편성, 효율성, 일치성, 충족성
    2. 구간추정: 모수가 특정 구간에 있을 것이라 추정
      • 추정량 분포에 대한 전제 주어짐, 신뢰수준 주어짐
      • 모분산을 알거나 대표본 → 표준정규분포
      • 모분산을 모르거나 소표본 → t분포

가설검정

  • 귀무가설이 옳다는 전제하에 검정통계량 추출 → 가능성에 의해 귀무가설 채택여부 결정
  • 귀무가설: ‘비교하는 값과 차이가 없음, 동일함’
  • 대립가설: 뚜렷한 증거가 있을 때 주장
  • 유의수준: 귀무가설이 옳은데 기각할 확률
    • 1종오류: 귀무가설 참 → 기각 (크기 0.1, 0.05, 0.01로 고정)
    • 2종오류: 귀무가설 거짓 → 채택 (최소가 되도록 기각역 설정)

비모수 검정

  • 모집단 분포에 대해 아무 제약 없이 실행
  • 가설 설정: ‘분포의 형태 동일’ 또는 ‘동일하지 않음’ 형태
  • 순위나 두 관측값 차이의 부호 이용
  • 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수

02 기초 통계 분석

  • 기술 통계: 자료의 특성을 표, 그림, 통계량 등 사용해 쉽게 파악하도록 정리/요약
  • 통계량 분석
    1. 중심 위치: 평균, 중앙값, 최빈값
    2. 산포의 측도: 분산, 표준편차, 범위, 사분위수 범위, 변동계수, 표준오차
    3. 분포의 형태
      • 왜도: 비대칭 정도
        • 양수: 최빈값 < 중앙값 < 평균
          0: 최빈값 = 중앙값 = 평균
          음수: 평균 < 중앙값 < 최빈값
      • 첨도: 뾰족한 정도
        • 양수: 긴 꼬리, 뾰족
          0: 정규분포
          음수: 짧은 꼬리, 완만
  • 그래프 분석
    1. 범주형 자료: 막대그래프, 파이차트 등
    2. 연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림 등
    3. 시계열 자료: 꺾은선 그래프
  • 연관성 분석
    • 종속변수(반응변수, y), 독립변수(설명변수, x)
    • 산점도: 두 변수사이 선형관계/함수관계 확인, 이상값 존재 여부, 집단 수 확인
    • 공분산: 두 확률변수 간 방향성 확인
  • 상관분석
    • 두 변수간 상관 정도를 상관계수를 통해 확인
    • 상관계수: -1 ~ 1 사이 값, 양수는 양의 상관, 음수는 음의 상관 표현, 0은 상관이 없음 의미
    • 피어스 상관계수: 등간척도 이상으로 측정된 두 변수의 상관관계 측정
      → 연속형 변수, 정규성 가정
    • 스피어만 상관계수: 순서/서열 척도의 두 변수 간 상관관계 측정
      → 순서형 변수, 비모수적 방법, 순위 기준
    • R프로그램
      → cor(x, y, method = “spearman”)
      → rcorr(as.matrix(data명), type=“spearman”)

03 회귀분석

  • 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향 추정
    • 영향 주는 변수(x): 설명변수, 독립변수, 예측변수
    • 영향 받는 변수(y): 반응변수, 종속변수, 결과변수
  • 회귀분석 종류
    1. 단순회귀: 독립변수 1개, 종속변수와 관계 직선
    2. 다중회귀: 독립변수 k개, 종속변수와 관계 선형
    3. 로지스틱회귀: 변수가 범주형
    4. 다항회귀: 독립변수 k개, 종속변수와 관계 1차 함수 이상
    5. 곡선 회귀: 독립변수 1개, 종속변수와 관계 곡선
    6. 비선형회귀: 미지의 모수들의 선형관계로 이루어지지 않음
  • 결정계수(R^2)
    1. 전체제곱합(SST) → 자유도 n-1
    2. 회귀제곱합(SSR) → 자유도 p
    3. 오차제곱합(SSE) → 자유도 n-p-1
    ⇒ SST = SSR + SSE
    • 0 ≤ 결정계수 ≤ 1 (1에 가까울수록 잘 설명함)
    회귀식 검증: F검정 회귀계수 검증: t검정
  • 선형회귀분석 가정
    1. 선형성: 입력변수와 출력변수의 관계
    2. 독립성: 잔차와 독립변인 값 관련X
    3. 등분산성: 잔차의 분산이 입력변수와 무관하게 일정
    4. 비상관성: 잔차끼리 상관 X
    5. 정상성(정규성): 잔차항이 정규분포
    • 단순선형회귀분석: 입력변수와 출력변수 간 산점도로 확인
    • 다중선형회귀분석: 잔차와 출력변수 간 산점도로 확인
  • 다중선형회귀분석
    • 다중공선성: 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정 곤란
    • 다중공선성 검사
      1. VIF(분산팽창요인) 10보다 크면 문제 심각
      2. 상태지수 10이상 문제, 30보다 크면 심각
      ⇒ 선형관계가 강한 변수 제거
  • 변수선택법
    • 모형선택: 모든 가능한 독립션수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택
    • 전진선택법: 중요한 설명변수부터 차례로 추가, (변수가 많은 경우 사용 가능)
    • 후진소거법: 가장 적은 영향을 주는 변수부터 하나씩 제거 (변수가 많은 경우 활용 어려움)
    • 단계별 방법: 전진선택법에 의해 변수 추가, 중요도 약화시 제거
  • 벌점화된 선택 기준
    • 모형의 복잡도에 벌점
    • AIC, BIC 최소가 되는 모형 선택

04 시계열 분석

  • 시계열 자료
    • 시간의 흐름에 따라 관찰된 값들
    • 목적: 미래의 값 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)
    1. 일변량시계열분석: 하나의 변수에 관심을 갖는 경우
    2. 다중시계열분석
    3. 계량경제: 시계열 데이터에 대한 회귀분석
    4. 비정상성 시계열 자료: 다루기 어려운 시계열 자료
    5. 정상성 시계열 자료: 비정상 시계열을 다루기 쉬운 자료로 변환한 자료
  • 정상성 (모두 만족)
    1. 평균 일정: 모든 시점에 대해 일정한 평균 (차분을 통해 정상화)
      • 일반 차분: 바로 전 시점의 자료를 뺌
      • 계절 차분: 여러 시점 전의 자료를 뺌
    2. 분산 일정: 변환을 통해 정상화
    3. 공분산도 특정 시점에서 t, s에 의존하지 않고 일정: 시차에만 의존
    • 정상시계열
      • 어떤 시점에서 평균과 분산, 특정 시차의 길이를 갖는 자기공분산을 측정하면 동일 값
      • 항상 평균값으로 회귀하려는 경향, 변동은 평균값 주변에서 일정 폭 유지
    • 비정상시계열: 특정 기간의 시계열 자료에서 얻은 정보를 다른 시기로 일반화 불가
  • 자료 분석법
    1. 수학적 이론모형: 회귀분석방법, box-jenkins
    2. 직관적 방법: 지수평활법, 시계열 분해법 (시간에 따른 변동이 느린 경우)
    3. 장기 예측: 회귀분석방법
    4. 단기 예측: box-jenkins, 지수평활법, 시계열 분해법
  • 시계열 모형
    1. 자귀회귀모형(AR모형)
      • ACF(자기상관함수)는 빠르게 감소, PACF(부분자기함수)는 절단점 존재 ⇒ AR(절단점-1)
      • 자기상관계수: k 기간 떨어진 값들의 상관 계수
      • 부분 자기상관계수: 중간에 있는 값의 영향을 제외시킨 상관관계
    2. 이동평균모형(MA모형)
      • 유한한 개수의 백색잡음의 결합 (언제나 정상성 만족)
      • ACF에 절단점 존재, PACF는 빠르게 감소
      • 1차 모형: 간단, 시계열이 같은 시점의 백색 잡음과 바로 전 시점의 백색 잡음의 결합 2차 모형: 전 시점 백색 잡음과 시차가 2인 백색 잡음의 결합
    3. 자귀회귀누적이동평균모형(ARIMA(p, d, q))
      • 비정상시계열 모형 → 차분이나 변환 통해 정상화 (AR / MA / ARMA)
      • d=0, ARMA(p, q)모형 → 정상성 만족
      • p=0, IMA(d, q)모형 → d번 차분시 MA(q)모형 따름
      • q=0, ARI(p, d)모형 → d번 차분시 AR(p)모형 따름
    4. 분해시계열
      • 추세요인: 선형, 이차식 형태, 지수적 형태
      • 계절요인: 요일마다 반복, 월마다 반복, 분기마다 반복 등 고정된 주기에 따라 변화
      • 순환조사: 명백한 이유 없이 알려지지 않은 주기를 가지고 변화
      • 불규칙요인: 위의 요인으로 설명할 수 없는 회귀분석에서의 오차

05 다차원척도법(MDS)

  • 개체들 사이의 유사성/비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현
  • 개체들 사이의 집단화를 시각적으로 표현
  • 표현
    • 거리 계산: 유클리드 거리행렬 활용
    • 스트레스 값: 상대적 거리의 정확도를 높이기 위한 적합 정도 표현
    • Stress나 S-Stress를 부적합도 기준으로 사용
      → 최소가 될 때까지 반복 수행
  • 종류
    1. 계량적 MDS (metric)
      • 데이터가 구간척도나 비율척도인 경우 활용
      • 유클리드 거리행렬 계산해 비유사성 표현
    2. 비계량적 MDS (nonmetric)
      • 데이터가 순서척도인 경우
      • 순서를 거리 속성과 같도록 변환해 표현

06 주성분분석(PCA)

  • 상관관계가 있는 변수들을 선형으로 결합해 상관관계가 없는 변수로 분산을 극대화 (변수 축약)
  • 다중공선성이 높은 변수 축소
  • 연관성이 높은 변수 축소
  • 주성분분석 vs 요인분석
    • 공통점: 데이터 축소에 활용
    • 요인분석: 변수의 수 지정 없음(분석자가 요인의 이름 명명), 대등한 관계의 변수, 목표변수 X
    • 주성분분석: 변수의 수 4개 이상 넘지 않음 (제1주성분, 제2주성분), 제1주성분이 가장 중요, 목표변수 O
  • 선택법
    • 누적기여율이 85% 이상
    • scree plot을 활용해 고유값이 수평을 유지하기 전단계
  • R 프로그래밍
    • princomp, pca: 스펙트럴 분해
    • procomp: 특이치 분해
728x90
반응형