[ADsP] 3과목 요약 정리 : 3-5 정형 데이터 마이닝
Note/Certificate

[ADsP] 3과목 요약 정리 : 3-5 정형 데이터 마이닝

728x90
반응형

'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.

01 데이터마이닝

통계분석: 가설이나 가정에 따른 분석이나 검증
  • 대용량 데이터에서 의미 있는 패턴을 파악하거나 의사결정에 활용
  • 종류
    1. 방법론: 인공지능, 의사결정나무, K-평균 군집화, 연관분석, 회귀분석, 로짓분석, 최근접 이웃
    2. 표현 방법: 시각화 분석, 분류, 군집화, 포캐스팅
  • 사용 분야
    • 환자 데이터를 이용해 발생 가능성이 높은 병 예측
    • 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야하는가 결정
    • 고객 데이터를 이용해 우량/불량 예측해 대출적격 여부 판단
    • 입국자의 이력과 데이터를 이용해 관세물품 반입 여부 예측
  • 데이터마이닝 발전사
    1. 데이터 수집(1960s): 정적 데이터 공급
    2. 데이터 접근(1970s): 동적 데이터 공급
    3. 데이터 웨어하우징 & 의사결정지원(1980s): 다양한 차원의 동적 데이터 공급
    4. 데이터 마이닝(1990s~): 예측 정보의 공급
  • 학습법
    1. 지도학습: 목적변수 존재
      • 의사결정나무, 인공신경망, 판별분석, 로지스틱회귀분석, 사례기반추론 등
    2. 비지도학습: 목적변수 없음
      • 연관성분석, 연속규칙, 군집분석, OLAP, SOM 등
  • 목적
    • 예측
      1. 분류 규칙: 고객의 특성을 찾아 분류모형을 만들어 결과 예측 (목표 마케팅, 신용 평가)
        → 회귀분석, 판별분석, 신경망, 의사결정나무
    • 설명
      1. 연관 규칙: 항목간 종속관계 찾아냄 (사기적발, 교차판매, 매장진열)
        → 동시발생 매트릭스
      2. 연속 규칙: 연관규칙 + 시간 관련 정보, 구매이력 필요 (목표 마케팅, 일대일 마케팅)
        → 동시발생 매트릭스
      3. 데이터 군집화: 유사한 특성의 소그룹으로 분할, 분석 대상 데이터에 결과값이 없음 (판촉활동, 이벤트 대상 선정)
        → K-평균 클러스트링
  • 추진 단계
    1. 목적 설정: 무엇을 왜 하는지
    2. 데이터 준비: 데이터 정제 (품질 보장, 충분한 양 확보)
    3. 데이터 가공: 목적변수 정의하거나 모델링을 위한 데이터 형식으로 가공
    4. 기법 적용: 정보 추출
    5. 검증: 최적의 모델 선정
  • 데이터 분할
    1. 구축용(훈련용)
    2. 검정용: 과대/과소 추정의 판정 목적
    3. 시험용: 모델 성능 평가
  • 성능 평가: 오분류율

02 의사결정나무

  • 분류분석 vs 예측분석
    • 공통점: 특정 속성의 값을 추측
    • 차이점
      • 분류: 범주형 속성의 값 추측 (각 그룹 정의)
      • 예측: 연속형 속성의 값 추측
    • 분류 모델링: 신용평가모형, 사기방지모형, 이탈모형, 고객세분화
    • 분류기법
      • 로지스틱 회귀분석, 베이지안 분류, 의사결정나무, 인공신경망, 지지도 벡터기계, k 최근접 이웃, 규칙기반 분류, 사례기반추론
  • 의사결정나무
    • 분류함수를 규칙적인 나무 모양으로 그림
    • 비정상 잡음 데이터에 대해서도 민감함 없이 분류
    • 계산 결과가 의사결정나무에 직접 나타남, 정확도 높음 (분석 간편)
    • 활용
      • 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용의 효과, 범주 병합, 연속형 변수 이산화
    • 분석 과정
      1. 성장: 적절한 분리규칙을 찾아 성장, 적절한 정지규칙을 만족하면 중단
      2. 가지치기: 불필요한 가지 제거
      3. 타당성 평가: 이익도표, 위험도표, 시험자료를 이용한 평가
      4. 해석 및 예측: 적용
  • 불순도에 따른 분할 측도
    1. 카이제곱 통계량: ((기대도수-실제도수)^2/기대도수)의 합
    2. 지니지수
    3. 엔트로피지수
  • 알고리즘
    1. CART: 목적변수가 범주형인 경우 지니지수, 연속형인경우 이진분리
    2. C4.5, C5.0: 다지분리 가능, 엔트로피지수
    3. CHAID: 가지치기x, 입력변수가 반드시 범주형 변수, 카이제곱 통계량

03 앙상블기법

  • 여러 개의 예측모형을 만든 후 조합해 하나의 최종 모형을 만듦 (다중 모델 조합)
  • 학습방법의 불안정성: 학습 자료의 작은 변화에 의해 예측 모형이 크게 변하는 경우
    • 안정: 근접 이웃, 선형 회귀모형
    • 불안정: 의사결정나무
  1. 배깅
    • 여러 부트스트랩 자료 생성, 결과를 결합해 결과 선정
    • 부트스트랩: 동일 크기의 표본을 랜덤 복원 추출
    • 보팅: 산출된 결과를 다수결에 의해 선정
    • 의사결정나무의 가지치기 없이 최대로 성장한 결과 활용
    • 모집단의 분포를 모름 → 평균예측모형 구할 수 없음 (배깅은 훈련자료를 모집단으로 생각 → 분산 감소, 예측력 향상)
  2. 부스팅
    • 예측력이 약한 모형 결합 → 강한 예측모형
    • Adaboost 성능이 주로 배깅보다 뛰어남
  3. 랜덤 포레스트
    • 분산이 큰 속성 → 더 많은 무작위성, 선형 결합
    • 변수 제거없이 실행 → 정확도 높음
    • 해석이 어렵지만 예측력 높음
  4. 스태킹
    • 다양한 학습 모델을 통해 구성
  • 성과분석
    • 정확도 (Accuracy) = (TP+TN)/(TP+FN+FP+TN)
    • 정밀도 (Precision) = TP/(TP+FP)
    • 민감도 (Sensitivity), 재현율 (Recall) = TP/(TP+FN)
    • 특이도 (Specificity) = TN/(FP+TN)
    • F1-스코어 = 2 * (정밀도*재현율)/(정밀도+재현율)
  • 오분류표
    •   실제 Positive 실제 Negative
      예측 Positive TP FP
      예측 Negative FN TN
  • ROC 커브
    • 모형 평가 의사결정나무 분석
    • TPR(민감도): 1에 대해 1로 예측한 비율
    • FPR(1-특이도): 0에 대해 1로 잘못 예측한 비율
    • AUROC: 정확도 측정 기준
      • 1에 가까울 수록 정확

04 인공신경망 분석(ANN)

  • 인공신경망: 인간의 뇌를 기반으로 한 추론 모델
  • 뉴런: 정보처리 단위
    • 가중치 있는 링크들로 연결됨
    • 여러 개의 입력신호를 받아 하나의 출력신호 생성
    • 계산: 전이함수(활성함수) 사용
      • 입력 신호의 가중치 합을 계산해 임계값과 비교
      • 가중치 합이 임계값보다 작으면 -1, 같거나 크면 +1
    • 활성화 함수
      • 단층 퍼셉트론: 초평면은 n차원 공간을 두 개의 영역으로 나눔, 선형분리 함수로 정의
  • 가중치 조정방식
    • 가중치 초기화 → 훈련 데이터를 통해 가중치 갱신
    • 신경망 구조 선택 → 학습 알고리즘 결정 → 신경망 훈련
  • 신경망모형 구축시 고려사항
    1. 입력변수
      • 범주형: 빈도 일정, 같은 범위를 갖도록 가변수화
      • 연속형: 변수 간 범위 차이 적을 때, 평균을 중심으로 분포가 대칭
    2. 가중치 초기값
      • 0이면 시그모이드 함수 선형, 신경망 모형 선형
      • 가중치가 증가할 수록 비선형
    3. 학습모드
      • 온라인: 순차적으로 하나씩 투입 → 가중치 추정값 매번 바뀜
      • 확률적: 온라인과 동일, 관측값 순서 랜덤
      • 배치: 전체 훈련자료 동시 투입
    4. 학습률: 상수값, 처음엔 큰 값 → 반복(0에 가까운 값)
    5. 은닉층, 은닉노드 수: 많으면 과대적합, 적으면 과소적합
      • 은닉층 수: 하나로 선정
      • 은닉노드 수: 적절히 큰 값 → 가중치 감소시키며 적용
    6. 과대적합 문제: 알고리즘 조기종료와 가중치 감소 기법으로 해결
  • 로지스틱 회귀분석
    • 반응변수가 범주형
    • 사후확률: 설명변수가 주어질 때, 반응 변수의 각 점주에 속할 확률 추정
    • glm() 함수로 실행

05 군집분석

요인분석: 유사한 변수의 묶음
판별분석: 사전에 집단이 나누어져 있음
  • 유사성이 높은 대상 집단 분류 (여러 개의 배타적 집단)
  • 군집 개수나 구조의 가정 없이, 데이터로부터 거리를 기준으로 군집화 유도
  • 비교사 학습법: 종속변수 정의 없이 학습 가능
  • 거리 측정
    1. 연속형: 유클리드 거리, 표준화 거리, 마할라노비스 거리, 맨하탄 거리 등
    2. 범주형: 자카드 거리
  • 계층적 군집분석: n개의 군집 → 축소
    1. 최단연결법: 최단거리 계산
    2. 최장연결법: 최장거리 계산
    3. 평균연결법: 평균거리 계산
    4. 와드연결법: 군집 내 편차들의 제곱합 고려, 정보 손실 최소화
  • 비계층적 군집분석: 모든 방법 중 최적화 군집 형성
    1. K-means 군집분석
      • 군집 개수와 초기 값 seed를 정해 군집 설정 → 가급적 멀리 떨어진 값, 일렬x
      • 가까운 seed가 있는 군집으로 분류 → 연속형 변수(거리 계산)
      • 각 군집의 seed 다시 계산 → 반복
    • 결과 해석 어려움, 잡음이나 이상값의 영향
  • 혼합 분포 군집
    • 모형 기반, 모수와 함께 가중치를 자료로부터 추정
    • 확률분포 도입, 이상치에 민감
    • EM 알고리즘
      • E 단계: 잠재변수의 기대치 계산
      • M 단계: 기대치를 이용한 파라미터 추정
  • SOM(자가조직화지도) = 코호넨 맵
    • 비지도 신경망, 고차원의 데이터를 저차원의 뉴런으로 정렬해 지도의 형태로 형상화
    • 입력층(입력 변수의 위치 보존), 경쟁층(벡터가 한 점으로 클러스터링)
    • 단 하나의 전방패스를 사용 (역전파 알고리즘X) → 실시간 학습처리
    • 승자 독식 구조

06 연관분석

  • 상품의 구매, 서비스 등 일련의 거래 또는 사건 간의 규칙을 발견하기 위한 분석
    • 장바구니 분석: 장바구니에 무엇이 같이 들어 있는지 분석 순차 분석: 구매이력을 분석해 A품목을 산 후 추가 B품목을 사는지 분석
    • 조건과 반응의 형태 (if - then)
  • 연관분석 측도
    1. 지지도
      • (A와 B를 동시에 포함)/전체 거래
    2. 신뢰도: 연관성의 정도 파악
      • (A와 B를 동시에 포함)/(A를 포함하는 거래)
    3. 향상도: 서로 관련이 없는 경우
      • (A와 B를 동시에 포함)/(A를 포함하는 거래 * B를 포함하는 거래)
  • 절차
    1. 최소 지지도 선정 (5%)
    2. 최소 지지도를 넘는 품목 분류
    3. 2가지 품목 집합 생성
    4. 반복 수행 → 빈발 품목 집합 선정
  • 장점
    • 탐색적 기법 (결과 쉽게 이해)
    • 비목적성 분석기법 (목적변수 없음)
    • 데이터를 변환 없이 그 자체로 이용
    • 계산의 용이성
  • 단점
    • 품목 증가시 계산의 기하급수적 증가 → 유사한 품목을 한 범주로 일반화 → 신뢰성 저하
  • Apriori 알고리즘
    • 어떤 항목집합이 빈발하다면, 그 집합의 모든 부분집합도 빈발
    • 어떤 항목집합의 지지도는 그 부분집합들의 지지도를 넘을 수 없음
728x90
반응형