728x90
반응형
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.
01 데이터마이닝
통계분석: 가설이나 가정에 따른 분석이나 검증
- 대용량 데이터에서 의미 있는 패턴을 파악하거나 의사결정에 활용
- 종류
- 방법론: 인공지능, 의사결정나무, K-평균 군집화, 연관분석, 회귀분석, 로짓분석, 최근접 이웃
- 표현 방법: 시각화 분석, 분류, 군집화, 포캐스팅
- 사용 분야
- 환자 데이터를 이용해 발생 가능성이 높은 병 예측
- 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야하는가 결정
- 고객 데이터를 이용해 우량/불량 예측해 대출적격 여부 판단
- 입국자의 이력과 데이터를 이용해 관세물품 반입 여부 예측
- 데이터마이닝 발전사
- 데이터 수집(1960s): 정적 데이터 공급
- 데이터 접근(1970s): 동적 데이터 공급
- 데이터 웨어하우징 & 의사결정지원(1980s): 다양한 차원의 동적 데이터 공급
- 데이터 마이닝(1990s~): 예측 정보의 공급
- 학습법
- 지도학습: 목적변수 존재
- 의사결정나무, 인공신경망, 판별분석, 로지스틱회귀분석, 사례기반추론 등
- 비지도학습: 목적변수 없음
- 연관성분석, 연속규칙, 군집분석, OLAP, SOM 등
- 지도학습: 목적변수 존재
- 목적
- 예측
- 분류 규칙: 고객의 특성을 찾아 분류모형을 만들어 결과 예측 (목표 마케팅, 신용 평가)
→ 회귀분석, 판별분석, 신경망, 의사결정나무
- 분류 규칙: 고객의 특성을 찾아 분류모형을 만들어 결과 예측 (목표 마케팅, 신용 평가)
- 설명
- 연관 규칙: 항목간 종속관계 찾아냄 (사기적발, 교차판매, 매장진열)
→ 동시발생 매트릭스 - 연속 규칙: 연관규칙 + 시간 관련 정보, 구매이력 필요 (목표 마케팅, 일대일 마케팅)
→ 동시발생 매트릭스 - 데이터 군집화: 유사한 특성의 소그룹으로 분할, 분석 대상 데이터에 결과값이 없음 (판촉활동, 이벤트 대상 선정)
→ K-평균 클러스트링
- 연관 규칙: 항목간 종속관계 찾아냄 (사기적발, 교차판매, 매장진열)
- 예측
- 추진 단계
- 목적 설정: 무엇을 왜 하는지
- 데이터 준비: 데이터 정제 (품질 보장, 충분한 양 확보)
- 데이터 가공: 목적변수 정의하거나 모델링을 위한 데이터 형식으로 가공
- 기법 적용: 정보 추출
- 검증: 최적의 모델 선정
- 데이터 분할
- 구축용(훈련용)
- 검정용: 과대/과소 추정의 판정 목적
- 시험용: 모델 성능 평가
- 성능 평가: 오분류율
02 의사결정나무
- 분류분석 vs 예측분석
- 공통점: 특정 속성의 값을 추측
- 차이점
- 분류: 범주형 속성의 값 추측 (각 그룹 정의)
- 예측: 연속형 속성의 값 추측
- 분류 모델링: 신용평가모형, 사기방지모형, 이탈모형, 고객세분화
- 분류기법
- 로지스틱 회귀분석, 베이지안 분류, 의사결정나무, 인공신경망, 지지도 벡터기계, k 최근접 이웃, 규칙기반 분류, 사례기반추론
- 의사결정나무
- 분류함수를 규칙적인 나무 모양으로 그림
- 비정상 잡음 데이터에 대해서도 민감함 없이 분류
- 계산 결과가 의사결정나무에 직접 나타남, 정확도 높음 (분석 간편)
- 활용
- 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용의 효과, 범주 병합, 연속형 변수 이산화
- 분석 과정
- 성장: 적절한 분리규칙을 찾아 성장, 적절한 정지규칙을 만족하면 중단
- 가지치기: 불필요한 가지 제거
- 타당성 평가: 이익도표, 위험도표, 시험자료를 이용한 평가
- 해석 및 예측: 적용
- 불순도에 따른 분할 측도
- 카이제곱 통계량: ((기대도수-실제도수)^2/기대도수)의 합
- 지니지수
- 엔트로피지수
- 알고리즘
- CART: 목적변수가 범주형인 경우 지니지수, 연속형인경우 이진분리
- C4.5, C5.0: 다지분리 가능, 엔트로피지수
- CHAID: 가지치기x, 입력변수가 반드시 범주형 변수, 카이제곱 통계량
03 앙상블기법
- 여러 개의 예측모형을 만든 후 조합해 하나의 최종 모형을 만듦 (다중 모델 조합)
- 학습방법의 불안정성: 학습 자료의 작은 변화에 의해 예측 모형이 크게 변하는 경우
- 안정: 근접 이웃, 선형 회귀모형
- 불안정: 의사결정나무
- 배깅
- 여러 부트스트랩 자료 생성, 결과를 결합해 결과 선정
- 부트스트랩: 동일 크기의 표본을 랜덤 복원 추출
- 보팅: 산출된 결과를 다수결에 의해 선정
- 의사결정나무의 가지치기 없이 최대로 성장한 결과 활용
- 모집단의 분포를 모름 → 평균예측모형 구할 수 없음 (배깅은 훈련자료를 모집단으로 생각 → 분산 감소, 예측력 향상)
- 부스팅
- 예측력이 약한 모형 결합 → 강한 예측모형
- Adaboost 성능이 주로 배깅보다 뛰어남
- 랜덤 포레스트
- 분산이 큰 속성 → 더 많은 무작위성, 선형 결합
- 변수 제거없이 실행 → 정확도 높음
- 해석이 어렵지만 예측력 높음
- 스태킹
- 다양한 학습 모델을 통해 구성
- 성과분석
- 정확도 (Accuracy) = (TP+TN)/(TP+FN+FP+TN)
- 정밀도 (Precision) = TP/(TP+FP)
- 민감도 (Sensitivity), 재현율 (Recall) = TP/(TP+FN)
- 특이도 (Specificity) = TN/(FP+TN)
- F1-스코어 = 2 * (정밀도*재현율)/(정밀도+재현율)
- 오분류표
-
실제 Positive 실제 Negative 예측 Positive TP FP 예측 Negative FN TN
-
- ROC 커브
- 모형 평가 의사결정나무 분석
- TPR(민감도): 1에 대해 1로 예측한 비율
- FPR(1-특이도): 0에 대해 1로 잘못 예측한 비율
- AUROC: 정확도 측정 기준
- 1에 가까울 수록 정확
04 인공신경망 분석(ANN)
- 인공신경망: 인간의 뇌를 기반으로 한 추론 모델
- 뉴런: 정보처리 단위
- 가중치 있는 링크들로 연결됨
- 여러 개의 입력신호를 받아 하나의 출력신호 생성
- 계산: 전이함수(활성함수) 사용
- 입력 신호의 가중치 합을 계산해 임계값과 비교
- 가중치 합이 임계값보다 작으면 -1, 같거나 크면 +1
- 활성화 함수
- 단층 퍼셉트론: 초평면은 n차원 공간을 두 개의 영역으로 나눔, 선형분리 함수로 정의
- 가중치 조정방식
- 가중치 초기화 → 훈련 데이터를 통해 가중치 갱신
- 신경망 구조 선택 → 학습 알고리즘 결정 → 신경망 훈련
- 신경망모형 구축시 고려사항
- 입력변수
- 범주형: 빈도 일정, 같은 범위를 갖도록 가변수화
- 연속형: 변수 간 범위 차이 적을 때, 평균을 중심으로 분포가 대칭
- 가중치 초기값
- 0이면 시그모이드 함수 선형, 신경망 모형 선형
- 가중치가 증가할 수록 비선형
- 학습모드
- 온라인: 순차적으로 하나씩 투입 → 가중치 추정값 매번 바뀜
- 확률적: 온라인과 동일, 관측값 순서 랜덤
- 배치: 전체 훈련자료 동시 투입
- 학습률: 상수값, 처음엔 큰 값 → 반복(0에 가까운 값)
- 은닉층, 은닉노드 수: 많으면 과대적합, 적으면 과소적합
- 은닉층 수: 하나로 선정
- 은닉노드 수: 적절히 큰 값 → 가중치 감소시키며 적용
- 과대적합 문제: 알고리즘 조기종료와 가중치 감소 기법으로 해결
- 입력변수
- 로지스틱 회귀분석
- 반응변수가 범주형
- 사후확률: 설명변수가 주어질 때, 반응 변수의 각 점주에 속할 확률 추정
- glm() 함수로 실행
05 군집분석
요인분석: 유사한 변수의 묶음
판별분석: 사전에 집단이 나누어져 있음
- 유사성이 높은 대상 집단 분류 (여러 개의 배타적 집단)
- 군집 개수나 구조의 가정 없이, 데이터로부터 거리를 기준으로 군집화 유도
- 비교사 학습법: 종속변수 정의 없이 학습 가능
- 거리 측정
- 연속형: 유클리드 거리, 표준화 거리, 마할라노비스 거리, 맨하탄 거리 등
- 범주형: 자카드 거리
- 계층적 군집분석: n개의 군집 → 축소
- 최단연결법: 최단거리 계산
- 최장연결법: 최장거리 계산
- 평균연결법: 평균거리 계산
- 와드연결법: 군집 내 편차들의 제곱합 고려, 정보 손실 최소화
- 비계층적 군집분석: 모든 방법 중 최적화 군집 형성
- K-means 군집분석
- 군집 개수와 초기 값 seed를 정해 군집 설정 → 가급적 멀리 떨어진 값, 일렬x
- 가까운 seed가 있는 군집으로 분류 → 연속형 변수(거리 계산)
- 각 군집의 seed 다시 계산 → 반복
- 결과 해석 어려움, 잡음이나 이상값의 영향
- K-means 군집분석
- 혼합 분포 군집
- 모형 기반, 모수와 함께 가중치를 자료로부터 추정
- 확률분포 도입, 이상치에 민감
- EM 알고리즘
- E 단계: 잠재변수의 기대치 계산
- M 단계: 기대치를 이용한 파라미터 추정
- SOM(자가조직화지도) = 코호넨 맵
- 비지도 신경망, 고차원의 데이터를 저차원의 뉴런으로 정렬해 지도의 형태로 형상화
- 입력층(입력 변수의 위치 보존), 경쟁층(벡터가 한 점으로 클러스터링)
- 단 하나의 전방패스를 사용 (역전파 알고리즘X) → 실시간 학습처리
- 승자 독식 구조
06 연관분석
- 상품의 구매, 서비스 등 일련의 거래 또는 사건 간의 규칙을 발견하기 위한 분석
- 장바구니 분석: 장바구니에 무엇이 같이 들어 있는지 분석 순차 분석: 구매이력을 분석해 A품목을 산 후 추가 B품목을 사는지 분석
- 조건과 반응의 형태 (if - then)
- 연관분석 측도
- 지지도
- (A와 B를 동시에 포함)/전체 거래
- 신뢰도: 연관성의 정도 파악
- (A와 B를 동시에 포함)/(A를 포함하는 거래)
- 향상도: 서로 관련이 없는 경우
- (A와 B를 동시에 포함)/(A를 포함하는 거래 * B를 포함하는 거래)
- 지지도
- 절차
- 최소 지지도 선정 (5%)
- 최소 지지도를 넘는 품목 분류
- 2가지 품목 집합 생성
- 반복 수행 → 빈발 품목 집합 선정
- 장점
- 탐색적 기법 (결과 쉽게 이해)
- 비목적성 분석기법 (목적변수 없음)
- 데이터를 변환 없이 그 자체로 이용
- 계산의 용이성
- 단점
- 품목 증가시 계산의 기하급수적 증가 → 유사한 품목을 한 범주로 일반화 → 신뢰성 저하
- Apriori 알고리즘
- 어떤 항목집합이 빈발하다면, 그 집합의 모든 부분집합도 빈발
- 어떤 항목집합의 지지도는 그 부분집합들의 지지도를 넘을 수 없음
728x90
반응형
'Note > Certificate' 카테고리의 다른 글
[SQLD] 1과목 요약 정리: 1-1 데이터 모델링의 이해 (0) | 2021.06.21 |
---|---|
[ADsP 시험] 제29회 데이터분석 준전문가(ADsP) 독학 후기 (0) | 2021.06.19 |
[ADsP] 3과목 요약 정리 : 3-4 통계 분석 (0) | 2021.06.15 |
[ADsP] 3과목 요약 정리 : 3-3 데이터 마트 (0) | 2021.06.15 |
[ADsP] 3과목 요약 정리 : 3-2 R프로그래밍 기초 (0) | 2021.06.15 |