728x90
반응형
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.
01 데이터 변경 및 요약
- 데이터 마트: 데이터 웨어하우스와 사용자의 중간층에 위치
- 요약변수
- 수집된 정보를 분석에 맞게 종합한 변수
- 많은 모델에 공통으로 사용될 수 있어 재활용성 높음
- 파생변수
- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수
- 주관적 → 논리적 타당성 갖춰 개발
- 세분화, 고객 행동 예측, 캠페인 반응 예측에 잘 활용
- reshape 패키지
- met(): 데이터를 DB 구조로 녹이는 함수 → 모든 데이터를 표준형식으로 변환
- cast(): 새로운 구조로 데이터를 만드는 함수
- sqlaf 패키지
- R에서 SQL 명령어 사용
- sql: select * from [data frame]
R: sqldf(“select * from [data frame]”) - sql: select * from [data frame] where [col] = ‘char%’
R: sqldf(“select * from [data frame] where [col] like ‘char%’”)
- plyr 패키지
- apply 함수 기반
- 데이터와 출력 변수를 동시에 배열로 치환해 처리
- split-apply-combine: 데이터 분리 → 다시 결합
- data.table 패키지
- 큰 데이터의 탐색, 연산, 병합 (데이터 핸들링 패키지)
- 기존의 data.frame 보다 빠른 속도
- 특정 column을 key 값으로 색인을 지정 후 데이터 처리
- 빠른 그루핑, 정렬, 짧은 문장 지원 (데이터 프레임보다 유용)
02 데이터 가공
- 데이터 탐색
- 데이터 변수의 상태 파악
- head(), summary()
- 수치형 변수: 최소값, 최대값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수
- 명목형 변수: 명목값, 데이터 개수
- 변수 중요도
- kalR 패키지: 특정 변수의 클래스가 어떻게 분류되는지에 대한 에러율을 그래픽으로 보여줌
- greedy.wilks(): 세분화를 위한 stepwise forward 변수선택
- wilk’s Lambda = 집단 내 분산 / 총분산 (변수의 중요도 정리 → 작으면 잘 설명)
- 변수의 구간화 (연속형 변수 → 범주형 변수)
- binning: 50개 이하의 구간에 동일한 수의 데이터를 할당해 의미 파악, 구간 축소
- 의사결정나무: 입력변수 구간화
03 기초 분석 및 데이터 관리
- EDA(탐색적 자료 분석)
- summary(): 데이터의 기초통계량 확인
- 결측값 처리
- 데이터가 빈 경우: NA, ., 99999999, Unknown, Not Answer 등 으로 표현 → 0으로 표현 X
- 결측값 자체가 의미있는 경우도 있음
- 전체 작업속도에 많은 영향을 줌 → na.rm: NA를 제거한 후 평균 구함
- 결측값 처리 방법
- 단순 대치법
- completes analysis: 결측값의 레코드 삭제
- 평균 대치법: 비조건부(관측 데이터의 평균), 조건부(회귀분석 사용)
- 단순확률 대치법: 추정량 표준 오차의 과소 추정문제 보완 → Hot-deck, nearest Neighbor 방법 등
- 다중 대치법
- 단순 대치법을 m번 실시 → m개의 가상적 자료 생성해 대치 (대치 → 분석 → 결합 단계)
- 단순 대치법
- R의 결측값 처리
- randomForest 패키지: 결측값 존재시 에러
rfImpute(): NA결측값을 대치한 후 알고리즘에 적용 - is.na(): 결측값이 NA인지 여부
- DMwR 패키지
centralImputation(): 가운데 값이나 최빈값으로 대치
knnImputation(): k최근 이웃 분류 알고리즘 사용 → 가중 평균 값 사용 - Amelia 패키지의 amelia(): 여러 국가에서 매년 측정된 자료
- randomForest 패키지: 결측값 존재시 에러
- 이상값 처리
- 잘못 입력된 값, 목적에 부합되지 않는 값 → 삭제
- 의도하지 않은 현상의 값, 의도된 극단값 → 활용
- 이상값 인식
- ESD: 평균에서 3 표준편차 떨어진 값
- 기하평균보다 2.5 표준편차 이상 떨어진 값
- 1, 3사분위 값에서 범위보다 2.5배 이상 떨어진 값
- 이상값 처리
- 극단값 절단: 이상값 포함 레코드 삭제
- 기하평균 이용, %이용
- 극단값 조정: 이상값을 상한/하한 조정
→ 데이터 손실률 적음, 설명력 높음
- 극단값 절단: 이상값 포함 레코드 삭제
728x90
반응형
'Note > Certificate' 카테고리의 다른 글
[ADsP] 3과목 요약 정리 : 3-5 정형 데이터 마이닝 (0) | 2021.06.15 |
---|---|
[ADsP] 3과목 요약 정리 : 3-4 통계 분석 (0) | 2021.06.15 |
[ADsP] 3과목 요약 정리 : 3-2 R프로그래밍 기초 (0) | 2021.06.15 |
[ADsP] 3과목 요약 정리 : 3-1 데이터 분석 개요 (0) | 2021.06.15 |
[ADsP] 2과목 요약 정리 : 2-2 분석 마스터 플랜 (0) | 2021.06.15 |