[ADsP] 3과목 요약 정리 : 3-1 데이터 분석 개요
Note/Certificate

[ADsP] 3과목 요약 정리 : 3-1 데이터 분석 개요

728x90
반응형

'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.

01 데이터 처리

  • 데이터 분석을 위해 DW나 DM을 통해 분석 데이터 구성
  • 신규 데이터나 DW에 없는 데이터는 기존 운영시스템에서 가져오기보다 운영시스템에서 임시로 데이터를 저장하는 스테이징 영역에서 데이터를 전처리해 운영데이터저장소(ODS)에 저장된 데이터를 DW와 DM과 결합해 데이터 구성
  • 최종 데이터 구조로 가공
    • 시뮬레이션 모델링: 처리시간에 대한 분포 파악
    • 최적화: 목적함수와 계수 값을 프로세스별로 산출
    • 데이터마이닝 분류: 인구통계, 요약변수, 파생변수 산출
    • 비정형 데이터: 텍스트 마이닝을 거쳐 데이터 마트와 통합
    • 관계형 데이터: 사회 신경망 분석을 거쳐 통계값이 데이터 마트와 통합

02 시각화 기법

  • 가장 낮은 수준의 분석
  • 복잡한 분석을 보다 효율적으로 해석 (필수적)
  • 여러 차트 형식, 트리구조, 다이어그램 맵, 워드 클라우드 등

03 공간 분석

  • 공간적 차원과 관련된 속성들 시각화
  • 지도 위에 관련된 속성들을 생성하고 크기, 모양, 선 굵기 등을 구분

04 탐색적 자료 분석(EDA)

  • 다양한 차원과 값을 조합해 특이점이나 의미있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
  • 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들
  • 주제
    1. 저항성의 강조
    2. 잔차 계산
    3. 자료변수의 재표현
    4. 그래프를 통한 현시성

05 통계분석

  • 통계: 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것
  • 기술통계: 모집단으로부터 표본 추출, 표본의 정보 쉽게 파악할 수 있도록 데이터 정리/요약을 위해 하나의 숫자 또는 그래프의 형태로 표현
  • 추측통계: 모집단으로부터 추출된 표본의 표본통계량에서 모집단의 특성인 모수에 관해 통계적으로 추론

06 데이터 마이닝

  • 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등 탐색, 모형화해 이전에 알지 못한 유용한 지식 추출
  • 방법론
    • 데이터베이스에서의 지식탐색: DW에서 데이터마트를 생성하며 데이터들의 속성을 사전분석을 통해 지식 얻음
    • 기계학습: 컴퓨터가 학습할 수 있도록 알고리즘과 기술 개발 → 인공신경망, 의사결정나무, 클러스터링, SVM
    • 패턴인식: 원자료를 이용해 사전지식과 패턴에서 추출된 통계정보를 기반으로 자료 또는 패턴 분류 → 연관규칙, 장바구니 분석
  • 활용: 데이터베이스 마케팅, 신용평가, 텍스트마이닝

07 시뮬레이션

  • 복잡한 실제 상황을 단순화해 컴퓨터상의 모델로 만들어 재현하거나 변경
  • 현상을 보다 잘 이해하고 미래의 변화에 따른 결과 예측
  • 활용: 미사일 궤적, 댐의 물 수용량 예측, 고속도로 요금정산소의 창구 수 계산

08 최적화

  • 목적함수 값을 최대화 또는 최소화 하는 것을 목표
  • 제약조건 하에서 목표값을 개선하는 방식 (목적함수와 제약조건을 정의해 문제 해결)
  • 활용: 납기지연의 최적화, 산업 및 국방 영역(최대 수익)
728x90
반응형