[ADsP] 1과목 요약 정리 : 1-2 데이터의 가치와 미래
Note/Certificate

[ADsP] 1과목 요약 정리 : 1-2 데이터의 가치와 미래

728x90
반응형

'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.

01 빅데이터의 이해

  • 정의
    • Mckinsey: 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
    • IDC: 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
    • 가트너 그룹의 더그래니의 3V
      1. Volume: 양
      2. Variety: 다양성
      3. Velocity: 속도
  • 정의의 범주 및 효과
    1. 데이터 변화: 3V(규모, 속도, 형태)
    2. 기술 변화: 새로운 데이터 처리, 저장 분석 기술, 클라우딩 컴퓨팅 활용
    3. 인재, 조직 변화: 데이터 사이언티스트, 데이터 중심 조직
  • 빅데이터 출현 배경
    1. 산업계: 고객 데이터 축적
    2. 학계: 거대 데이터 활용 과학 확산
    3. 관련기술발전: 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
  • 출현에 따른 변화
    • 사용자 로그 정보에 대한 프로파일링이 이뤄지기 시작 → 아이덴티티 뚜렷해짐, 사용자와 광고를 매칭하는 정확도 향상
    • 고객데이터 축적 및 활용 증가, 인터넷 확산, 저장 기술의 발전과 가격 하락 등
  • 비유적 표현
    1. 산업혁명의 석탄과 철 → 사회/경제/문화/생활 전반에 혁명적 변화
    2. 21세기의 원유 → 경제 성장에 필요한 정보 제공, 새로운 범주의 산업
    3. 렌즈 → 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것
    4. 플랫폼 → 공동 활용의 목적으로 구축된 유무형 구조물
  • 본질적 변화
    1. 사전처리 → 사후처리: 다양한 방식으로 조합
    2. 표본조사 → 전수조사
    3. 질 → 양: 양질의 정보가 오류 정보보다 많아져 좋은 결과 산출
    4. 인과관계 → 상관관계: 특정 현상의 가능성, 그에 상응하는 행동 추천

02 데이터의 가치와 영향

  • 가치 산정이 어려운 이유
    1. 데이터 활용 방식: 재사용, 재조합, 다목적용 개발 등 일반화
    2. 새로운 가치 창출
    3. 분석 기술 발전
  • 빅데이터 영향
    1. 기업: 혁신, 경쟁력 제고, 생산성 향상
    2. 정부: 환경 탐색, 상황 분석, 미래 대응
    3. 개인: 목적에 따라 활용

03 비즈니스 모델

  • 기본 테크닉
    1. 연관 규칙 학습: 변인들 간의 상관관계
    2. 유형 분석: 특성에 따른 분류
    3. 유전 알고리즘: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등 메커니즘을 통해 점진적으로 진화
    4. 기계학습: 훈련 데이터로부터 학습한 알려진 특성 활용해 예측
    5. 회귀분석: 독립변수 조작, 종속변수가 어떻게 변하는지 확인해 두 변인의 관계 파악
    6. 감정분석: 글쓴이의 감정 분석
    7. 소셜 네트워크 분석: 영향력 있는 사람 찾기

04 위기 요인과 통제 방안

  1. 사생활 침해 → 동의에서 책임으로
    • 1시간 뒤 어떤 일을 할지 예측
    • 여행 사실을 트위트 한 사람의 집을 강도가 노리는 사례
  2. 책임 원칙 훼손 → 결과 기반 책임 원칙 고수
    • 예측 알고리즘의 희생양
    • 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포
  3. 데이터 오용 → 알고리즘 접근 허용
    • 잘못된 지표 사용
    • 적군 사망자 수를 과장돼 보고되는 경향으로 인해 전쟁상황 오보

05 미래의 빅데이터

  • 데이터: 모든 것의 데이터화
  • 기술: 진화하는 알고리즘, 인공지능
  • 인력: 데이터 사이언티스트, 알고리즈미스트
728x90
반응형