728x90
반응형
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다.
01 빅데이터의 이해
- 정의
- Mckinsey: 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- IDC: 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- 가트너 그룹의 더그래니의 3V
- Volume: 양
- Variety: 다양성
- Velocity: 속도
- 정의의 범주 및 효과
- 데이터 변화: 3V(규모, 속도, 형태)
- 기술 변화: 새로운 데이터 처리, 저장 분석 기술, 클라우딩 컴퓨팅 활용
- 인재, 조직 변화: 데이터 사이언티스트, 데이터 중심 조직
- 빅데이터 출현 배경
- 산업계: 고객 데이터 축적
- 학계: 거대 데이터 활용 과학 확산
- 관련기술발전: 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
- 출현에 따른 변화
- 사용자 로그 정보에 대한 프로파일링이 이뤄지기 시작 → 아이덴티티 뚜렷해짐, 사용자와 광고를 매칭하는 정확도 향상
- 고객데이터 축적 및 활용 증가, 인터넷 확산, 저장 기술의 발전과 가격 하락 등
- 비유적 표현
- 산업혁명의 석탄과 철 → 사회/경제/문화/생활 전반에 혁명적 변화
- 21세기의 원유 → 경제 성장에 필요한 정보 제공, 새로운 범주의 산업
- 렌즈 → 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것
- 플랫폼 → 공동 활용의 목적으로 구축된 유무형 구조물
- 본질적 변화
- 사전처리 → 사후처리: 다양한 방식으로 조합
- 표본조사 → 전수조사
- 질 → 양: 양질의 정보가 오류 정보보다 많아져 좋은 결과 산출
- 인과관계 → 상관관계: 특정 현상의 가능성, 그에 상응하는 행동 추천
02 데이터의 가치와 영향
- 가치 산정이 어려운 이유
- 데이터 활용 방식: 재사용, 재조합, 다목적용 개발 등 일반화
- 새로운 가치 창출
- 분석 기술 발전
- 빅데이터 영향
- 기업: 혁신, 경쟁력 제고, 생산성 향상
- 정부: 환경 탐색, 상황 분석, 미래 대응
- 개인: 목적에 따라 활용
03 비즈니스 모델
- 기본 테크닉
- 연관 규칙 학습: 변인들 간의 상관관계
- 유형 분석: 특성에 따른 분류
- 유전 알고리즘: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등 메커니즘을 통해 점진적으로 진화
- 기계학습: 훈련 데이터로부터 학습한 알려진 특성 활용해 예측
- 회귀분석: 독립변수 조작, 종속변수가 어떻게 변하는지 확인해 두 변인의 관계 파악
- 감정분석: 글쓴이의 감정 분석
- 소셜 네트워크 분석: 영향력 있는 사람 찾기
04 위기 요인과 통제 방안
- 사생활 침해 → 동의에서 책임으로
- 1시간 뒤 어떤 일을 할지 예측
- 여행 사실을 트위트 한 사람의 집을 강도가 노리는 사례
- 책임 원칙 훼손 → 결과 기반 책임 원칙 고수
- 예측 알고리즘의 희생양
- 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포
- 데이터 오용 → 알고리즘 접근 허용
- 잘못된 지표 사용
- 적군 사망자 수를 과장돼 보고되는 경향으로 인해 전쟁상황 오보
05 미래의 빅데이터
- 데이터: 모든 것의 데이터화
- 기술: 진화하는 알고리즘, 인공지능
- 인력: 데이터 사이언티스트, 알고리즈미스트
728x90
반응형
'Note > Certificate' 카테고리의 다른 글
[ADsP] 2과목 요약 정리 : 2-2 분석 마스터 플랜 (0) | 2021.06.15 |
---|---|
[ADsP] 2과목 요약 정리 : 2-1 데이터 분석 기획의 이해 (0) | 2021.06.15 |
[ADsP] 1과목 요약 정리 : 1-3 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2021.06.15 |
[ADsP] 1과목 요약 정리 : 1-1 데이터의 이해 (0) | 2021.06.15 |
[ADsP] 빅데이터 상식 정리 (0) | 2021.06.15 |