[ADsP] 빅데이터 상식 정리
Note/Certificate

[ADsP] 빅데이터 상식 정리

728x90
반응형

DBMS와 SQL

  • DBMS
    • 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경 제공 SW
  • SQL
    • 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어
    • 단순 질의 + 완전한 데이터 정의, 조작 기능
    • 테이블 단위로 연산 수행

데이터 관련

  • 개인정보 비식별 기술
    1. 데이터 마스킹
      • 데이터의 길이, 유형, 형식 등 속성 유지
      • 새롭고 읽기 쉬운 데이터 익명으로 생성
      • 유형: 정적인 데이터 마스킹, 동적인 데이터 마스킹, 치환, 셔플, 암호화 등
    2. 가명처리
      • 개인정보주체의 이름을 다른 이름으로 변경
      • 다른 값으로 대체하는 일정 규칙이 노출되지 않도록 주의
    3. 총계처리
      • 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함
    4. 데이터 값 삭제
      • 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중 필요 없는 값 또는 개인 식별에 중요한 값 삭제
      • 날짜 정보는 연단위로 처리
    5. 데이터 범주화
      • 데이터의 값을 범주의 값으로 변환
  • 데이터 무결성
    • 데이터의 정확성 보증
    • 유형: 개체 무결성, 참조 무결성, 범위 무결성
  • 데이터 레이크
    • 수많은 정보 속 의미 있는 내용 찾기 위해 방식에 상관없이 데이터 저장
    • 대용량의 정형/비정형 데이터 저장 및 쉬운 접근

빅데이터 분석 기술

  • 하둡
    • 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터 처리
    • 분산파일 시스템(HDFS)를 통해 대용량 파일 저장
    • 맵리듀스
  • 아파치 스파크
    • 실시간 분산형 컴퓨팅 플랫폼
    • 스칼라로 작성
    • 인메모리 방식 → 처리속도 빠름
  • 머신러닝: 인간의 학습 능력 같은 기능을 컴퓨터에서 실현하고자 함
  • 딥러닝: 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 인공신경망 등의 기술을 기반으로 구축

기타

  • 데이터 양 단위
    • B < KB < MB < GB < TB < PB < EB < ZB < YB
  • B2B: 기업과 기업 사이 거래를 기반으로 한 비즈니스 모델
  • B2C: 기업과 고객 사이 거래를 기반으로 한 비즈니스 모델
  • 데이터 유형
    • 정형 데이터: 형태가 있으며 연산 가능, RDBMS에 저장
    • 반정형 데이터: 형태가 있으며 연산이 불가능, 파일에 저장 (API 형태)
    • 비정형 데이터: 형태가 없으며 연산이 불가능, NoSQL에 저장
728x90
반응형