ଘ(੭ˊ꒳ˋ)੭✧ LEVEL UP !
[SQLD] 1과목 요약 정리: 1-2 데이터 모델과 성능
성능 데이터 모델링 데이터베이스 성능향상을 목적으로 설계 단계의 데이터 모델링 때부터 정규화, 반정규화, 테이블 통합, 테이블 분할, 조인구조, PK, FK 등 반영 초기 단계에 고려할수록 재업무 비용 최소화 프로세스 데이터 모델링을 할 때 정규화를 정확히 수행 데이터베이스 용량산정 수행 데이터베이스에 발생되는 트랜잭션의 유형 파악 용량과 트랜잭션의 유형에 따라 반정규화 수행 이력 모델의 조정, PK/FK 조정, 슈퍼/서브타입 조정 성능 관점에서 데이터 모델 검증 정규화 데이터를 결정하는 결정자에 의해 함수적 종속을 가진 일반속성을 의존자로 하여 입력/수정/삭제 이상을 제거 한 테이블에 인덱스가 많아지만 조회 성능 향상, 입력/수정/삭제 성능 저하 함수적 종속성: 데이터들이 어떤 기준값에 의해 종속되는 ..
[SQLD] 1과목 요약 정리: 1-1 데이터 모델링의 이해
데이터 모델링 모델링 특징 추상화: 현실 세계를 일정한 형식에 맞춰 표현 단순화: 복잡한 현실 세계를 약속된 규약을 통해 쉽게 이해할 수 있도록 함 명확화: 애매모호함 제거, 정확한 현상 기술 모델링 관점 데이터 관점(what) 프로세스 관점(how) 상관 관점(interaction) 데이터 모델링 중요성 파급효과: 시스템 구축 작업 중 데이터 설계가 중요 간결한 표현: 복잡한 정보의 요구사항에 대한 간결한 표현 데이터 품질: 정확성이 높은 데이터, 데이터 구조의 문제 유의점 중복: 여러 장소에 같은 정보 저장 비유연성: 사소한 업무 변화에 데이터 모델이 수시로 변경되면 안됨 비일관성: 신용 상태에 대한 갱신 없이 고객의 납부 이력 정보 갱신 안됨 (연계성 하락) 데이터 모델링 과정 모델링 3요소: th..
[VCS] Git 관련 용어 간단히 살펴보기
버전 관리 파일 변화를 시간에 따라 기록했다가 나중에 특정 시점의 버전을 다시 꺼내올 수 있는 시스템 중앙집중식 버전 관리 파일을 관리하는 서버가 별도로 있고, 클라이언트가 중앙 서버에서 파일을 받아서 사용 모든 클라이언트의 로컬 데이터베이스를 관리하는 것보다 VCS 하나를 관리하는게 쉬움 중앙 서버에 문제가 생기면 치명적 분산 버전 관리 저장소를 전부 복제 서버에 문제가 생기면 복제물로 다시 작업 시작 (서버 복원) 리모트 저장소를 통해 협업 가능 Git 깃. 소스코드 관리를 위한 분산 버전 관리 시스템 빠른 수행 속도에 중점을 두고 있음 Repository 저장소 프로젝트 관련 내용을 저장하는 공간 local: 컴퓨터 내부 remote: 대표적으로 Github 같이 공유되는 사이트 Git 파일의 상태..
[ADsP 시험] 제29회 데이터분석 준전문가(ADsP) 독학 후기
29회 ADsP 시험을 보았다. (결과는 맨 마지막!) 원래 '빅데이터분석기사'를 보려고 공부했었는데 1회 시험이라 기출 문제도 없고 공부 방향을 제대로 잡지 못해 아쉽게 불합격을 했다.. 😭 통계 문제 헬파티 😵 기사는 재시험을 보지 않을 것 같아서 공부한 내용을 까먹기 전에 비슷한 과목인 'ADsP' 시험에 응시했다. 응시료가 50,000.. 한 번에 붙지 않으면 안되는 시험비.. 나는 '2018년 버전 데이터 에듀' 책으로 공부를 했다. 빅데이터 기사 교재로 공부했었기 때문에 비슷한 내용이 많아서 시험 전 1주일 투자해서 볼 수 있었다. 1, 2장은 핵심을 찾아 암기했고, 3장은 문제를 풀며 이해했다.. 3장이 혼자 이해하기 어려운 부분이 많아 문제를 풀어보며 빈출 유형을 특히나 공부했다. (아직 ..
[Python 독학] 혼공파 | 파이썬 설치하기, 간단한 Shell 사용법
파이썬 독학 1일차 그동안 파이썬을 공부하고 싶었는데 드디어 책을 펼쳤다! '혼공파: 혼자 공부한느 파이썬 (윤인성)' 책으로 파이썬을 공부할 것이다. (+ 프로그래머스의 '파이썬 입문 강의' 활용) 나는 '노션'에 공부한 내용이나 기타 잡것들을 정리한다. 파이썬도 혼자 공부하며 노션에 정리한 내용을 기록용으로 업로드 할 것이다. 파이썬(인터프리터) 설치하기 : 파이썬으로 작성된 코드를 실행해주는 프로그램 https://www.python.org/ > Downloads > 최신 버전 다운로드 Add Python 선택 후, 설치 진행 설치 완료 파이썬 실행하기 텍스트 에디터에 .py 확장자를 사용해 저장 저장한 폴더에서 [shift+오른쪽마우스] > 'PowerShell 열기' 또는 [window+R]에서..
[ADsP] 3과목 요약 정리 : 3-5 정형 데이터 마이닝
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다. 01 데이터마이닝 통계분석: 가설이나 가정에 따른 분석이나 검증 대용량 데이터에서 의미 있는 패턴을 파악하거나 의사결정에 활용 종류 방법론: 인공지능, 의사결정나무, K-평균 군집화, 연관분석, 회귀분석, 로짓분석, 최근접 이웃 표현 방법: 시각화 분석, 분류, 군집화, 포캐스팅 사용 분야 환자 데이터를 이용해 발생 가능성이 높은 병 예측 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야하는가 결정 고객 데이터를 이용해 우량/불량 예측해 대출적격 여부 판단 입국자의 이력과 데이터를 이용해 관세물품 반입 여부 예측 데이터마이닝 발전사 데이터 수집(1960s): 정적 데이터 공급 데이터 접근(1970s): 동적 데이터..
[ADsP] 3과목 요약 정리 : 3-4 통계 분석
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다. 01 통계분석의 이해 통계: 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태로 표현 방법: 총 조사, 표본조사(sampling) 모집단: 조사하고자 하는 대상 집단 전체 표본: 모집단의 일부 원소 모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 표본 추출 방법 단순랜덤 추출: 임의의 n개 추출, 확률 동일 (복원/비복원) 계통 추출: 구간을 나눠 k개씩 띄어서 표본 선택 집락 추출: 군집별로 랜덤추출 층화 추출: 이질적 원소들로 구성된 모집단에서 각 계층을 대표할 표본 추출 측정 명목척도: 어떤 집단에 속하는지 분류 (성별, 출생지 등) 순서척도: 서열 관계 관측 (학년, 선호..
[ADsP] 3과목 요약 정리 : 3-3 데이터 마트
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다. 01 데이터 변경 및 요약 데이터 마트: 데이터 웨어하우스와 사용자의 중간층에 위치 요약변수 수집된 정보를 분석에 맞게 종합한 변수 많은 모델에 공통으로 사용될 수 있어 재활용성 높음 파생변수 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수 주관적 → 논리적 타당성 갖춰 개발 세분화, 고객 행동 예측, 캠페인 반응 예측에 잘 활용 reshape 패키지 met(): 데이터를 DB 구조로 녹이는 함수 → 모든 데이터를 표준형식으로 변환 cast(): 새로운 구조로 데이터를 만드는 함수 sqlaf 패키지 R에서 SQL 명령어 사용 sql: select * from [data frame] ..
[ADsP] 3과목 요약 정리 : 3-2 R프로그래밍 기초
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다. 01 R 소개 오픈소스 프로그램, 통계/데이터마이닝과 그래프를 위한 언어 GPL(General Public License)하에 배포되는 S프로그래밍 언어로 구현 → GNU-S라 함 표준 플랫폼(S언어 기반) 모든 운영체제에서 사용 가능 메모리 저장방식, 객체지향언어, 함수형 언어 02 R 들어가기 편리한 기능 작업환경 설정: setwd(“디렉터리”) 도움말: help, ?, RSiteSearch(“함수명”) 히스토리: history(), savehistory(file=“파일명”), loadhistory(file=“파일명”) 콘솔 청소: ctrl + L 스크립트 사용 한줄 실행: ctrl + R 여러줄 실행: 드래그, ..
[ADsP] 3과목 요약 정리 : 3-1 데이터 분석 개요
'ADsP 데이터 분석 준전문가 (데이터에듀)' 교재를 참고하여 간략히 정리하였습니다. 01 데이터 처리 데이터 분석을 위해 DW나 DM을 통해 분석 데이터 구성 신규 데이터나 DW에 없는 데이터는 기존 운영시스템에서 가져오기보다 운영시스템에서 임시로 데이터를 저장하는 스테이징 영역에서 데이터를 전처리해 운영데이터저장소(ODS)에 저장된 데이터를 DW와 DM과 결합해 데이터 구성 최종 데이터 구조로 가공 시뮬레이션 모델링: 처리시간에 대한 분포 파악 최적화: 목적함수와 계수 값을 프로세스별로 산출 데이터마이닝 분류: 인구통계, 요약변수, 파생변수 산출 비정형 데이터: 텍스트 마이닝을 거쳐 데이터 마트와 통합 관계형 데이터: 사회 신경망 분석을 거쳐 통계값이 데이터 마트와 통합 02 시각화 기법 가장 낮은..