반응형
안녕하세요.
빅데이터, AI 강의 플랫폼 메타코드M에서 제공하는
< 2024 ADsP 2주 합격 올인원 패스 [비전공자 맞춤] > 를 수강하였습니다.
ADsP 에 대한 자세한 정보가 궁금하세요?
- ADsP(데이터분석 준전문가) 자격증 소개, 강의 소개, https://zzz0x0lxx.tistory.com/15
- 데이터분석 준전문가 자격안내, 한국데이터산업진흥원(Kdata), https://www.dataq.or.kr/www/sub/a_06.do#none
1. 개요
[ 목표 ]
01
이 포스트는 제3과목 <데이터 분석> 중 통계분석
에 해당하는 내용을 강의를 기반으로 정리합니다.
02
포스트한 내용을 출력해서 가져가도 될 정도의
시험 대비용 진짜 ! 핵심 ! 내용! 만 정리하려 합니다.
2. 통계 분석
탐색적자료분석(EDA)
- 데이터 내 일반적인 특징을 찾기 우한 탐색적인 접근법
- 다양한 시각화 기법 및 변수간 조합을 통한 데이터 내 구조적 관계 식별
- 이상치, 결측치 등을 파악하는 데이터 분석의 첫 단계
통계분석의 종류
- 기술통계(descriptive) :
- technique이 아닌 descriptive
- 데이터의 특징을 수치적으로 정리 / 요약하는 방법론
- 예시 ) 월별 주가지수 수익률의 평균
- 추론(추측)통계(inference)
- 모집단으로부터 추출한 표본의 통계량을 활용해 모수에 대해 통계적인 추론 / 검정을 하는 방법론
- 예시 ) 1월의 주가지수 수익률이 7월보다 더 높은가?
표본추출방법
- 단순랜덤추출법
- 계통추출
- 모집단의 크기를 원하는 표본크기로 나누어 추출간격을 정하여 간격별로 개체를 추출
- 데이터가 주기성을 띨 경우 추출 간격에 따라 편향성이 있을 수 있음
- 예) 매 주 수요일만 추출
- 층화표본추출
- 모집단을 몇 개의 층으로 나누어 각 층에서 단순랜덤추출
- 층을 나누는 기준이 반드시 존재해야 한다.
- 집락(군집)추출
- 개체가 모인 ‘집단’을 무작위 로 선택한 후 선택된 집단들 내에 있는 모든 개체들을 추출
측정 방법
측정하는 방법에는 크게 명목, 순서, 등간(구간), 비율 척도가 있다.
서열관계, 질적 / 양적, 절대값, 간격 등에 따라 구별된다.
확률 및 확률 분포
- 확률 변수
- 확률을 수치로 표현되는 표본공간에서 정의된 실수값 함수
- 이산형 확률분포 (discrete)
- 이산표본공간에서 정의된 확률변수의 값이 유한 또는 countably
- 예) 베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포
- 연속형 확률분포 (countinuous)
- 특정 구간 내의 모든 값을 취하는 확률변수로, 값이 무한개이며 셀 수 없음
- 확률밀도함수 : 확률 X가 어떤 구간 [l, u]의 모든 값을 취하고 이 구간에서의 함수 f(x)
- 예) 균일분포, 정규분포, 지수분포, t분포, F분포, χ2분포
가설검정
- 가설검정
- 모집단에 대한 가설을 설정한 뒤, 그 가설의 채택여부를 결정하는 방법
- 귀무가설(null hypothesis, H0) vs 대립가설(alternative hypothesis, H1)
- 귀무가설 : 일반적인 사실로 설정
- 대립가설 : 입증하고자 하는 가설 예) 효과가 있다, 차이가 있다.
실제 \ 검정결과 | H0 사실 | H0 거짓 |
H0 사실 | 옳은 결정 | 제1종 오류 ( α ) |
H0 거짓 | 제2종 오류 ( β ) | 옳은 결정 |
- 제1종 오류 ( α )
- 귀무가설을 채택해야 했음에도 이를 기각할 오류
- 제2종 오류 ( β )
- 귀무가설을 기각해야 했음에도 이를 채택할 오류
- 유의수준(significance level)
- 제1종 오류를 범할 확률의 최대 허용한계
- 1종 오류의 크기를 0.1, 0.05, 0.01로 고정시키고, 2종 오류가 최소가 되도록 기각역을 설정
- 가설 검정 절차
- 검정할 가설 설정
- 유의수준 설정
- 임계치 결정 및 검정통계량과 비교
- p-value 값이 유의수준보다 작으면 귀무가설 기각(기각역)
기술 통계
- 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리 / 요약
- 통계량에 의한 자료 정리
- 중심 위치의 측도 : 평균, 중앙값, 최빈값
- 산포의 측도 : 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차
- 분포의 형태 : 왜도, 첨도
- 그래프를 통한 자료 정리
- 범주형 자료 : 막대그래프, 도수분포표, 파이차트, 모자이크 플랏 등
- 연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림 등
범주형 자료 |
막대그래프 | 파이차트 | 도수분표표 |
|
|||
연속형 자료 |
히스토그램 | 줄기-잎 그림 | 상자그림 |
|
|
상관 분석 (correlation analysis)
- 두 변수 간의 관계를 상관계수를 이용하여 알아보는 분석 방법
- 자료의 상관 (correlation)
- 확률변수 X의 변화가 Y의 변화에 관계가 있을 때 상관관계가 있다고 한다.
- 산점도
- 두 변수 X, Y가 짝을 이뤄 관측된 n개의 데이터를 좌표상의 점으로 표현한 그래프
- 전체적인 변수 사이의 관계 유형과 특이점을 살펴볼 수 있음
- 공분산 : 측정 단위에 의존
- 상관계수 : 공분산을 두 변수의 표준편차의 곱으로 나눈 값
- 상관계수의 유형
구분 | 피어슨 | 스피어만 / 켄달 |
개념 | 두 정량 변수 간 선형적 연관성의 강도 척도 | 순서, 서열 척도인 두 변수들 간의 상관관계 측정 |
특징 | 연속성 변수, 정규성 가정, 단위 없음, -1 <= r <= 1 | 순서형 변수, 비모수적 방법, 데이터 내 이상치 활용 |
상관계수 | 피어슨 γ (적률상관계수) | 순위상관계수 ρ (로우) |
R코드 | cor(x, y, method = c("pearson", "kendall", "spearman")) |
반응형
LIST
'메타코드M 서포터즈 4기 > 2024 ADsP 2주 합격 올인원 패스' 카테고리의 다른 글
[ADsP] 메타코드 ADsP 2주 합격 올인원 패스 - 2과목 데이터 분석 기획(1) (0) | 2024.05.05 |
---|---|
[ADsP] 메타코드 ADsP 2주 합격 올인원 패스 - 1과목 데이터의 이해(2) (0) | 2024.04.27 |
[ADsP] 메타코드 ADsP 2주 합격 올인원 패스 - 1과목 데이터의 이해(1) (0) | 2024.04.27 |
[ADsP] ADsP(데이터분석 준전문가) 자격증 소개, 강의 소개 (0) | 2024.04.21 |