메타코드M 서포터즈 4기/2024 ADsP 2주 합격 올인원 패스

[ADsP] 메타코드 ADsP 2주 합격 올인원 패스 - 3과목 통계 분석(1)

theohyunee 2024. 4. 21. 21:13
반응형

 

안녕하세요.

빅데이터, AI 강의 플랫폼 메타코드M에서 제공하는

< 2024 ADsP 2주 합격 올인원 패스 [비전공자 맞춤] > 를 수강하였습니다.

2024 ADsP 2주 합격 올인원 패스 [ 비전공자 맞춤형 ] (이미지 클릭 시 강의 링크로 이동합니다.)

 

ADsP 에 대한 자세한 정보가 궁금하세요?

 


 

1. 개요

[ 목표 ]

01

이 포스트는 제3과목 <데이터 분석> 중 통계분석

에 해당하는 내용을 강의를 기반으로 정리합니다.

 

02

포스트한 내용을 출력해서 가져가도 될 정도의

시험 대비용 진짜 ! 핵심 ! 내용! 만 정리하려 합니다.

 

 


2. 통계 분석

탐색적자료분석(EDA)

  • 데이터 내 일반적인 특징을 찾기 우한 탐색적인 접근법
  • 다양한 시각화 기법 및 변수간 조합을 통한 데이터 내 구조적 관계 식별
  • 이상치, 결측치 등을 파악하는 데이터 분석의 첫 단계

 

통계분석의 종류

  • 기술통계(descriptive) :
    • technique이 아닌 descriptive
    • 데이터의 특징을 수치적으로 정리 / 요약하는 방법론
    • 예시 ) 월별 주가지수 수익률의 평균
  • 추론(추측)통계(inference)
    • 모집단으로부터 추출한 표본의 통계량을 활용해 모수에 대해 통계적인 추론 / 검정을 하는 방법론
    • 예시 ) 1월의 주가지수 수익률이 7월보다 더 높은가?

 

표본추출방법

  • 단순랜덤추출법
  • 계통추출
    • 모집단의 크기를 원하는 표본크기로 나누어 추출간격을 정하여 간격별로 개체를 추출
    • 데이터가 주기성을 띨 경우 추출 간격에 따라 편향성이 있을 수 있음
    • 예) 매 주 수요일만 추출
  • 층화표본추출
    • 모집단을 몇 개의 층으로 나누어 각 층에서 단순랜덤추출
    • 층을 나누는 기준이 반드시 존재해야 한다.
  • 집락(군집)추출
    • 개체가 모인 ‘집단’을 무작위 로 선택한 후 선택된 집단들 내에 있는 모든 개체들을 추출

 

측정 방법

측정하는 방법에는 크게 명목, 순서, 등간(구간), 비율 척도가 있다.

서열관계, 질적 / 양적, 절대값, 간격 등에 따라 구별된다.

 

 

확률 및 확률 분포

  • 확률 변수
    • 확률을 수치로 표현되는 표본공간에서 정의된 실수값 함수
  • 이산형 확률분포 (discrete)
    • 이산표본공간에서 정의된 확률변수의 값이 유한 또는 countably
    • 예) 베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포
  • 연속형 확률분포 (countinuous)
    • 특정 구간 내의 모든 값을 취하는 확률변수로, 값이 무한개이며 셀 수 없음
    • 확률밀도함수 : 확률 X가 어떤 구간 [l, u]의 모든 값을 취하고 이 구간에서의 함수 f(x)
    • 예) 균일분포, 정규분포, 지수분포, t분포, F분포, χ2분포

 

 

가설검정

  • 가설검정 
    • 모집단에 대한 가설을 설정한 뒤, 그 가설의 채택여부를 결정하는 방법
  • 귀무가설(null hypothesis, H0) vs 대립가설(alternative hypothesis, H1)
    • 귀무가설 : 일반적인 사실로 설정
    • 대립가설 : 입증하고자 하는 가설 예) 효과가 있다, 차이가 있다.
실제 \ 검정결과 H0 사실 H0 거짓
H0 사실 옳은 결정 제1종 오류 ( α )
H0 거짓 제2종 오류 ( β ) 옳은 결정
  • 제1종 오류 ( α )
    • 귀무가설을 채택해야 했음에도 이를 기각할 오류
  • 제2종 오류 ( β )
    • 귀무가설을 기각해야 했음에도 이를 채택할 오류
  • 유의수준(significance level)
    • 제1종 오류를 범할 확률의 최대 허용한계
    • 1종 오류의 크기를 0.1, 0.05, 0.01로 고정시키고, 2종 오류가 최소가 되도록 기각역을 설정
  • 가설 검정 절차
    • 검정할 가설 설정
    • 유의수준 설정
    • 임계치 결정 및 검정통계량과 비교
    •  p-value 값이 유의수준보다 작으면 귀무가설 기각(기각역)

 

기술 통계

  • 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리 / 요약
  • 통계량에 의한 자료 정리
    • 중심 위치의 측도 : 평균, 중앙값, 최빈값
    • 산포의 측도 : 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차
    • 분포의 형태 : 왜도, 첨도
  • 그래프를 통한 자료 정리
    • 범주형 자료 : 막대그래프, 도수분포표, 파이차트, 모자이크 플랏 등
    • 연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림 등
범주형
자료
막대그래프 파이차트 도수분표표

연속형
자료
히스토그램 줄기-잎 그림 상자그림


 

 

상관 분석 (correlation analysis)

  • 두 변수 간의 관계를 상관계수를 이용하여 알아보는 분석 방법
  • 자료의 상관 (correlation)
    • 확률변수 X의 변화가 Y의 변화에 관계가 있을 때 상관관계가 있다고 한다.
  • 산점도 
    • 두 변수 X, Y가 짝을 이뤄 관측된 n개의 데이터를 좌표상의 점으로 표현한 그래프
    • 전체적인 변수 사이의 관계 유형과 특이점을 살펴볼 수 있음

  • 공분산 : 측정 단위에 의존

  • 상관계수 : 공분산을 두 변수의 표준편차의 곱으로 나눈 값

  • 상관계수의 유형
구분 피어슨 스피어만 / 켄달
개념 두 정량 변수 간 선형적 연관성의 강도 척도 순서, 서열 척도인 두 변수들 간의 상관관계 측정
특징 연속성 변수, 정규성 가정, 단위 없음, -1 <= r <= 1 순서형 변수, 비모수적 방법, 데이터 내 이상치 활용
상관계수 피어슨 γ (적률상관계수) 순위상관계수 ρ (로우)
R코드 cor(x, y, method = c("pearson", "kendall", "spearman"))

 

 

 

 


 

 

 

반응형
LIST