[기초통계학]Day3

2월 17일 통계적 추론 파트와 단일모집단의 추론에 대한 기초통계학을 공부하였다. 단일 모집단 추론에 대한 내용이해가 부실함으로 오늘은 통계적 추론에 대해 상세히 적어두고 내일 단일모집단 추론에 대해 정리해 올리기로 한다.

통계적추론

모수적추론 parametric inference :

  • 모집단에 특정 분포를 가정하고 분포의 특성을 결정하는 모수에 대한 추론하는 방법

비모수적추론 non-parametric inference :

  • 모집단에 대한 분포가정이 없음

베이지안 추론 Bayseian inference :

  • 모수를 상수가 아닌 확률변수로 봄 =>확률 분포를 가짐

점추정 :

  • 미지의 모수를 표본의 어떤 함수(통계량)를 이용하여 어떤 으로 추정하는 과정
  • 추정방법 : 적률법 method of moments, 최대가능도추정법 maximum likelihood estimation, 최소제곱법 least squares estimation 등등

구간추정

  • 미지의 모수가 포함될 것으로 기대되는 범위를 확률적으로 택하는 과정
  • 100(1-α)% 신뢰구간 confidence interval [L,U] -> P(L ≤ θ ≤ U) = 1-α
  • [예제]모평균 μ에 대한 95% 신뢰구간
    • 모집단 가정 : N(μ,σ²)이고 σ²를 알고 있는 경우
    • μ의 점추정량 : X_bar
    • X_bar의 통계적 성질 : X_bar ~ N(μ,σ²/n) -> Z= (X_bar – μ)/(σ/sqrt(n)) ~ N(0,1)
    • 표준정규분포 : 0.95=P(-1.96 < Z < 1.96) =
      P(X_bar-1.96*σ/sqrt(n) < μ < X_bar+1.96*σ/sqrt(n))
    • 95%신뢰구간 = [X_bar-1.96*σ/sqrt(n), X_bar+1.96*σ/sqrt(n)]

가설검정

  • 모집단의 모수 또는 분포에 대한 추측이나 주장을 설정
    이것의 옳고 그름을 표본으로부터 얻어진 정보로 확률적 판정
  1. 가설 hypothesis
    • 귀무가설 H_0 : 감정의 대상이 되는 가설
    • 대립가설 H_1 : 표본으로부터 얻은 강력한 증거에 의해 입증하고자 하는 가설
      (i.e. 새로운 이론이나 우리가 보이고 싶은 주장)
  2. 검정통계량 test statistic
    • 귀무가설(H_0)을 기각시킬지 채택할지에 사용
    • 정상/비정상을 나누는 기준으로 유의수준 significant level 사용
      • 비정상 영역 = 기각역 rejection region
      • 정상 영역 = 채택역 acception region
    • 결정\실제 H_0 H_1
      H_0 제2종의 오류(β=1-p)
      = 검정력 power
      H_1 제1종의 오류(α=maxP)
      = 유의수준
    • 가설검정의 순서
      • 귀무가설과 대립가설 설정
      • 검정통계량 설정
      • 유의수준 결정
      • 기각역 계산
      • 판정

유의 확률 p-value

  • 관측값에 의해 귀무가설을 기각시킬 수 있는 검정법의 최소 유의수준
  • p-value < α : 귀무가설 기각
  • p-value > α : 귀무가설 기각 불가
Advertisements

[기초통계학]Day2

오늘로 기초통계학Ⅰ을 종료한다!

사실 review강의가 굉장히 많지만 과감히 생략하고 내일부터 기초통계학Ⅱ로 넘어갈 예정이다.

왜냐하면, 이러다간 udemy의 data science A-Z를 정복하려는 계획이 느려지기 때문이다.

하지만 기초통계학Ⅱ이 이해하기 어려우면 review부터 다시 시작할 수도 있다.

  1. 베이즈 정리 Bayse’ Theorem
    • P(A|B)=P(A∩B)/P(B)=P(A)P(B|A)/[P(A)P(B|A)+P(!A)P(B|!A)]
    • P(Ak|B)=P(Ak)P(B|Ak)/P(B)=P(Ak)P(B|Ak)/∑P(Ai)P(B|Ai)
  2. 독립사건 : P(A∩B)=P(A)P(B)
  3. 확률변수
    • 이산확률변수 : E(X**2)=∑[x**2 * f(x)]
    • 연속확률변수 : E(X**2)=∫[x**2 * f(x)]dx
  4. 확률변수 X의 분산 : Var(X)=∑[(x-μ)**2 * f(x)]=E(X**2)-E(X)**2
  5. 기댓값 정리
    • E(X+Y)=E(X)+E(Y)
    • X와 Y가 독립일 떄 E(XY)=E(X)E(Y)
  6. 공분산 covariance : Cov(X,Y)=E(XY)-E(X)E(Y)
  7. Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)
  8. 상관계수 coefficient of correlation : ρ = Cor(X,Y)=Cov(X,Y)/[sqrt(Var(X))sqrt(Var(Y))]
  9. 베르누이 Bernoulli 시행 X~B(X)
    1. 각 실험에서 발생가능한 결과는 2가지
    2. 각 실험이 독립적으로 수행
    3. 모든 실험에서 결과의 확률은 항상 동일
  10. 이항분포 : n개의 베르누이 확률변수를 합한 것
  11. 포아송분포 X~P(λ) : f(x) = e**(-λ) * λ**x / x!

[기초통계학]Day1

베이즈 정리 직전까지 수강하였다.

사실, 회귀분석이 뭔지 항상 궁금했기에 기초통계학2에 가서 앞부분 단순회귀모형을 수강하였다.

하지만, 뒷 부분 검정내용을 따라 가지 못했기에 다시 앞부분부터 천천히 나아가려고 한다.

오늘부터는 강의자료를 통한 선행학습 후 강의를 들을 예정이다.

강의내용

  1.  추출방법
    • 복원 추출
    • 비복원 추출
  2. 배열\추출 복원 비복원
    순서있음 중복순열 순열
    순서없음 중복조합 조합
  3.  Var(aX+b)=a**2 Var(X)
  4.  SD(aX+b)=|a|SD(X)
  5.  조건부 확률 P(B|A) = P(A∩B)/P(A)
  6.  베이즈 정리 Bayse’ Theorem