본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #35 정규분포(Normal distribution)

반응형

하루에 10분씩 공부하는 AP Statistics - #35 정규분포(Normal distribution)


정규분포(normal distribution)는 정규방정식(normal equation)에 의해 표현되는 연속확률분포(continuous probability distribution)를 말한다.


▶ 정규방정식(The Normal Equation)

정규방정식은 다음과 같이 정의된다.


 정규방정식

 확률변수 Y의 값은 다음과 같이 정의된다. 

Y = [ 1/σ * sqrt(2π) ] * e-(x - μ)2/2σ2

    X는 정규확률변수(normal random variable), μ 는 평균, σ 는 표준편차이고,
    π 는 약3.14159, e 약 2.71828인 상수이다.


정규방정식의 확률변수 X를 정규확률변수라고 한다. 정규방정식은 정규분포의 확률밀도함수(probability density function)이다.



▶ 정규곡선(The Normal Curve)

정규분포의 그래프는 평균과 표준편차 두 가지 요소에 따라 결정된다. 분포의 평균은 그래프의 중심 위치를 결정하고, 분포의 표준편차는 그래프의 높이와 폭을 결정한다. 표준편차가 크면 그래프는 높이가 낮고 좌우로 넓게 퍼지며, 표준편차가 작으면 그래프는 높이가 높고 좌우로 좁은 모양을 갖는다. 모든 정규분포는 아래 그림과 같이 좌우대칭(symmetric)이며, 종모양(bell-shaped)의 형태를 갖는다.

사용자 삽입 이미지 사용자 삽입 이미지
 

왼쪽의 그래프가 오른쪽 그래프보다 높이가 낮고 좌우로 퍼져 있다. 따라서 왼쪽 정규곡선이 표준편차가 더 크다.


▶ 확률과 정규곡선(Probability and the Normal Curve)

정규분포는 연속확률분포이고, 다음과 같은 확률의 성질을 갖는다.

  • 정규곡선 아래 전체 넓이는 1이다.
  • 정규확률변수 X가 특정한 값을 가질 확률은 0이다. 
  • P(X≥a)는 a와 +∞ 범위에서 정규곡선 아래의 넓이와 같다. (아래 그림에서 빗금쳐 있지 않은 부분)
  • P(X<a)는 a와 -∞ 범위에서 정규곡선 아래의 넓이와 같다. (아래 그림에서 빗금친 부분)
 


또, 모든 정규곡선은 (평균과 표준편차에 상관없이) 다음 "규칙"을 따른다.

  • 평균을 중심으로 1σ 범위의 곡선 아래 넓이는 약 68% 이다. 
  • 평균을 중심으로 2σ 범위의 곡선 아래 넓이는 약 95% 이다.
  • 평균을 중심으로 3σ 범위의 곡선 아래 넓이는 약 99.7% 이다. 

이러한 점들을 경험적 규칙(empirical rule) 또는 "68-96-99.7" 규칙이라고 한다. 따라서, 주어진 정규분포에서 대부분의 결과는 평균을 중심으로 3σ 범위안에 포함된다. 정규확률변수와 관련된 확률계산은 전자계산기나, 정규분포표를 이용한다.


예제1

Acme 사에서 생산하는 전구의 수명은 평균 300일, 표준편차 50일이다. 전구수명이 정규분포를 따른다면, Acme 사의 전구가 최대 365일 지속될(365일 이내 고장날) 확률은 얼마인가?

풀이 : 평균 300일, 표준편차 50일을 이용해 전구수명이 365일보다 작을 확률을 구한다. 즉,

  • 정규확률변수의 값은 365일.
  • 평균은 300일.
  • 표준편차는 50일.

이 값을 계산기에 대입해 계산을 하면, P( X < 365) = 0.90 이다. 따라서, 전구가 365일 이내 망가질 확률은 90% 이다.



예제2

IQ 테스트 결과 IQ 점수가 평균이 100이고, 표준편차가 10인 정규분포를 따른다고 하자. 어떤 사람의 아이큐가 90점과 110점 사이일 확률은 얼마인가?

풀이 : 아이큐가 90점과 110점 사이일 확률을 구하기 위해 다음과 같은 확률을 생각해보자. 

P( 90 < X < 110 ) = P( X < 110 ) - P( X < 90 )

위 식의 오른쪽의 각 확률은 계산기를 이용해 구하도록 한다.

  • P( X < 110 )을 계산하기 위해 계산기에 정규확률변수의 값 110, 평균 100, 표준편차 10을 입력하면
    P( X < 110 ) = 0.84.
  • P( X < 90 )을 계산하기 위해 계산기에 정규확률변수의 값 90, 평균 100, 표준편차 10을 입력하면
    P( X < 90 ) = 0.16.

이 결과를 위 식에 대입하면 원하는 확률을 구할 수 있다.

P( 90 < X < 110 ) = P( X < 110 ) - P( X < 90 )
P( 90 < X < 110 ) = 0.84 - 0.16
P( 90 < X < 110 ) = 0.68

즉, 점수가 90점과 110점 사이일 확률은 약 68%이다.

주) 경험적규칙(empirical rule or 68-95-99.7 rule)에 의해서 90점과 110점 범위는 평균(100점)을 중심으로
     1σ(10점) 범위이므로 이 범위에 포함될 확률이 68%임을 알 수 있다.

반응형