본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #22 조사 표본추출의 편향(Bias in Survey Sampling)

반응형

하루에 10분씩 공부하는 AP Statistics - #22 조사 표본추출의 편향(Bias in Survey Sampling)

조사 표본추출 과정에서 편향(bias)이란 모집단 모수(population parameter)을 계통적으로 과대 또는 과소추정하게 되는 표본 통계량의 경향을 말한다.


▶ 비대표 표본에 의한 편향(Bias Due to Unrepresentative Samples)

좋은 표본은 대표성을 가진다. 이것은 각 표본값이 알려진 모집단 원소의 속성을 대표한다는 것을 의미한다.

편향(Bias)은 조사 표본이 모집단을 정확하게 대표할 수 없을 때 발생한다. 비대표 표본에서 비롯된 편향은
선택 편향(selection bias)이라고 한다. 다음은 선택 편향의 예를 나타낸 것이다.

   -  미포함(Undercoverage)

       모집단의 일부 원소들이 부적절하게 표본에 포함될 경우 발생한다.
       미포함의 고전적인 예는 1936년 대통령 선거에서 Alfred Landon이 Franklin Roosevelt 를 꺾고
       승리할 것으로 예측한 Literary Digest 조사를 들 수 있다. 당시 조사 표본에서 민주당 지지 성향을 지닌
       저소득층 유권자가 포함되지 않아 잘못된 결과를 예측하였다.

      왜, 이런 일이 발생하는가?
      당시 조사는 전화번호부와 차량등록 목록에서 표본을 선택하는 편의표집(convenience sample) 방법을
      사용했는데, 1936년에 자동차와 전화를 가진 사람들은 대체로 부유층 뿐이었다.
      이처럼 편의표집 방법을 사용할 경우 미포함 문제가 종종 발생한다.


   - 무응답 편향(Nonresponse bias)

       때때로, 표본으로 선택된 사람이 조사에 참여할 수 없거나 참여 자체를 꺼리는 경우가 있다.
       무응답 편향(nonresponse bias)은 응답자가 무응답자와 성향이 다를 때 발생한다.
       앞서의  Literary Digest 조사에서 응답자는 Landon의 지지자인 경향이 강했던 반면,
       무응답자는 Roosevelt 지지자인 경향이 강했다. 실제로 조사 대상자로 선정된 유권자의 25%만이
       우편조사에 응답을 했고, 조사 결과 Alfred Landon의 유권자 지지율이 과대평가 되었다.

       Literary Digest 조사 결과는 우편조사에서 생기는 문제점을 보여준다.
       우편조사는 응답비율이 낮은 경우가 많으며, 이는 우편조사가 무응답 편향에 취약하게 만든다.

  
   - 자발적응답 편향(Voluntary Response bias)

      자발적응답 편향(voluntary response bias)은 표본이 스스로 지원한 응답자인 경우,
      즉 자발적 표본(voluntary sample)인 경우에 발생한다. 쟁점이 되는 주제(낙태, 총포규제, 등)에 대한 조사에
      참여하기를 원하는 청취자 전화를 받는 라디오 프로그램을 예로 들 수 있다. 이 경우 응답자는 극단적인
      의견을 가진 개인들의 성향을 나타내는 표본인 경우가 많다.

임의추출(random sampling)은 모집단의 각 원소가 선택될 확률이 0이 아닌 일정한 확률을 가지고, 표본 단위 추출 확률도 0이 아닌 일정한 확률을 가지는 표본 추출 과정이다. 임의추출은 자발적응답 편향을 없애고, 미포함 편향을 방지한다는 점에서 표본이 대표성을 갖게 한다. 모든 확률표본 추출방법(probability sampling method)은 임의추출방법을 사용한다.



▶ 측정 오차에 의한 편향(Bias Due to Measurement Error)

열악한 측정 과정으로 인해 편향이 발생할 수 있다. 조사 연구 과정에서 측정 과정은 조사 환경, 설문 조사 방법, 조사 응답자의 상태 등을 포함한다.

응답 편향(response bias)은 측정 과정상의 문제로 인해 발생하는 편향이다. 다음은 응답 편향의 몇 가지 예이다.


   - 주요 질문(Leading questions)
       
      특정 응답을 다른 응답에 비해 과도하게 유도하는 단어가 질문에 사용될 수 있다.
      예를 들어, 만족도 조사에서 응답자는 어떠한 부분에 대해 만족, 불만족, 매우 불만족 중에서 답하도록
      요구받을 수 있다. 만족에 해당하는 선택은 한 가지이고, 불만족에 해당하는 선택이 두 가지를 제시한 경우,
      설문 조사가 불만족 응답을 얻기 위한 쪽으로 편향된 것이다.

 
   - 사회 정의(Social desirability)

       대부분의 사람들은 스스로의 바람직한 면을 나타내고 싶어한다. 따라서, 사람들은 조사과정에서
       특히, 비밀 보장이 되지 않는 경우라면 좋지 않은 성향이나 불법적인 행동은 인정하기 꺼리게 된다.
       대신 응답자는 사회 정의에 준하는 응답을 하려는 편향을 가지게 된다.



▶ 표집 오차와 조사 편향(Sampling Error and Survey Bias)

조사를 통해 모집단 모수를 추정하는데 사용할 표본 통계량을 얻게 된다. 만일 조사를 매번 다른 표본을 사용해
여러 차례 반복한다면, 매번 다른 표본 통계량을 얻게 되다. 각기 다른 표본 통계량이 동일한 모집단 모수의
추정값인 것이다.

통계량이 편향되지 않았다면, 개별 통계량이 모집단 모수와 다를지라도 모든 가능한 표본으로 부터 얻어진
통계량의 평균은 모집단 모수의 참값과 같을 것이다. 이때, 각기 다른 표본에서 얻어진 통계량의 변동성을
표집 오차(sampling error)라고 한다.

표본의 수를 증가시키면 표집 오차가 작아지는 경향이 있다. 즉, 표본 통계량의 변동성이 줄어든다. 그러나 표본의
수를 증가시키는 것은 조사 편향에 영향을 주지 않는다. 표본 수가 크다고 해서 조사 편향이 발생하는 방법적인
문제(미포함 편향, 무응답 편향 등)가 수정되는 것은 아니다.
위에서 살펴본 Literacy Digest 예에서 이 점을 확인할 수 있다. 당시 표본 수는 2백만명이 넘을 정도로 컸지만,
표본 추출 과정의 문제점(미포함 편향, 무응답 편향)을 극복하지는 못했다.



확인하고 넘어가기
Problem1

Which of the following statements are true?

I. Random sampling is a good way to reduce response bias.
II. To guard against bias from undercoverage, use a convenience sample.
III. Increasing the sample size tends to reduce survey bias.
IV. To guard against nonresponse bias, use a mail-in survey.

(A) I only
(B) II only
(C) III only
(D) IV only
(E) None of the above.

반응형