본문 바로가기

데이터 기본

데이터 샘플링: 왜, 언제 해야 하는가

출처: Uplash

 

지난 글(데이터 샘플링: 통계적 및 비통계적 샘플링 방법)을 쓰고 난 후에, 샘플링이 왜 필요한지에 대한 감이 잘 오지 않을 것 같아 그 필요성 및 어떻게, 언제 사용되는지 추가로 글을 쓰기로 했다. 했던 말들의 반복도 조금 있겠지만, 샘플링의 중요성은 무시할 수 없다. 특히 데이터 분석은 여러 단계를 거친 후에야 실질적인 인사이트를 도출해 낼 수 있는데, 이때 데이터 샘플링은 대부분의 단계들에 선행하는 매우 중요한 단계 중 하나이다.

데이터 샘플링은 왜 필요할까

데이터 샘플링이 왜 필요한지 당연할 수도 있는 것들이지만 되짚어 보자.

  1. 시간 및 비용 제약 극복
    : 대규모 데이터를 다룰 때, 샘플링을 하면 시간과 비용을 절약할 수 있다. 데이터 사이즈가 커질 수록 전체 데이터를 모두 수집하고 분석하는 것은 시간과 비용이 매우 많이 들게 된다. 이에 반해 데이터 샘플링을 통해 일부 데이터를 추출하면 시간과 비용을 절약할 수 있게 된다.
  2. 데이터의 신뢰도 향상
    : 샘플링을 통해 불필요한 부분을 선택하지 않게 할 수 있는데, 이를 통해 데이터가 가지고 있는 Noise나 Randomness 등 데이터를 왜곡하는 요소들을 제거할 수 있다. 정형화된 데이터가 아니고 데이터 출처의 공신력이 떨어질 경우 샘플링이 ‘데이터 정제’ 역할을 하는 것이다.
  3. 효율적으로 인사이트 도출
    : 전체 데이터로 작업하면서는 보이지 않던 패턴이나 인사이트 등이 샘플링 한 후에는 조금 더 쉽게 보일 때가 있다. 더 작은 규모의 데이터는 이리저리 돌려보고 분석하기가 더 수월한데, 샘플링이 만들어준 작은 규모의 데이터가 더 집중되고 디테일한 인사이트를 도출하는데 도움이 되기도 한다.

 

데이터 샘플링 방법 고르기

데이터의 종류와 분석의 목적 등에 따라 샘플링하는 방법이 달라져야 한다. 앞 선 글에서 제시한 샘플링 방법 중에서 단순랜덤, 계통, 유층 샘플링 위주로 어떤 경우에 해당 샘플링 방법을 선택하면 좋은지 설명해 보겠다.

단순 랜덤 샘플링(Simple Random Sampling)의 선택

이전 글에서 설명한 단순 랜덤 샘플링은 정말 무작위로 선택하는 방식이기 때문에 모든 데이터 요소들이 동등한 확률로 선택될 가능성이 있다.

  • 언제 사용되면 좋은가
    : 모집단의 규모가 상대적으로 작으면서 동일한 특성을 지니고, 특별한 변동이 없을 때 적합하다. 합니다. 이 방법을 사용하면 전체 모집단에서 편향이 없는 무작위 샘플을 얻을 수 있다.
  • 예시
    : 어느 레스토랑 프랜차이즈에서 고객 만족도 수준을 조사하고 분석하려 할 때, 간단하게 무작위로 고객들을 선택해서 설문을 진행하거나, 아니면 방문한 모든 고객에게 실시한 설문 조사에 대해서 일부 고객만을 무작위로 선택하여 만족도 수준을 확인할 수 있다. 이게 가능한 이유는 통계적으로 볼 때, 선택된 샘플이 전체 레스토랑 고객의 모집단을 대표하기 때문이다.

 

계통 샘플링(Systematic Sampling)의 선택

계통 샘플링은 모집단에서 샘플을 고를 때 특정한 패턴을 사용하는 방식이다. 예를 들어, 모집단에서 매 10번째에 있는 데이터를 샘플로 고르는 식이다.

  • 언제 사용되면 좋은가
    : 이 방법은 모집단에 대한 데이터 목록이 이미 정렬되어 있거나 데이터에 규칙적인 패턴이 있는 경우에 유용하게 사용될 수 있다. 단, 데이터가 일정한 주기성을 가지고 있는데 그걸 고려하지 못했을 경우 왜곡된 샘플을 얻을 수 있으니 유의해야 한다.
  • 예시
    : 어느 기업에서 최근에 런칭한 제품에 대한 마케팅 조사를 하려고 한다. 이때, 제품을 구매한 고객들의 의견을 분석하기 위해, 일정한 간격으로 구매한 고객을 선정하는 식이다. 또 다른 예로, 조립 라인에서 매 시간마다 나오는 제품의 품질을 분석할 때도 유용하게 쓰일 수 있다. 일정한 간격으로 제품을 선택하여 보면, 그 제품이 전체 생산되는 제품을 대표하기 때문이다.

 

유층 샘플링(Stratified Sampling)의 선택

유층 샘플링은 모집단을 Strata로 불리우는 하위 그룹 또는 계층으로 나눈 후, 각 계층에서 샘플을 선택하는 방법이다.

  • 언제 사용되면 좋은가
    : 이 방법은 모집단이 다양성이 있고, 잘 구분되는 하위 그룹으로 나눌 수 있는 경우에 적합하다.
  • 예시
    : 예를 들어, 선거구에서의 유권자 의견을 알고 싶다면, 연령, 성별, 인종 등에 기반하여 지역을 여러 그룹으로 나눌 수 있다. 그다음 각 그룹에서 샘플을 무작위로 추출한다. 또 다른 예로 위에서 언급한 제품에 대한 고객 만족도 조사도 유층 샘플링을 사용할 수 있다. 제품을 온라인으로 구매한 고객과 매장에서 구매한 고객의 만족도 수준을 분석하려는 경우, 구매 방법을 기반으로 모집단을 두 개의 그룹으로 나눈다. 그다음 각 그룹에서 샘플을 선택한다.

 

글을 마무리하며

올바른 샘플링 방법을 선택하는 것은 정확하고 신뢰할 수 있는 결과를 얻는 데 중요하다. 여러 번 설명하였지만 샘플링 방법을 선택하기 전에 데이터의 특성과 분석의 목적에 대한 고민이 선행되어야 한다. 모집단이 비교적 작고 동질적이면 단순 랜덤 샘플링, 데이터에 정기적인 패턴이 있다면 계통 샘플링, 이질적인 모집단이 있어 여러 계층 또는 하위 그룹으로 나뉠 수 있는 경우는 유층 샘플링이 적합하다. 물론 이 글 만으로는 실무에서 어떤 방법을 선택해야 할지 정확하게 알기 어려울 것이다. 또한, 머신 러닝에 들어가면 각 머신 러닝 방법에 따라 어떤 방식으로, 어떤 규모로 샘플링을 해야 하는지 매번 새롭게 알아나가야 할 것이다.