본문 바로가기

데이터 분석

데이터 분석 2단계: 준비 (Preparation) - 데이터 구하기

분석을 위한 데이터는 어떻게 구할 것인가.

 

내부 데이터를 사용하면 문제는 비교적 간단하다. 하지만 대부분의 경우 내부 데이터만으로는 부족할 수 있다. 때로는 외부에 있는 자료를 직접 찾거나, 다른 회사로부터 구매해야 할 수도 있다. 

 

데이터 소스를 골라야 한다.

자체 생성/수집할 수 있는 데이터를 First-party Data라고 한다. 아쉽게도 그것만으로는 부족할 수 있고, 앞서 말했듯이 내부 데이터 외의 데이터를 구해야 하는 상황이 온다. First-Party와 구분되는 2가지 데이터가 더 있다. 다른 개인/단체/회사에서 직접 수집하여 판매하는 데이터를 Second-Party Data, 본인들이 수집하지 않았지만 여러 가지 데이터를 한꺼번에 취급하면서 다른 개인/단체/회사가 수집한 데이터를 판매하기도 하는데, 그런 데이터를 Third-party Data라고 한다. 이름이야 어쩌되었든 본인의 분석에 맞는 데이터를 고르면 된다. 물론 구매하는 경우는 비용이 상당하기 때문에 개인의 입장에서는 Second/Third Party Data는 접근이 쉽지 않다. 

 

어떤 데이터를 쓸 것인가.

많은 경우 데이터는 Dataset 형태로 한 가지 이상의 정보가 담겨있다. 그 많은 정보가 다 필요하지는 않을 것이다. 데이터 소스를 골라서 데이터 세트를 확보했다면, 그중에서 어떤 부분만 사용할 것인지에 대해 판단해야 한다. 불필요한 데이터를 쥐고 있으면 처리 속도가 늘어나고 실수의 확률이 높아진다. 필요한 것만 고르고, 필요 없는 것은 과감히 버려야 한다. 하지만 버릴 때는 신중해야 한다. 분석의 마지막에 보니 그 부분이 필요할 수도 있는데, 그러면 다시 뒤로 돌아가 처음부터 다시 해야 한다. 

 

어느 정도 양의 데이터가 필요한가.

만약 자체 공수한 데이터를 사용한다면, 스스로 수집할 데이터의 양과 크기를 결정할 수 있다. 예를 들어, 코로나 팬데믹 전후의 개인 위생관념 변화에 대해 알아보려고 하는데 조선시대 자료까지 뒤져볼 필요는 없다. 다른 예로, 가끔 데이터 전체가 아니라 일부분만 랜덤 샘플로 뽑아써도 충분한 경우가 있다. 

 

데이터 타입에 따른 데이터의 분류

어떤 데이터를 고르느냐에 있어서 어떤 데이터들이 있는지 정리해서 알고 있으면 도움이 된다. 위에 설명을 보충하기 위해 구글 데이터 애널리틱스 과정에서 소개한 각 분류 기준별 데이터의 구분 및 정의에 대해서 간략히 알아보자. 

 

구분 1 정의 예시
1차 데이터
(Primary Data, First-Party Data)
본인이 직접 연구 등을 통해 수집된 데이터 - 인터뷰를 통해 수집한 데이터
- 20명의 설문 참여자를 통해 수집한 설문조사 결과
2차 데이터
(Secondary Data, Second/Third- Party Data)
타인 또는 다른 연구를 통해 수집된 데이터 - 데이터 마켓플레이스 등 데이터 판매 업체로부터 구매한 고객 정보
- 정부가 수집한 인구조사 정보

 

구분2 정의  예시
내부 데이터
(Internal Data, First-Party Data)
사내 시스템 통해 기존에 보유하고 있는 데이터 - 매장별 매출 데이터
- 거점 창고별 재고 수준 데이터
외부 데이터
(External Data, Second/Third- Party Data)
회사 또는 단체 외부에 있는 데이터 - 전국 산업/직위별 평균 임금 자료
- 신용평가원에서 관리하고 있는 개인 신용도 정보

 

구분3 정의 예시
연속적 데이터
(Continuous Data)
연속성이 있게 측정된 데이터  - 4월 한달 간 평균 기온
- 2019년부터 2022년까지 매출 추세
비연속적 데이터
(Discrete Data)
특성, 특정시점에 따라 비연속적으로 측정된 데이터 - 시군구별 주민의 월 평균 치킨소비량
- 요일별 병원을 방문하는 사람들의 수

 

구분4 정의 예시
정성적 데이터
(Qualitative Data)
특성 등에 대해 주관적이고 기술적인 측정값이 있는 데이터 - 20명의 최근 가장 감명 깊게 읽은 책 5권
- MZ세대의 최신 유행 패션
정량적 데이터
(Quantitative Data)
수치화 가능한 구체적이고 객관적인 측정값이 있는 데이터 - 포춘 500대 기업 내 여성임원의 비중
- 100제곱미터 당 개미의 수

 

구분5 정의 예시
명목 데이터
(Nominal Data)
불연속적이며 순서가 없는 데이터 - 최초 방문고객/재방문 고객/ 단골 고객 명단
- 신규 지원자/기존 지원자/내부 전배지원자
순서 데이터
(Ordinal Data)
연속적이고 순서가 있는 데이터 - 최근 개봉한 영화의 평점 (5점 만점)
- 대선 후보별 선호도 (1/2/3위)

 

구분6 정의 예시
정형 데이터
(Structured Data)
열과 행 등 특정한 형태로 정돈이 되어 있는 데이터 - 회사 DB에 저장된 4월 한달간 인보이스 데이터
- 매장 재고 목록
비정형 데이터
(Unstructured Data)
정리되어 있지 않고, ID 등을 확인하기 어려운 데이터 - SNS에 등록된 글
- 유튜브에 등록된 최신 영상 10만건