본문 바로가기

데이터 분석

데이터 분석 1단계: 문제제기 (Ask) - 문제의 유형들

 

 

데이터 분석의 문제들:

개인의 호기심이었던지, 직장 상사가 하라고 시켰던지, 아니면 누군가를 위해 해주고 싶어서 시작했을 수도 있다. 어찌 되었든 데이터 분석을 하게 되었으니, 첫 단계부터 밟아 보자. 앞 선 글 '데이터 분석의 6단계'(https://double-d.tistory.com/3)에서 말했듯이 데이터 분석의 첫 단계는 문제제기를 통한 올바른 문제정의인데, 보통 어떤 유형의 문제들이 나오는지 알아보자. 여기서 보여주는 각 유형별 예시는 다른 유형들과 일부 중복이 있을 수 있고, 대략적인 감을 잡기 위함이다.

 

[유형 1] 예측하기 (Making Prediction) 

회사의 경영에 있어 미래 사업환경이 어떻게 될지, 지금 하고 있는 사업 아이템이 미래에서는 잘 팔릴지, 어떤 신사업을 준비해야 할지 등은 매우 중요한 문제이다. 또한 어떤 사업활동을 했을 때 어떤 효과를 얻을 수 있는지도 선행적으로 검토해야 한다. 이런 문제와 관련된 유형이 '예측하기'이다. 

 

예를 들어보자.


회사 A는 마케팅 회사이다. 최근 안마기 회사 B로부터 마케팅 의뢰를 받았다. 회사 B는 신생회사로 얼마 전에 부착형 저주파 안마기를 만들었다. 회사 B는 새로운 안마기의 효과적인 광고를 위해 회사 A에 의뢰를 했다. 회사 A는 의뢰 접수 후, 해당 제품을 어디에 광고해야 할지 고민했다. 그래서 기존에 광고되었던 제품들의 카테고리 별로, 각 광고 매체별 광고 효과 데이터를 정리하여 비교하였다. (중간과정 생략) 비교 결과 네이버 배너 광고가 가장 효과가 좋은 것으로 나타났다. 결국 회사 A는 의뢰 회사인 회사 B에 네이버 배너 광고를 제안했다.

 

[유형 2] 분류하기 (Categorizing things)

해결해야 할 문제가 너무 생소하고 크게 느껴질 때, 쉽게 문제에 접근할 수 있는 방법 중 하나가 '분류하기'이다. 큰 덩어리로 있을 때는 보이지 않다가, 잘게 부수고, 비슷한 유형끼리 모아 놓으면 해결의 실마리가 보일 때가 있다. 고객 유형별로 분류하기, 인력풀 관리를 위해 내부 직원들 구분하기 등이 그 예가 될 수 있다. 

 

예를 들어보자. 


회사 C는 전국에 60개 점포를 가지고 있는 중저가 의류 전문 회사이다. 팬데믹으로 인해 사람들의 외출이 줄자 회사 C의 매출은 크게 감소했다. 다행히 최근 정부의 리오프닝 (re-opening) 및 규제완화 방침에 따라 사람들의 외부 활동이 늘어 매출이 회복하고 있는 추세이다. 회사는 여세를 몰아 팬데믹 이전보다 매출 규모를 확대하려고 한다.  회사 C의 경영진은 회사 내 기획팀에게 매장 방문 고객의 행동 패턴을 분석하여 그 결과를 마케팅팀에 전달하도록 했다. Raw data는 2005년부터 2019년까지의 시간대별 방문 고객의 연령 및 구매내역이 들어 있다. 기획팀은 데이터 분석을 통해 고객군을 3 그룹으로 분류해 놓았다. 첫 번째 그룹은 ......

 

[유형 3] 특이점 발견하기 (Spotting something unusual)

데이터와 함께 맞이할 수 있는 또 다른 전형적인 문제는 특이점 발견하기이다. 특정 데이터를 지속적으로 입력받을 수 있는 준비가 되어 있다면, 이후에는 특이점과 일반적인 데이터 간의 차이를 구별해 내야 한다. 카드 도용 의심사례 검출, 스마트워치 등에서 모니터링한 데이터에서 특이점 발견하기 등이 그 예이다. 요즘에는 카드 도용 의심사례나, 타인에 의한 로그인 의심 사례 등이 발생 즉시 경고 이메일이나 메시지가 발송되지만, 원리는 특이점 발견하기의 하나로 볼 수 있으니 예시 중 하나로 적었다. 

 

그래도 추가로 예를 들어보자.


회사 D는 저가형 스마트워치로 시장 내 독보적인 위치를 차지하고 있다. 하지만, 최근 늘고 있는 저가형 스마트워치로 시장 점유율이 위협받고 있다. 저렴한 가격 때문에 정밀한 센서를 탑재하지 못했지만, 회사는 데이터 분석을 통해 그 차이를 보완하려고 한다. 회사는 기존 사용자들로부터 수집한 데이터를 통해 몸무게 120Kg 이상 남성에게서만 취침 직후 20분 내에 나타나는 특이 심박수가 있다는 것을 알게 되었다. (중간 생략) 회사 D는 해당 특이점이 발견되면 바로 기기 및 사용자 계정 이메일로 알려주는 서비스를 추가하였다.

 

[유형 4] 테마 정의하기 (Indentifying Themes)  

이 유형은 분류하기와 비슷할 수도 있다. 차이가 있다면 분류하기는 각각의 아이템에 대해서 공통되거나 비슷한 속성을 발견하여 묶어주는 것이지만, 테마 정의하기는 한 단계 더 나아가 분류된 것들을 특정 테마로 이름 붙여서 더 직관적인 이해가 가능하게 만들어 주는 것이다.

 

예를 들어보자.


회사 E는 자기소개서를 분석하여 개선점을 제시해주는 서비스를 런칭하려고 한다. 사내 데이터 분석가는 수집된 샘플 자기소개서에서 특정 문장을 뽑아내, 불확실한 설명이나 서두와 다른 결말 등 전문성이 떨어져 보일 수 있는 단어/문장을 분류해냈다. 여기서 특정 단어/문장을 '불확실한 설명', '내용 불일치' 등으로 분류하는 형태가 '분류하기'이고, 분류된 것들을 '전문성 부족'이라는 테마로 정의해주는 형태가 '테마 정의하기'이다.

 

[유형 5] 연결점 찾기 (Discovering Connections)

회사가 목표로 하는 바를 이루기 위해서는 어떤 지표를 관리하면 될까? 이 질문이 '연결점 찾기'이다.

 

예를 들어보자.


회사 F는 중국 전역에 10개의 물류센터를 가지고 있는 자동차 AS부품회사이다. 최근 회사는 고객들로부터 주문 후 2일 내 배송이라는 계약 사항이 잘 지켜지지 않는다는 불만을 접수하였다. 배송 시간을 단축하기 위해 관련 데이터를 분석한 결과, 물류센터를 출발한 트럭이 배송 허브에서 지연이 주된 원인임을 알게 되었다. 따라서 회사는 계약된 물류사에게 해당 사항의 개선을 요청하는 공문을 발송하였다.

 

[유형 6] 패턴 찾기 (Finding Patterns) 

데이터 내 특정한 패턴을 발견하여 유의미한 결과로 이어짐을 보여주길 바라는 것이 '패턴 찾기' 유형의 문제이다.

 

예를 들어보자.


회사 G는 Tier 1 자동차 부품회사로, 최근 증가하는 전기차의 추세에 맞춰 배터리를 관리해주는 솔루션을 판매하려고 한다. 이를 위해 기존 운행되고 있는 전기차로부터 시간별 주행특성 및 배터리 충전형태 등 다양한 데이터를 입수하였다. 이를 통해 배터리의 수명을 최대한 늘릴 수 있는 주행 및 충전 패턴을 발견하였다. 회사 G는 발견한 패턴을 지속적으로 전기차 운전자의 대시보드에 띄워주고, 관리 앱에도 추천 패턴과 현재 사용자의 패턴과 비교해해서 보여주게 되었다.