본문 바로가기

데이터 분석

데이터 분석의 6 단계

 

 제목만 보고 벌써 지루해졌을지도 모르겠다. 하지만 그냥 그렇구나 정도로 쉽게 훑어보면서 넘어가자. 읽고 나면 이미 여러 번 해 봤던 과정일 수도 있다. 

 

구글에서 정의하고 있는 데이터 분석의 6단계는 다음과 같다.

 

  1. 문제제기 (Ask)
  2. 준비 (Prepare)
  3. 처리 (Process)
  4. 분석 (Analyze)
  5. 공유 (Share)
  6. 실행 (Act)

이름을 잘 붙여 놓았지만, 결국 문제나 목적이 있었기 때문에 데이터 준비해서 분석했고, 분석 결과를 누군가와 공유한 후에 잘했는지 못했는지 봤다는 얘기다. 여러 웹사이트를 돌아다니다 보면 일부 단계가 합쳐져 있거나 이름이 다를 수 있지만, 결국 큰 흐름에서는 별 차이가 없다.

 

이제 각 단계에 대해서 추가 설명을 해보자. 

 

1. 문제제기 (Ask)

구글로 시작했으니, 구글에서 말하는 문제제기에 대한 설명을 더해보자. 

 

  • 해결하고자 하는 문제를 정의한다.
  • 문제와 관련된 이해당사자들이 기대하는 바를 완전히 이해하라. 이를 위해서 그들과 지속적으로 소통하고 협업한다.
  • 실질적인 문제에 집중하고, 그 외의 것들은 과감하게 버린다.
  • 문제 자체에 매몰되지 말고, 한 걸음 뒤로 물러나서 전체적인 맥락을 본다.

적절한 질문을 할 줄 알아야 그 다음 단계로 넘어갈 수 있다. 회사 생활을 하면서 여러 직원들과 일을 해보았다. 일을 잘하는 직원과 그렇지 않은 직원은 안타깝게도 '문제정의'에서부터 차이가 난다. 동일한 문제를 놓고도 헛다리를 짚어 생각지도 못한 구석에서 끙끙거리고 있는 사람들이 한 둘이 아니다. 그러니, 당연한 이야기이지만 문제제기가 제일 중요한 단계이다. 요즘같이 언제든지 스마트폰으로 인터넷에 접속할 수 있는 세상에서는 깊이 생각하는 훈련이 모두에게 부족하다. 이와 관련하여 조훈현의 『고수의 생각법』을 읽어보길 추천한다.

 

2. 준비 (Prepare)

문제는 알았으니 어떤 데이터를 모아야 하는지 결정해야 한다. 대부분의 경우 데이터는 한가지가 아니고 여러 출처에서 나온 다양한 형태를 띄고 있을 것이다. 준비 단계에서는 다음과 같은 고민을 하고 수집된 데이터를 잘 정리해야 한다. 

 

  • 문제를 해결하기 위해 어떤 데이터를 어디에서 가지고 올 것인가
  • 기존에 존재하는 데이터가 없다면, 어떤 방법을 통해 추가로 데이터를 확보할 것인가
  • 확보된 데이터에서 어떤 값을 측정할 것인가
  • 수집된 데이터를 어디에 어떻게 저장할 것인가
  • 저장된 데이터를 어떻게 안전하게 관리할 것인가

 

3. 처리 (Process)

전처리라고 하면 더 와닿겠다. 이 단계에서는 실질적인 분석을 하기 전에 데이터를 가다듬는다(Clean-up). 회사의 데이터베이스에 있는 데이터이든, 공공데이터(Public Data)이든, 아니면 어떤 다른 형태의 대안데이터(Alternative Data)이든 현실 세계에서의 데이터는 대부분 불완전하다. 즉, 에러가 많이 있고, 같은 종류의 데이터에도 엉뚱한 값이 들어가 있거나 서식이 다를 수 있고, 비어 있는 값이 있을 수 있다. 그 상태에서 그대로 데이터 분석을 하면 가끔 실제와 다른 엉뚱한 결과가 나오게 되므로 전처리 과정은 필수이다. 경험이 별게 아닐 수 있지만, 경험이 있는 사수와 신입의 차이는 여기에서도 생긴다. 노련한 사람은 각 출처에서 나온 데이터에서 어디를 손봐줘야 할지 쉽게 알아차릴 수 있다. 하지만 경험이 부족한 사람의 경우 전처리에서 애를 먹는다. 다음 단계인 분석의 단계를 거쳐야 뭔가 잘못되었다는 걸 알아차리고 다시 뒤로 넘어와 데이터를 다듬다보면, 어느 새 사무실에 혼자 있는 자신을 발견하게 된다. 

 

  • 엑셀을 사용하고 있다면, 필터 등 기본기능을 사용하여 잘못 입력된 데이터를 찾아낸다.
    :동일한 항목이 중복되어 있는지, 각 항목별 이상한 값이 들어가 있는지, 입력된 값에 스페이스가 있는지, 'N/A'가 있는지 등등
  • SQL을 사용할 수 있다면 더 큰 사이즈의 데이터를 수정할 수 있다.
  • 데이터 자체에 편향(Bias)이 있지 않은지 한 번 더 살펴본다.

데이터는 특정 의견이 반영되지 않은 순수한 Raw Data이어야 하고, 입력된 값들은 항목별로 통일성이 있어야 한다. 수집된 데이터의 어디를 손봐야 하는지 아는 것도 중요하지만, 문제점을 발견한 후에 어떻게 효율적으로 처리해야 하는가도 중요하므로 많은 연습이 필요하다. 

 

4. 분석 (Analyze)

실질적으로 데이터를 가지고 이리저리 돌려보며 인사이트를 찾아내는 단계이다. 데이터를 정렬하고, 원하는 형태로 만든다. 

 

  • 주어진 데이터로 어떻게 성과 측정을 위한 계산을 고안해 낼 것인가
  • 여러 데이터들을 어떻게 합쳐낼 것인가
  • 분석된 결과물은 어떤 형태로 정리될 수 있는가

인사이트를 찾아내는 방법은 다양할 수 있다. 사람마다 차이가 있을 수도 있고, 상황에 따라 다를 수도 있다. 어떤 경우에는 'A-ha Moment'가 와서 유레카를 외칠 수도 있고, 어떨 때에는 내가 이 데이터를 가지고 어떤 얘기를 하고 싶은지 깊이 묵상할 때 얻기도 한다. 

 

5. 공유 (Share)

분석된 결과가 종종 한 사람의 머릿 속을 떠나지 않을 때가 있다. 임팩트가 있어서가 아니다. 그 사람 말고는 이해를 못해서이다. 공유의 단계에서는 그걸 어떻게 효과적으로 다른 사람의 머리로 전달할지를 고민하는 단계이다. 

 

  • 어떻게 보여줘야 이해당사자들이 쉽게 이해할 것인가
  • 어떻게 보여줘야 본 사람들이 더 나은 의사결정을 할 수 있을까
  • 결론을 어떻게 강조하면 좋은가

5~6쪽짜리 워드 파일을 작성해서 보여줘야 할 때도, 1장짜리 훈민정음 요약본을 작성해야 할 때도, 다양한 형태의 파워포인트로 전달해야 할 때도 있지만, 결국은 '어떻게 보여줘야 하는가'에 대한 고민이다. 단순하게 빽빽한 글로만 전달하고자 한다면 의도한 바가 이루어지지 않을 수 있다. 인간은 기본적으로 자기애가 넘친다. '나의 시간'이 침해받는 걸 무척 싫어한다. 특히 그런 상황에 대해서 불만을 쉽게 얘기할 수 있는 윗 분들의 경우에는 더더욱 그렇다. 그러니 적절한 표와 그래프는 필수이다. 단순히 엑셀에서 제공하는 차트 기능을 사용해도 되지만, 타블로(Tableau), MS Power BI, Looker 등의 전문 Visualization Tool을 배워보자. 또는 Python이나 R에서 제공하는 Package를 사용해도 된다. 단순하게 화려하기만 하면 안된다. 언제나 스토리텔링의 선 상에 있어야 한다. 관심이 있는 사람은 원서인 『Storytelling with Data』를 읽어보기 바란다. 

 

6. 실행 (Act)

분석된 결과를 그 분들께 보고했으니, '그래서 어쩌라고?'라는 질문이 나올 차례다. '이렇게 하시면 됩니다'라는 내용을 제시해주는 단계가 '실행'단계이다. '데이터에 의한 의사결정(Data-driven Decision)'이 이런 것입니다라고 멋있게 보여주자. 

 

 

생각보다 설명이 길어졌다. 하지만 다 읽고서 알았겠지만 이미 하고 있는 것들이다. 그냥 어디가서 "데이터 분석에는 6단계의 과정이 있습니다"라고 말하고 싶다면 신경써서 보고, 아니면 그냥 넘어가도 된다.