본문 바로가기

데이터 분석

데이터 분석 4단계: 분석 (Analyze)

 

데이터가 수집되고, 클리닝을 통한 전처리가 끝났다면 분석을 해야 한다. 데이터 분석 단계를 어떻게 정의하느냐에 따라 ‘분석’ 단계에서 하는 일에 차이가 있을 수 있다. 여기에서는 기존 6단계 구분법에 의해 ‘데이터 처리(Process)’와 ‘공유(Share)’ 단계의 중간에 있는 ‘분석’ 단계에 대해서 설명하도록 하겠다.

 

데이터 분석의 유형

분석의 목적에 따라 데이터 분석을 크게 4가지 유형으로 나눌 수 있다. 설명분석과 진단분석은 과거의 데이터에 대한 해석이 주목적이고, 예측분석과 처방분석은 미래에 대한 의사결정을 위한 자료 제공이 주목적이다. 현업에서는 한 가지만 하는 경우는 거의 없으니 개념적인 이해를 위해 알아보자.

  • 설명분석 (Descriptive Analysis)
    : 이전에 일어났던 일에 대해 해석을 하고, 설명하기 위해서 분석을 한다. 작년 매출이 주로 어떤 제품군에서 발생했는지, Top 10 고객은 누구인지 등에 알아보는 것이 대표적인 예이다.

  • 진단분석 (Diagnosis Analysis)
    : 단순한 설명에서 조금 더 들어가 내외부 변수와의 인과관계를 분석한다. 매출 상승이 있었다면, 주요 상승 요인은 무엇이며, 각 요인의 영향도는 어떠한지를 파악하는 것이다.

  • 예측분석 (Predictive Analysis)
    : 과거에 대한 데이터를 분석하였다면, 통계기법이나 머신러닝 등을 적용한 모델링을 통해 발생 가능한 미래에 대한 예측을 한다. 즉, 과거 데이터를 사용하여 시뮬레이션을 하고, 적절한 모델을 구축하는 과정이 필요하다. 매출에 대한 분석이 끝났다면, 매출에 영향을 주는 요인들과 매출의 상관관계를 반영한 모델을 구축하고 예상매출을 만들어 낸다.

  • 처방분석 (Prescriptive Analysis)
    : 예측분석과 비슷하나, 의사결정을 위한 결론까지 도출해 낸다는 점에서 다르다. 만들어진 예상매출이 기업의 생존에 충분한지 판단한 후, 추가 매출을 위해 어떤 활동을 해야 하는지에 대한 방향까지 제시해 준다.

 

데이터 분석의 방법 1

데이터 분석의 방법도 기준에 따라 다양하게 나뉠 수 있다. 우선 정량적인 데이터 분석과 정성적인 데이터 분석으로 나눌 수 있다. 한 가지 방법만으로 충분할 수도 있지만, 상황에 따라 혼합된 방법으로 최적의 분석 결과를 얻어낼 수도 있다.

  • 정량적 데이터 분석 (Quantitative Analysis)
    : 수치 기반의 데이터를 바탕으로 분석하는 방법이다. 명확하게 수치화된 데이터를 가지고 분석하기 때문에, 적절하게 수치화된 데이터가 필요하다. 수치화될 수 없는 부분은 적절한 수치화할 방법을 찾아야 하지만, 현실에서 항상 수치화된 데이터를 얻을 수 있는 것은 아니기 때문에 한계가 있을 수 있다.

  • 정성적 데이터 분석 (Qualitative Analysis)
    : 수치가 아닌 정성적인 데이터를 기반으로 데이터를 분석하는 방법이다. 설문조사 결과에 있는 답변이나, SNS 상에 있는 글들을 분석하는 경우가 해당된다. 데이터 자체에 대한 모호성이 있을 수 있기에 객관성이 부족하다는 단점이 있다.

 

데이터 분석의 방법 2

조금 더 구체적인 방법을 기준으로 나눈다면 아래와 같이 나눌 수 있다. 개인적으로는 시각화 활용이나 탐색적 자료 분석이 기본이고, 모델링이 필요한 상황에서는 통계분석이나 머신러닝 등이 추가되는 정도로 알고 넘어가면 된다고 본다.

  • 데이터 시각화 활용
    : 차트, 그래프를 통해서 인사이트를 얻어내고 분석 결과를 얻어낸다. 경험이 없으면 처음 만든 시각화물에서 아무것도 얻지 못할 수 있다. 그럴 땐 이것저것 만들어 보면서 경험을 쌓으면 된다. 시각화는 데이터 분석의 다음 단계 ‘공유(share)’에서도 사용되므로 잘 만들어두면 좋다.

  • 탐색적 데이터 분석 (EDA, Exploratory Data Analysis)
    : 라고 쓰고 ‘노가다’로 읽으면 된다. 하지만 실제로는 가장 많이 사용되는 방법이다. 데이터를 이리저리 굴리고 조합해 가면서 분석한다.

  • 통계분석 (Statistical Analysis)
    : K-Mean 또는 UMAP 등을 사용해서 클러스터화 하거나, 회귀분석 (Linear Regression), 시계열화 (Time Series) 등을 통한 분석을 한다.

  • AI & 머신러닝 활용
    : 통계분석 기법이 머신러닝의 기본이 된다는 점에서 큰 틀에서는 비슷하다고 볼 수 있으나, 조금 더 발달한 머신러닝 기법이나, 이미 구축된 AI를 통해 분석한다.

 

데이터 분석의 핵심

기술적인 면이 데이터 분석의 핵심일까? 물론 코딩을 잘 하거나, 시각화 등의 툴을 잘 사용한다면 유리한 점이 있다. 하지만 데이터 분석 결과를 들고 부장님께 가면, 전혀 생각하지 못했던 신박한 지시를 내리실 때가 있다. 결국은 경험 및 경험에서 만들어진 표준화된 시각, 사고의 유연화 및 통섭을 통한 인사이트 도출이 꼭 필요하다. 또한 데이터 분석 업무의 목적을 얼마나 잘 달성했느냐를 항상 고민해야 한다. 알고 싶은 것을 알아냈는가, 분석 결과가 어떤 부가가치를 주고 있는가, 의사결정을 위한 훌륭한 자료가 될 수 있는가 등은 반드시 스스로 물어야 한다.