본문 바로가기

데이터 기본

데이터의 삶: 탄생과 죽음

어디 가서 데이터에 대한 공부 좀 했구나라는 소리를 듣기 위해 필요한 정보를 공유한다. 

 

 

데이터의 생애 주기(Data Life Cycle) 6단계가 있다. 단계는 설명하는 방법이나 기관에 따라 달라질 수 있으나, 큰 틀에서는 비슷하다. 아래 데이터 생애 6단계는 구글 데이터 애널리틱스 과정에서 소개하고 있는 내용이다. 

 

출처: 파워포인트 사용해서 내가 만든 이미지

 

1. 계획(Plan)

데이터 수집 활동 전에 어떤 데이터가 필요하고, 어떻게 수집할 것이며, 수집된 데이터는 어떻게 사용할 것인지, 각 단계에서 누가 관여하고 관리하게 될지 등을 미리 계획한다. 당연한 얘기이지만, 고민 없이 시작된 데이터 수집은 불필요한 업무의 반복을 초래할 수 있다. 또한, 어차피 각 단계를 지나면서 현실적이고 세부적인 문제들에 부딪혀 처음에 계획했던 바와 달라질지언정 계획이 없는 것보다는 있는게 낫다. 

 

첨언:
데이터 생애주기에서 계획을 빼고 바로 생성부터 시작하는 경우도 있는데, 그럴 수도 있다. 어쩌다 보니 태어났다는건데, 어디서 많이 들어보지 않았나. 

 

 

2. 수집(Capture)

계획을 세웠으니 실행을 해야 한다. 실행의 첫 단계는 데이터 수집이다. 이전 글 '빅데이터란?' (https://double-d.tistory.com/7)에서 말했 듯이, 다양한 데이터 소스가 있다. 서베이 몽키 등을 통한 설문조사 결과, 정부 주도로 준비된 공공데이터, 연구소 등에서 오픈소스로 개방한 데이터, 특정 스마트 디바이스를 통해 수집된 데이터, IoT 기기를 통해 수집된 데이터 등등. 계획 단계에서 잘 설계했다면 필요한 정보를 얻기 위한 적적할 데이터의 조합을 어딘가로부터 뽑아내야 한다. 이 단계를 Generataion이나 Creation으로 말하기도 한다. 

 

첨언:
데이터를 수집할 때에는, 데이터의 온전성(Integrity), 신뢰성(Credibility)에 대해 잘 검토되어 한다. 그리고 이미 중요해졌고, 앞으로도 더 중요해질 개인정보 보호는 잊지 말자. 

 

 

3. 관리(Manage)

수집된 데이터를 어떻게 관리해야 할지, 어떤 프로그램이나 툴을 사용해서 다루는게 데이터의 손실 없이 잘 관리하는 것인지, 일회성 데이터가 아니라 지속적으로 수집되는 데이터 소스를 준비하였다면, 어떻게 유지보수를 할지 등에 대해 고민하고 실행한다.

 

첨언:
어느 회사이든 처음에는 데이터 베이스가 잘 구축이 된다. 하지만 구축되고 난 후에 유지보수가 안되는 경우가 태반이다. 제품 번호가 들어가 있어야 할 자리에 제품명이나 엉뚱한 정보가 들어가 있기도 하고, 기본 가이드도 지키지 않아 누락된 정보도 점점 많아진다. 데이터 테이블의 업데이트 주기도 적절히 관리되어야 한다. 필요한 데이터가 있어서 해당 테이블을 사용했는데, 가장 최신 데이터가 1년 전 것만 있다면 제대로 쓰지 못할 수 있다. 

 

 

4. 분석(Analyze)

데이터는 '독립적으로 존재하는 가공되지 않은 사실'이다. 이 데이터가 정보나 지식으로 되기 위해서는 분석 과정이 필요하다. 의식적이고 의도적으로 수집된 데이터는 정보나 지식에 대한 필요가 있었기 때문에 존재한다. '데이터를 그 수신자에게 의미 있는 형식으로 처리한 것'이 정보이고, '상황에 따라 필요한 결정과 행동을 끌어내는 법칙, 절차 등의 집합체'로 해당 분야에 관한 오랜 교육과 경험으로부터 형성되는게 지식이다. 

 

첨언:
데이터의 생애 주기에서 '분석'은 스트라이커와 같은 느낌이다. 스트라이커가 골을 못 넣어도 문제이지만, 공이 스트라이커에게 가지 않아도 문제이다. 분석을 위한 데이터 해석 능력과 통섭에 의한 인사이트는 중요하지만 다른 단계들의 중요성도 간과하지 말자.

 

5. 저장(Archive)

분석된 데이터는 원본 데이터와 함께 그 결과를 잘 보존해야 한다. 보존할 때에는 단순 저장의 목적만 생각하면 안된다. 저장해서 어디에 쓸 것인가. 나중에도 쉽게 찾아서 볼 수 있도록 인덱싱을 해 놓는 등의 고민이 필요하다. 

 

첨언:
많은 시간을 들여 분석업무를 끝냈고, 관련 데이터나 자료들도 다양하게 참고되었다. 그런데 얼마 후 비슷한 분석업무를 해서 이전 자료를 찾아보는데, 안 찾아진다. 뭐가 어디에 있는지 모르겠다. 이런 일은 현실에서 부지기수로 일어난다. 일에 치여 저장이 안 되거나, 대충 아무 데다 저장했을 수도 있고, 인덱싱이 없을 수도 있다. 여러 번 고생했다면, 더 이상 미루지 말고 고민하고 저장하자.

 

 

6. 삭제(Destroy)

언젠가는 데이터도 삭제/파기 되어야 한다. C드라이브도 다 찼고, U드라이브도 다 찼다. 어쩔 수 없이 지워야 하는 순간이 온다. 아니면 회사의 업이 하루아침에 바뀌어 예전 데이터를 누군가에게 넘겨주고, 기존에 저장된 자료는 전부 파기해야 하는 일도 있다. 아니면 단순하게 보관 기한을 넘겨서 파기가 필요하게 된 경우도 있다. 이유야 어찌 되었든 파기가 결정되었다면 확실하게 파기되어한다. 

 

첨언:
SNS에서 남겨진 전여친의 사진을 발견한 현여친 또는 와이프