본문 바로가기

전체 글

(37)
데이터 분석 3단계: 처리(Process) - 데이터 클리닝 앞 선 글에서도 몇 번 언급되었지만, 정제되지 않은 데이터에서는 엉뚱한 분석 결과가 나올 가능성이 크다. 'garbage data in' 하면 'garbage data out'이라고 봐야 한다. 데이터 클리닝(Data Cleaning)은 데이터 정제(Data cleansing, Data scrubbing)라고도 하고, 데이터 분석에서 필수로 수행해야 하는 작업이다. 아래는 타블로(Tableau)에서 데이터 클리닝 관련하여 제공하고 있는 학습자료에서 일부 발췌하고 내용을 덧붙였다. 데이터 클리닝은 무엇인가 데이터 소스가 하나인데 자체가 제대로 관리되지 않았을 수 있다. 엉뚱한 항목에 엉뚱한 값이 들어가 있거나, 제품 등록할 때 시간이 없다고 일부 항목을 누락한 채로 등록하였을 수 있다. 각각의 데이터가 제..
데이터 분석 3단계: 처리(Process) - 데이터 문제 데이터와 관련된 이슈들 1. 데이터 부재 분석은 하고 싶으나, 데이터 자체가 없을 수 있다. 이럴 때는 어떻게 하는게 합리적인 방법일까? 솔루션1) 우선 시간과 자원이 허락되는 내에서, 작은 범위의 데이터라도 수집하여 분석해 본다. 그러면서 동시에 더 많은 데이터를 수집할 수 있는 추가 시간을 요청한다. 솔루션2) 만약 전혀 시간이 없는 상황이라면, 유사한 대체 데이터를 찾아서 분석한다. 2. 데이터 부족 데이터가 있기는 있는데, 부족하다. 나는 리트리버에 대한 데이터가 필요한데, 리트리버에 대한 데이터가 너무 부족하다. 솔루션3) 그럴 땐 임시로 라브라도에 대한 데이터도 합쳐서 본다. 하지만 주의해야 한다. 섞인 데이터로 인해서 실제와는 다른 분석 결과가 나올 수도 있기 때문이다. 솔루션4) 그리고 가..
데이터 분석 2단계: 준비 (Preparation) - DB, 데이터베이스 데이터베이스(DB, Database)란? 데이터를 준비하기 전에 데이터를 담고 있는 데이터베이스가 무엇인지 알아보자. 네이버 검색을 통해 나온 두산백과에서 정의하고 있는 데이터베이스란 아래와 같다. 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합을 말한다. 자료항목의 중복을 없애고 자료를 구조화하여 저장함으로써 자료의 검색과 갱신의 효율을 높인다. 현대적인 의미의 데이터베이스 개념을 확립한 사람은 당시 제너럴일렉트릭(GE)에 있던 C. 바크만으로 그는 1963년 IDS(Integrated Data Store)라는 데이터베이스 관리 시스템을 만들었다. 다시 말해서, 논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조화함으로써 검색과 갱신의 효율화를 꾀한 것이 데..
오픈 데이터 소스 오픈 데이터 (Open Data) Second 또는 Third-Party 데이터의 가격은 비싸다. 수집하는데 많은 노력이 들뿐만 아니라, 데이터 검수하는데도 적지 않은 주의와 자원이 필요하기 때문이다. 이러한 이유로 일반인들은 데이터 구매에 대한 생각조차 하기 쉽지 않다. 다행히 정부와 학계, 단체에서 제공하는 양질의 오픈 데이터를 무료로 구할 수 있다. 오픈 데이터는 제공하는 주체에 따라 크게 3가지 분류가 있다. 첫째, 정부 주도 공공 데이터이다. 둘째, 기타 범정부 기관 및 학계, 단체 등에서 제공하는 무료 데이터도 있다. 셋째, 사기업에서 제공하는 데이터이다. 대부분의 빅테크 기업이 제공하고 있다. 첫째, 정부 주도 공공 데이터 우리나라 정부도 데이터의 중요성을 강조하면서 몇 년 전부터 공공데이터..
데이터 분석 2단계: 준비 (Preparation) - 데이터 구하기 분석을 위한 데이터는 어떻게 구할 것인가. 내부 데이터를 사용하면 문제는 비교적 간단하다. 하지만 대부분의 경우 내부 데이터만으로는 부족할 수 있다. 때로는 외부에 있는 자료를 직접 찾거나, 다른 회사로부터 구매해야 할 수도 있다. 데이터 소스를 골라야 한다. 자체 생성/수집할 수 있는 데이터를 First-party Data라고 한다. 아쉽게도 그것만으로는 부족할 수 있고, 앞서 말했듯이 내부 데이터 외의 데이터를 구해야 하는 상황이 온다. First-Party와 구분되는 2가지 데이터가 더 있다. 다른 개인/단체/회사에서 직접 수집하여 판매하는 데이터를 Second-Party Data, 본인들이 수집하지 않았지만 여러 가지 데이터를 한꺼번에 취급하면서 다른 개인/단체/회사가 수집한 데이터를 판매하기도 ..
데이터 분석 1단계: 문제제기 (Ask) - 외부팀과의 협업 구멍가게가 아닌 이상, 대부분의 분석 업무는 타부서 또는 타회사와의 협업이 필수이다. '데이터 분석 1단계: 문제제기 (Ask) - 질문에 대하여' (https://double-d.tistory.com/6)에서 외부용 질문에 대해 잠깐 언급하였다. 이번 글에서는 그 내용을 좀 더 자세하게 설명하겠다. 외부팀과의 협업을 위해서 어떤 점들을 주의해야 할까? 효과적인 커뮤니케이션을 위한 고려사항 커뮤니케이션학과도 있고, 커뮤니케이션 전문가도 있다. 학문이 되고, 전문가가 필요할 만큼 타인과의 소통은 어려우면서 중요하다. 유관부서/경영층/의뢰인 등인 Stakeholder 또는 팀원들과 어떻게 소통해야 할까 예기치 못한 상황에 대비하라 분석 프로젝트를 시작하기 전에 예상되는 어려움에 대한 목록(Risk List)..
데이터의 삶: 탄생과 죽음 어디 가서 데이터에 대한 공부 좀 했구나라는 소리를 듣기 위해 필요한 정보를 공유한다. 데이터의 생애 주기(Data Life Cycle) 6단계가 있다. 단계는 설명하는 방법이나 기관에 따라 달라질 수 있으나, 큰 틀에서는 비슷하다. 아래 데이터 생애 6단계는 구글 데이터 애널리틱스 과정에서 소개하고 있는 내용이다. 1. 계획(Plan) 데이터 수집 활동 전에 어떤 데이터가 필요하고, 어떻게 수집할 것이며, 수집된 데이터는 어떻게 사용할 것인지, 각 단계에서 누가 관여하고 관리하게 될지 등을 미리 계획한다. 당연한 얘기이지만, 고민 없이 시작된 데이터 수집은 불필요한 업무의 반복을 초래할 수 있다. 또한, 어차피 각 단계를 지나면서 현실적이고 세부적인 문제들에 부딪혀 처음에 계획했던 바와 달라질지언정 계..
빅데이터란? 잠시 쉬어가는(?) 의미에서 우리가 다뤄야 할 데이터에 대해 알아보자. 빅데이터? 온갖 미디어에서 '빅데이터'가 끊이지 않고 나온다. 세상이 정말 그 정도로 데이터가 중요한 세상이 되었을 수도 있다. 아니면 가끔이나마 유튜브에서 검색했던 흔적이 알고리즘의 간택을 받아 튀어나오는 것일 수도 있다. 만약 둘 다라면 딱 한걸음만 옮겨보자. 눈에 자꾸 보이는 김에 그 잘난 세상의 데이터에 발 하나라도 걸쳐보자. 빅데이터 얘기는 계속 나오고, 추천 영상도 나오는데 아직도 뭐가 뭔지 모르겠다. 회사에서 다루고 있는 데이터도 모니터를 부숴버리고 싶을 만큼 PC를 버벅거리게 하는데 혹시 이게 빅데이터인가. 웹을 돌아다니다 보면 빅데이터의 특징을 3V로 설명하거나, 4V, 5V를 늘어 놓는 사람도 있다. Volume (..