본문 바로가기

데이터 분석

(11)
데이터 정리: 3가지 대표적인 특성 선택 기술 (Feature Selection) 지난 글, '데이터 정리: 5가지 대표적인 차원 축소 기술(Dimensionality Reduction)에 이어 이번에는 특성선택 기술 (Feature Selection)에 대해 간략한 내용만 알아보자. 추후에 본 글에서 언급된 각 기술에 대해 자세히 다루도록 하겠다. https://double-d.tistory.com/37 데이터 정리: 5가지 대표적인 차원 축소 기술 (Dimensionality Reduction) 데이터 분석에서 많은 양의 데이터를 처리할 때, 데이터의 차원을 축소하고 중요한 특성을 선택하는 것은 매우 중요한 작업이다. 이를 통해 모델의 복잡성을 줄이고 계산 효율성을 향상시키며, double-d.tistory.com 특성 선택도 데이터 분석에서 매우 중요한 단계이다. 이 과정은 주어..
데이터 분석 4단계: 분석 (Analyze) 데이터가 수집되고, 클리닝을 통한 전처리가 끝났다면 분석을 해야 한다. 데이터 분석 단계를 어떻게 정의하느냐에 따라 ‘분석’ 단계에서 하는 일에 차이가 있을 수 있다. 여기에서는 기존 6단계 구분법에 의해 ‘데이터 처리(Process)’와 ‘공유(Share)’ 단계의 중간에 있는 ‘분석’ 단계에 대해서 설명하도록 하겠다. 데이터 분석의 유형 분석의 목적에 따라 데이터 분석을 크게 4가지 유형으로 나눌 수 있다. 설명분석과 진단분석은 과거의 데이터에 대한 해석이 주목적이고, 예측분석과 처방분석은 미래에 대한 의사결정을 위한 자료 제공이 주목적이다. 현업에서는 한 가지만 하는 경우는 거의 없으니 개념적인 이해를 위해 알아보자. 설명분석 (Descriptive Analysis) : 이전에 일어났던 일에 대해 ..
데이터 분석 3단계: 처리(Process) - 데이터 클리닝 앞 선 글에서도 몇 번 언급되었지만, 정제되지 않은 데이터에서는 엉뚱한 분석 결과가 나올 가능성이 크다. 'garbage data in' 하면 'garbage data out'이라고 봐야 한다. 데이터 클리닝(Data Cleaning)은 데이터 정제(Data cleansing, Data scrubbing)라고도 하고, 데이터 분석에서 필수로 수행해야 하는 작업이다. 아래는 타블로(Tableau)에서 데이터 클리닝 관련하여 제공하고 있는 학습자료에서 일부 발췌하고 내용을 덧붙였다. 데이터 클리닝은 무엇인가 데이터 소스가 하나인데 자체가 제대로 관리되지 않았을 수 있다. 엉뚱한 항목에 엉뚱한 값이 들어가 있거나, 제품 등록할 때 시간이 없다고 일부 항목을 누락한 채로 등록하였을 수 있다. 각각의 데이터가 제..
데이터 분석 3단계: 처리(Process) - 데이터 문제 데이터와 관련된 이슈들 1. 데이터 부재 분석은 하고 싶으나, 데이터 자체가 없을 수 있다. 이럴 때는 어떻게 하는게 합리적인 방법일까? 솔루션1) 우선 시간과 자원이 허락되는 내에서, 작은 범위의 데이터라도 수집하여 분석해 본다. 그러면서 동시에 더 많은 데이터를 수집할 수 있는 추가 시간을 요청한다. 솔루션2) 만약 전혀 시간이 없는 상황이라면, 유사한 대체 데이터를 찾아서 분석한다. 2. 데이터 부족 데이터가 있기는 있는데, 부족하다. 나는 리트리버에 대한 데이터가 필요한데, 리트리버에 대한 데이터가 너무 부족하다. 솔루션3) 그럴 땐 임시로 라브라도에 대한 데이터도 합쳐서 본다. 하지만 주의해야 한다. 섞인 데이터로 인해서 실제와는 다른 분석 결과가 나올 수도 있기 때문이다. 솔루션4) 그리고 가..
데이터 분석 2단계: 준비 (Preparation) - DB, 데이터베이스 데이터베이스(DB, Database)란? 데이터를 준비하기 전에 데이터를 담고 있는 데이터베이스가 무엇인지 알아보자. 네이버 검색을 통해 나온 두산백과에서 정의하고 있는 데이터베이스란 아래와 같다. 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합을 말한다. 자료항목의 중복을 없애고 자료를 구조화하여 저장함으로써 자료의 검색과 갱신의 효율을 높인다. 현대적인 의미의 데이터베이스 개념을 확립한 사람은 당시 제너럴일렉트릭(GE)에 있던 C. 바크만으로 그는 1963년 IDS(Integrated Data Store)라는 데이터베이스 관리 시스템을 만들었다. 다시 말해서, 논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조화함으로써 검색과 갱신의 효율화를 꾀한 것이 데..
데이터 분석 2단계: 준비 (Preparation) - 데이터 구하기 분석을 위한 데이터는 어떻게 구할 것인가. 내부 데이터를 사용하면 문제는 비교적 간단하다. 하지만 대부분의 경우 내부 데이터만으로는 부족할 수 있다. 때로는 외부에 있는 자료를 직접 찾거나, 다른 회사로부터 구매해야 할 수도 있다. 데이터 소스를 골라야 한다. 자체 생성/수집할 수 있는 데이터를 First-party Data라고 한다. 아쉽게도 그것만으로는 부족할 수 있고, 앞서 말했듯이 내부 데이터 외의 데이터를 구해야 하는 상황이 온다. First-Party와 구분되는 2가지 데이터가 더 있다. 다른 개인/단체/회사에서 직접 수집하여 판매하는 데이터를 Second-Party Data, 본인들이 수집하지 않았지만 여러 가지 데이터를 한꺼번에 취급하면서 다른 개인/단체/회사가 수집한 데이터를 판매하기도 ..
데이터 분석 1단계: 문제제기 (Ask) - 외부팀과의 협업 구멍가게가 아닌 이상, 대부분의 분석 업무는 타부서 또는 타회사와의 협업이 필수이다. '데이터 분석 1단계: 문제제기 (Ask) - 질문에 대하여' (https://double-d.tistory.com/6)에서 외부용 질문에 대해 잠깐 언급하였다. 이번 글에서는 그 내용을 좀 더 자세하게 설명하겠다. 외부팀과의 협업을 위해서 어떤 점들을 주의해야 할까? 효과적인 커뮤니케이션을 위한 고려사항 커뮤니케이션학과도 있고, 커뮤니케이션 전문가도 있다. 학문이 되고, 전문가가 필요할 만큼 타인과의 소통은 어려우면서 중요하다. 유관부서/경영층/의뢰인 등인 Stakeholder 또는 팀원들과 어떻게 소통해야 할까 예기치 못한 상황에 대비하라 분석 프로젝트를 시작하기 전에 예상되는 어려움에 대한 목록(Risk List)..
데이터 분석1단계: 문제제기 (Ask) - 질문에 대하여 질문의 중요성 지루할 수도 있지만 데이터 분석을 하기 전 원론적인 얘기를 더 길게 해 보겠다. 현업에서의 전문 지식을 축적한 사람은 확실히 같은 데이터를 보더라도 어떤 질문이 필요한지, 어떤 것부터 우선되어야 하는지 등을 다른 사람들에 비해 쉽게 알아낼 수 있다. 그렇기 때문에 처음으로 데이터의 세계에 입문하는 사람들의 경우, 본인이 몸 담고 있는 영역의 지식(도메인 지식)을 활용한 데이터 분석부터 시작할 것을 추천한다. 코딩 실력도 좋지만, 본인의 강점을 더 잘 활용하라는 말이다. 데이터 분석 관련 책을 보면 역시나 이론으로 시작해서 코딩은 뒤에 나온다. 데이터가 아니라 경영학 과목 어딘가에 나올 것 같은 얘기들이 초입에 장황하게 나와있다. 학문적으로 전문성 있는 책처럼 보이기 위함이 아니다. 스킬을 ..