본문 바로가기

전체 글

(37)
데이터 정리: 3가지 대표적인 특성 선택 기술 (Feature Selection) 지난 글, '데이터 정리: 5가지 대표적인 차원 축소 기술(Dimensionality Reduction)에 이어 이번에는 특성선택 기술 (Feature Selection)에 대해 간략한 내용만 알아보자. 추후에 본 글에서 언급된 각 기술에 대해 자세히 다루도록 하겠다. https://double-d.tistory.com/37 데이터 정리: 5가지 대표적인 차원 축소 기술 (Dimensionality Reduction) 데이터 분석에서 많은 양의 데이터를 처리할 때, 데이터의 차원을 축소하고 중요한 특성을 선택하는 것은 매우 중요한 작업이다. 이를 통해 모델의 복잡성을 줄이고 계산 효율성을 향상시키며, double-d.tistory.com 특성 선택도 데이터 분석에서 매우 중요한 단계이다. 이 과정은 주어..
데이터 정리: 5가지 대표적인 차원 축소 기술 (Dimensionality Reduction) 데이터 분석에서 많은 양의 데이터를 처리할 때, 데이터의 차원을 축소하고 중요한 특성을 선택하는 것은 매우 중요한 작업이다. 이를 통해 모델의 복잡성을 줄이고 계산 효율성을 향상시키며, 더 나은 모델 성능을 달성할 수 있기 때문이다. 다루어야 할 내용이 적지 않기 때문에, 본 글에서는 '데이터 차원 축소'에 대해서 우선 다루겠다. 이후의 글에서는 데이터 정리의 다른 방법인 '특성 선택'에 대해서 적어보겠다. 데이터 차원 축소 기술 (Dimensionality Reduction Techniques) 아래 표는 대표적인 5가지 데이터 차원 축소 방법에 대한 요약이다. 기술 설명 필요성 예시 PCA (주성분 분석) 고차원 데이터의 주요 특성을 추출하여 데이터를 낮은 차원으로 투영하는 기술 데이터의 차원을 줄여..
데이터 변환: 정규화, 표준화 및 집계 기술 데이터 분석에서 데이터의 특성을 조정하거나 변환하는 것은 매우 중요한 일이다. 단순한 분석 작업의 경우, 있는 데이터를 그대로 쓰면 된다. 하지만 데이터의 양이 늘어나고 복잡해질수록 있는 데이터를 그대로 쓰면 인사이트를 얻기 어려울 수 있다. 그럴 때 사용할 수 있는 게 주어진 데이터를 왜곡이 발생시키지 않는 범위 내에서 적절하게 변환시켜 주는 방법이다. 이러한 데이터 변환 기술은 데이터의 품질을 향상하고 분석 결과를 개선하는 데 도움이 된다. 이번 글에서는 데이터 변환의 세 가지 기술인 정규화, 표준화 및 집계에 대해 알아보려고 한다. 얼마 전에 알아본 '데이터 정제: 중복 제거, 누락 값 처리, 이상 값 처리 기술'과 마찬가지로 개념을 잡기 위한 얕게 다뤄보려 한다. 정규화 (Normalization..
데이터 정제: 중복 제거, 누락 값 처리, 이상 값 처리 기술 데이터 분석을 위해 데이터를 사용할 때 데이터의 품질은 매우 중요하다. 데이터에는 종종 중복된 값, 누락된 값 또는 이상 값이 포함되어 있을 수 있으며, 이러한 데이터 오류는 분석 결과를 왜곡시킬 수 있다. 따라서 데이터를 정제하여 데이터 품질을 향상하는 것은 데이터 분석 작업에서 매우 중요한 단계이다. 이번 글에서는 데이터 클리닝 또는 정제를 위한 주요 기술인 중복 제거, 누락 값 처리 및 이상 값 처리에 대해 개념 위주로 쉬운 예와 함께 다뤄보겠다. 중복 제거 (Duplicate Removal) 중복된 데이터는 분석 결과를 왜곡시킬 수 있으므로 중요한 요소이며, 매우 빈번하게 발생된다. 이러한 중복된 데이터를 제거하는 과정은 데이터 정제의 첫 번째 단계이다. 예를 들어, 고객 데이터베이스에서 중복된 ..
K-폴드 교차검증법: 움파룸파의 "A thousand fold!!" 얼마 전 영화 Wonka에서 휴 그랜트가 연기한 움파룸파가 부르는 노래가 있었다. 움파룸파 송이라고 불리는 중독성이 있는 노래였다. 그중에서 휴 그랜트가 강조해서 반복했던 단어가 있는데, “A thousand folds! (천 배!!)”였다. 도둑맞은 카카오에 대해서 천 배로 값아야 한다는 의미였는데, 뜬금없지만 나는 ‘K-폴드 교차 검증 방법' (K-fold Cross Validation)이 생각 났다. Til I've paid my friends back a thousand fold! A thousand fold?! You gotta be kidding me! I repeat A thousand fold! 생각이 난 김에 K-폴드 교차 검증 방법에 대해서 알아보자. 샘플링에서 관련 내용이 나올 수도 ..
불러온 데이터들 합치기 : Join() 함수로 류현진 선수 데이터보기 여러 가지 방법으로 데이터세트나 데이터프레임을 불러오는 방법을 알아봤었다. 이제 불러온 데이터들을 합치는 방법을 알아보자. 데이터분석 업무를 할 때, 한 개의 데이터 테이블만 가지고 하는 경우는 매우 드물다. 여러 테이블들을 합쳐서 사용해야 하는데, 그때 사용하는 함수 중 하나가 join() 함수이다. join() 함수 외에도 다른 방법이 있긴 하다. mapvalue() 함수를 사용하는 것인데, 다른 포스팅에서 다루도록 하겠다. 키 값 : Primary Key 와 Foreign Key join()을 할 때 반드시 알아야 할 개념이 있다. Primary Key와 Foreign Key이다. 기본키 및 외래키로 번역이 되는데, 그냥 영어로 자체로 보는 게 개념을 이해하는데 더 도움이 되므로, 영어를 사용하겠다..
데이터프레임 불러오기 5 - 엑셀 파일 아마 대부분의 직장인들은 엑셀이 손에 익었을 것이다. 일상 업무에서 자주 접하는 파일도 엑셀 파일일 확률이 높다. 간단한 데이터 변환 작업을 하기에는 엑셀이 편하기도 하니, 엑셀을 다시 R로 불러들일 상황이 자주 발생한다. 따라서 엑셀 파일을 불러오거나 엑셀로 변환시키는 방법은 필수적으로 알고 있어야 한다. write.xlsx() 함수로 엑셀파일 만들기 일단 예제로 사용할 엑셀 파일을 만들어 보겠다. 이를 위해서는 "xlsx" 패키지의 'write.xlsx()' 함수가 필요하다. CSV 파일 불러오기를 통해 만들었던 'Lahman' 패키지의 People이라는 데이터프레임을 엑셀 파일로 만들어 보자. 기억이 나지 않는다면 다음 링크의 글을 다시 확인해 보자. https://double-d.tistory.c..
데이터프레임 불러오기 4 - CSV 파일 복습 및 심화 앞선 다른 포스팅 (R: 데이터프레임 불러오기 1 - CSV파일, R 기본데이터세트)에서 잠시 CSV 파일을 어떻게 불러오는지 확인하였다. 본 포스팅에서는 한 번 더 CSV파일을 불러오는 것에 대해 복습하고, 심화된 내용에 대해서도 알아보자. 실습에 사용할 데이터세트는 지난번 포스팅에서 언급한 Sean Lahman 데이터베이스이므로, 아직 글을 확인하지 않았거나 해당 데이터세트가 없는 경우 위 링크의 글을 읽어보기를 권한다. CSV 파일 CSV 는 Comma Separated Values라는 뜻으로, 콤마를 통해 값들이 분리되어 있다는 의미이다. 실제로 텍스트 편집기로 CSV 파일을 열어 본 적이 있는 사람이라면, 이름 그대로를 확인해 보았을 것이다. 유사한 방식으로 TSV 파일도 있는데, Tab Sep..