본문 바로가기

R

(8)
불러온 데이터들 합치기 : Join() 함수로 류현진 선수 데이터보기 여러 가지 방법으로 데이터세트나 데이터프레임을 불러오는 방법을 알아봤었다. 이제 불러온 데이터들을 합치는 방법을 알아보자. 데이터분석 업무를 할 때, 한 개의 데이터 테이블만 가지고 하는 경우는 매우 드물다. 여러 테이블들을 합쳐서 사용해야 하는데, 그때 사용하는 함수 중 하나가 join() 함수이다. join() 함수 외에도 다른 방법이 있긴 하다. mapvalue() 함수를 사용하는 것인데, 다른 포스팅에서 다루도록 하겠다. 키 값 : Primary Key 와 Foreign Key join()을 할 때 반드시 알아야 할 개념이 있다. Primary Key와 Foreign Key이다. 기본키 및 외래키로 번역이 되는데, 그냥 영어로 자체로 보는 게 개념을 이해하는데 더 도움이 되므로, 영어를 사용하겠다..
데이터프레임 불러오기 5 - 엑셀 파일 아마 대부분의 직장인들은 엑셀이 손에 익었을 것이다. 일상 업무에서 자주 접하는 파일도 엑셀 파일일 확률이 높다. 간단한 데이터 변환 작업을 하기에는 엑셀이 편하기도 하니, 엑셀을 다시 R로 불러들일 상황이 자주 발생한다. 따라서 엑셀 파일을 불러오거나 엑셀로 변환시키는 방법은 필수적으로 알고 있어야 한다. write.xlsx() 함수로 엑셀파일 만들기 일단 예제로 사용할 엑셀 파일을 만들어 보겠다. 이를 위해서는 "xlsx" 패키지의 'write.xlsx()' 함수가 필요하다. CSV 파일 불러오기를 통해 만들었던 'Lahman' 패키지의 People이라는 데이터프레임을 엑셀 파일로 만들어 보자. 기억이 나지 않는다면 다음 링크의 글을 다시 확인해 보자. https://double-d.tistory.c..
데이터프레임 불러오기 4 - CSV 파일 복습 및 심화 앞선 다른 포스팅 (R: 데이터프레임 불러오기 1 - CSV파일, R 기본데이터세트)에서 잠시 CSV 파일을 어떻게 불러오는지 확인하였다. 본 포스팅에서는 한 번 더 CSV파일을 불러오는 것에 대해 복습하고, 심화된 내용에 대해서도 알아보자. 실습에 사용할 데이터세트는 지난번 포스팅에서 언급한 Sean Lahman 데이터베이스이므로, 아직 글을 확인하지 않았거나 해당 데이터세트가 없는 경우 위 링크의 글을 읽어보기를 권한다. CSV 파일 CSV 는 Comma Separated Values라는 뜻으로, 콤마를 통해 값들이 분리되어 있다는 의미이다. 실제로 텍스트 편집기로 CSV 파일을 열어 본 적이 있는 사람이라면, 이름 그대로를 확인해 보았을 것이다. 유사한 방식으로 TSV 파일도 있는데, Tab Sep..
데이터프레임 불러오기 3 - 데이터베이스에서 직접 불러오기: DBI & RSQLite 지난 글에서 RODBC패키지를 사용한 데이터프레임 불러오기를 알아봤다. 만약 데이터베이스가 MS SQL(SQL Server), MySQL, Oracle 등 RDBMS가 아니고 SQLite라면 어떻게 해야 할까? RDBMS RDBMS는 Relational Database Management System이고, 일반 DBMS의 단점을 보완하기 위해 만들어졌다. 즉, 그냥 파일 형태로 데이터를 저장하기만 하면 각 파일들이 어떻게 서로 영향을 주고받는지 확인하기 힘드니, 방법을 생각해 낸 게 RDBMS이다. RDBMS는 데이터를 테이블 형태로 저장하고, 각 테이블에 primary key를 만들어서 테이블 간 공통으로 사용될 수 있는 key값을 만들어 서로 연결할 수 있게 해 준다. RDBMS의 예로는 Oracle..
데이터프레임 불러오기 2 - 데이터베이스에서 직접 불러오기: RODBC 이전 글에서 데이터프레임 또는 데이터세트를 불러오는 방벙에 대해서 다루었다. 가장 기본적인 CSV파일을 직접 하나하나 불러오는 방법, CSV파일이 들어있는 폴더를 한꺼번에 불러와서 하나의 리스트에 넣어놓고 사용하는 방법, R이 기본적으로 제공하고 있는 데이터세트를 사용하는 방법 등을 Sean Lahman의 Baseball Database를 예로 설명하였다. https://double-d.tistory.com/27 R: 데이터프레임 불러오기 1 (CSV파일, R기본 데이터세트) 오랜만에 이전 포스팅에 가 보았다. (https://double-d.tistory.com/18) 데이터베이스 예제로 Sean Lahman의 Baseball Database를 소개한 글이었다. 링크로 남겨두었던 웹사이트에 가보니 연결..
데이터프레임 불러오기 1 - CSV파일, R기본 데이터세트 오랜만에 이전 포스팅에 가 보았다. (https://double-d.tistory.com/18) 데이터베이스 예제로 Sean Lahman의 Baseball Database를 소개한 글이었다. 링크로 남겨두었던 웹사이트에 가보니 연결이 되지 않는다. 구글링을 해보니 다행히 웹사이트는 그대로 있다. 다만 공유하는 데이터베이스 형태가 줄어들었다. 예전에는 sql light버전 및 다양한 형태로 제공되었는데, 이제는 MS Access 형태와 CSV만 제공된다. 윈도우 사용자의 경우 MS Access 파일인 .mdb를 다운받아 사용할 수 있다. 하지만 맥 사용자는 CSV 파일만 사용이 가능하다. 이번 글에서는 업데이트된 Sean Lahman의 웹사이트 기준으로 데이터를 R 로 불러오는 여러 방법에 대해서 알아보자..
R 속에서 SQL 사용하기 'SQL 왜 필요한가'를 통해서 간략하게 SQL을 알면 왜 좋은지 정리하였다. 대부분의 데이터베이스가 관계형 데이터베이스이기 때문에 SQL 쿼리를 통해서 데이터를 뽑아내는 것이 가장 효과적인 데이터 추출 방법 중 하나이다. https://double-d.tistory.com/16 SQL 왜 필요한가 ※ 데이터베이스나 SQL전문가가 아닌 데이터분석을 위한 실무자 입장에서 본 글을 작성하였음을 미리 알립니다. R을 소개하면서 여러 가지 프로그래밍 언어들에 대해 언급한 적이 있다. 그중에 double-d.tistory.com 당연하겠지만 데이터를 추출하고 난 후에는 CSV나 엑셀 형태로 받아서 다시 R로 불러오는 수고를 할 필요가 없다. R에 관련 패키지를 설치해서 필요한 함수를 사용하기만 하면, 바로 서버와..
R? 데이터 분석을 위해 선택할 언어 R이란? 국립중앙과학관에서 정의하고 있는 R은 다음과 같다. R은 오픈소스 프로그램으로 통계/데이터 마이닝 및 그래프를 위한 언어이다. R은 주로 연구 및 산업별 응용 프로그램으로 많이 사용되고 있으며, 최근에는 기업들이 많이들 사용하기 시작했다. 특히, 빅데이터 분석을 목적으로 주목을 받고 있으며, 5000개가 넘는 패키지(일종의 애플리케이션)들이 다양한 기능을 지원하고 있으며 수시로 업데이트되고 있다. R의 장점 R의 가장 큰 장점은 오픈소스라는 점이다. 무료로 사용이 가능함에도 불구하고 컴퓨팅 속도와 데이터 처리 능력, 각종 소프트웨어나 클라우드 서비스, API 등과의 연동, 호환성이 좋다. 언어 자체가 직관적이기 때문에 C, C++ 등에서 고배를 맛본 사람들도 쉽게 도전할만하다. 빅데이터를 위한 ..