다양한 유형의 데이터(data type)를 이해하는 것은 데이터 분석의 결과를 정확하게 해석하는 데 중요한 요소이다. 실무를 하다 보면 어이없는 에러의 원인이 데이터 유형에 대한 무지인 경우가 적지 않다. 그러니 나중에 에러의 원인을 찾느라 고생하기 전에 데이터 유형에 대해 잘 알아보자. 아래 글을 통해 세 가지 주요 데이터 유형(숫자형, 범주형 및 순서형)을 살펴보고 각 데이터 유형이 데이터 분석에 미치는 영향을 더 잘 이해하는 데 도움이 되도록 예시들과 함께 알아보자.
데이터유형 | 정의 | 예시 | |
숫자형 (Numeric) |
연속 (Continuous) |
나이, 키, 몸무게, 급여 등과 같이 정의된 범위 내에서 모든 값을 가지는 유형 | 신장(cm), 급여($) 등 |
이산 (Discrete) |
가족의 자녀 수, 집의 방 수 등과 같이 정수와 같은 특정 값만 취하는 유형 | 가족의 자녀 수, 집의 방 수 등 | |
범주형 (Categorical) |
명목 (Nominal) |
순서 없이 각 요소에 대한 레이블이나 이름을 지정하는 유형 | 성별(남성, 여성), 눈색(갈색, 파란색, 녹색), 머리색(금발, 갈색, 빨간색) 등 |
순서 (Ordinal) |
교육 수준, 직함 등과 같은 데이터 요소에 순위 또는 순서를 지정하는 유형 | 학력(고교, 대학교, 대학원), 직위(과장, 과장, 이사) 등 | |
문자형 | 문자 (Character) |
사람 이름의 첫 글자 또는 단어의 특정 글자와 같이 단일 문자 또는 글자를 나타내는 유형 | 사람 이름의 첫 글자, 단어의 특정 글자 등 |
문자열 (String) |
사람의 이름, 주소, 도시 등과 같은 일련의 문자를 나타내는 문자열 데이터 유형 | 사람의 이름, 주소, 도시 등 |
R, Python, SQL 등 어떤 언어를 쓰더라도 참고자료 및 개발툴에 영어가 나오는 경우가 많으므로, 정확한 이해를 위해 각 용어는 영문 용어와 같이 표기하겠다.
숫자 데이터(Numeric Data): 불연속 및 연속 값(Discrete /Continuous)
숫자형 데이터는 측정하고 비교할 수 있는 값을 나타내며, 정량적(Quantitative) 데이터이다. 이 유형의 데이터는 측정하고자 하는 데이터 및 측정 방법 및 그 결괏값에 따라 불연속적이거나 연속적일 수 있다.
불연속(이산, Discrete) 숫자형 데이터: 셀 수 있는 값
불연속 숫자형 데이터는 제한된 수의 값을 가지며 셀 수 있다. 가정 내 자녀 수 또는 특정 기간 동안 판매된 자동차 수 등이 그 예이다.
이용 사례: 한 신발 브랜드는 일주일에 판매되는 신발 수를 추적하여 어떤 유형이 가장 많이 판매되고 있는지 이해하고 그에 따라 재고를 조정할 수 있었다. 이때 각 신발 유형(예: 러닝화, 스니커즈, 등산화 등)에 대해 판매된 신발 수는 불연속 숫자형 데이터이다.
연속(Continuous) 숫자형 데이터: 측정 가능하고 정확한 값
연속 숫자형 데이터는 표현하고자 하는 범위 내의 모든 값을 가질 수 있다. 대부분은 정수이거나 소수점 이하의 숫자로 표현되거나 측정될 수 있다. 연속 숫자형 데이터의 예로는 신장, 체중 및 시간 등이 있다..
이용 사례: 제조 공장은 각 제품의 생산 시간을 추적하여 생산 공정의 병목 현상을 식별하고 라인을 최적화하여 생산 시간을 단축할 수 있습니다. 이 시나리오에서 제품의 생산 시간은 연속적인 숫자 데이터이다.
범주형(Categorical) 데이터: 명목형 및 순서형 값
범주형 데이터는 정성적 데이터(Qualitative Data)이며, 범주 또는 그룹에 배치할 수 있는 값을 나타낸다. 이러한 유형의 데이터는 범주의 순서를 갖는지 여부에 따라 명목 또는 순서형 데이터로 구분된다.
명목 범주형 데이터: 정렬되지 않은 값
명목 범주형 데이터는 고유한 순서나 순위가 없는 값을 나타낸다. 명목 범주형 데이터의 실제 예에는 머리 색깔, 눈 색깔 및 결혼 여부 등이 있다.
이용 사례: 어떤 제품이 가장 인기 있는지 이해하기 위해 마케팅 설문조사를 실시할 수 있다. 이때 사람들에게 사용하는 제품 유형(예: 샴푸, 컨디셔너, 비누)을 선택하게 하면, 선택된 각각을 보여주는 데이터가 명목 범주형 데이터가 된다.
순서 범주형 데이터: 정렬된 값
순서 범주형 데이터는 특정 순서 또는 순위가 있는 값을 나타낸다. 그 예로 교육 수준(고등학교, 대학, 대학원), 제품 등급(나쁨, 보통, 좋음, 우수) 및 메달 순위(금, 은, 동) 등이 있다.
이용 사례: 한 레스토랑은 고객 선호도를 더 잘 이해하기 위해 고객들이 주문하는 메뉴별 선호도를 조사할 수 있다.(예: 칠면조, 닭고기, 로스트 비프) 이때 각 메뉴별 선호도를 1~5점으로 고르게 한다면, 이 데이터는 순서 범주형 데이터이다.
문자형 데이터: 문자 또는 문자열 값
동일한 기준으로 구분하자면, 문자형 데이터는 숫자형보다는 범주형에 가깝다. 하지만, 데이터 유형 자체보다는 데이터 표현의 방법적인 면으로 구분했을 때는 숫자형/범주형이 아닌, 숫자형/문자형으로 나뉠 수도 있다.
문자형은 문자(Character) 유형과 문자열(String) 유형이 있다. 문자형은 보통 한개의 문자이며, 문자열은 한 개 이상의 문자이다.
결론
다양한 데이터 유형을 이해하는 것은 데이터 분석의 중요한 부분이다. 이러한 데이터 유형과 실제 사례에 대한 이해가 쌓이면 실무에서 얻는 데이터 분석의 결과를 정확하게 해석할 수 있으며, 데이터에 기반한 의사결정을 내릴 수 있는 것이다.
'데이터 기본' 카테고리의 다른 글
데이터 샘플링: 통계적 및 비통계적 샘플링 방법 (0) | 2023.02.20 |
---|---|
데이터 구조: 배열, 목록 및 테이블 (0) | 2023.02.17 |
오픈 데이터 소스 (0) | 2022.05.24 |
데이터의 삶: 탄생과 죽음 (0) | 2022.05.19 |
빅데이터란? (0) | 2022.05.17 |