본문 바로가기

데이터 기본

데이터 유형: 숫자, 범주 및 순서 데이터의 이해

출처: Unsplash

 다양한 유형의 데이터(data type)를 이해하는 것은 데이터 분석의 결과를 정확하게 해석하는 데 중요한 요소이다. 실무를 하다 보면 어이없는 에러의 원인이 데이터 유형에 대한 무지인 경우가 적지 않다. 그러니 나중에 에러의 원인을 찾느라 고생하기 전에 데이터 유형에 대해 잘 알아보자. 아래 글을 통해 세 가지 주요 데이터 유형(숫자형, 범주형 및 순서형)을 살펴보고 각 데이터 유형이 데이터 분석에 미치는 영향을 더 잘 이해하는 데 도움이 되도록 예시들과 함께 알아보자.

 

데이터유형 정의 예시
숫자형
(Numeric)
연속
(Continuous)
나이, 키, 몸무게, 급여 등과 같이 정의된 범위 내에서 모든 값을 가지는 유형 신장(cm), 급여($) 등
이산
(Discrete)
가족의 자녀 수, 집의 방 수 등과 같이 정수와 같은 특정 값만 취하는 유형 가족의 자녀 수, 집의 방 수 등
범주형
(Categorical)
명목
(Nominal)
순서 없이 각 요소에 대한 레이블이나 이름을 지정하는 유형 성별(남성, 여성), 눈색(갈색, 파란색, 녹색), 머리색(금발, 갈색, 빨간색) 등
순서
(Ordinal)
교육 수준, 직함 등과 같은 데이터 요소에 순위 또는 순서를 지정하는 유형 학력(고교, 대학교, 대학원), 직위(과장, 과장, 이사) 등
문자형 문자
(Character)
사람 이름의 첫 글자 또는 단어의 특정 글자와 같이 단일 문자 또는 글자를 나타내는 유형 사람 이름의 첫 글자, 단어의 특정 글자 등
문자열
(String)
사람의 이름, 주소, 도시 등과 같은 일련의 문자를 나타내는 문자열 데이터 유형 사람의 이름, 주소, 도시 등

 

R, Python, SQL 등 어떤 언어를 쓰더라도 참고자료 및 개발툴에 영어가 나오는 경우가 많으므로, 정확한 이해를 위해 각 용어는 영문 용어와 같이 표기하겠다.

 

숫자 데이터(Numeric Data): 불연속 및 연속 값(Discrete /Continuous)

숫자형 데이터는 측정하고 비교할 수 있는 값을 나타내며, 정량적(Quantitative) 데이터이다. 이 유형의 데이터는 측정하고자 하는 데이터 및 측정 방법 및 그 결괏값에 따라 불연속적이거나 연속적일 수 있다.

불연속(이산, Discrete) 숫자형 데이터: 셀 수 있는 값

불연속 숫자형 데이터는 제한된 수의 값을 가지며 셀 수 있다. 가정 내 자녀 수 또는 특정 기간 동안 판매된 자동차 수 등이 그 예이다.

이용 사례: 한 신발 브랜드는 일주일에 판매되는 신발 수를 추적하여 어떤 유형이 가장 많이 판매되고 있는지 이해하고 그에 따라 재고를 조정할 수 있었다. 이때 각 신발 유형(예: 러닝화, 스니커즈, 등산화 등)에 대해 판매된 신발 수는 불연속 숫자형 데이터이다.

 

연속(Continuous) 숫자형 데이터: 측정 가능하고 정확한 값

연속 숫자형 데이터는 표현하고자 하는 범위 내의 모든 값을 가질 수 있다. 대부분은 정수이거나 소수점 이하의 숫자로 표현되거나 측정될 수 있다. 연속 숫자형 데이터의 예로는 신장, 체중 및 시간 등이 있다..

이용 사례: 제조 공장은 각 제품의 생산 시간을 추적하여 생산 공정의 병목 현상을 식별하고 라인을 최적화하여 생산 시간을 단축할 수 있습니다. 이 시나리오에서 제품의 생산 시간은 연속적인 숫자 데이터이다.

 

범주형(Categorical) 데이터: 명목형 및 순서형 값

범주형 데이터는 정성적 데이터(Qualitative Data)이며, 범주 또는 그룹에 배치할 수 있는 값을 나타낸다. 이러한 유형의 데이터는 범주의 순서를 갖는지 여부에 따라 명목 또는 순서형 데이터로 구분된다.

 

명목 범주형 데이터: 정렬되지 않은 값

명목 범주형 데이터는 고유한 순서나 순위가 없는 값을 나타낸다. 명목 범주형 데이터의 실제 예에는 머리 색깔, 눈 색깔 및 결혼 여부 등이 있다.

이용 사례: 어떤 제품이 가장 인기 있는지 이해하기 위해 마케팅 설문조사를 실시할 수 있다. 이때 사람들에게 사용하는 제품 유형(예: 샴푸, 컨디셔너, 비누)을 선택하게 하면, 선택된 각각을 보여주는 데이터가 명목 범주형 데이터가 된다.

 

순서 범주형 데이터: 정렬된 값

순서 범주형 데이터는 특정 순서 또는 순위가 있는 값을 나타낸다. 그 예로 교육 수준(고등학교, 대학, 대학원), 제품 등급(나쁨, 보통, 좋음, 우수) 및 메달 순위(금, 은, 동) 등이 있다.

이용 사례: 한 레스토랑은 고객 선호도를 더 잘 이해하기 위해 고객들이 주문하는 메뉴별 선호도를 조사할 수 있다.(예: 칠면조, 닭고기, 로스트 비프) 이때 각 메뉴별 선호도를 1~5점으로 고르게 한다면, 이 데이터는 순서 범주형 데이터이다.

 

문자형 데이터: 문자 또는 문자열 값

동일한 기준으로 구분하자면, 문자형 데이터는 숫자형보다는 범주형에 가깝다. 하지만, 데이터 유형 자체보다는 데이터 표현의 방법적인 면으로 구분했을 때는 숫자형/범주형이 아닌, 숫자형/문자형으로 나뉠 수도 있다.  

문자형은 문자(Character) 유형과 문자열(String) 유형이 있다. 문자형은 보통 한개의 문자이며, 문자열은 한 개 이상의 문자이다.

 

결론

다양한 데이터 유형을 이해하는 것은 데이터 분석의 중요한 부분이다. 이러한 데이터 유형과 실제 사례에 대한 이해가 쌓이면 실무에서 얻는 데이터 분석의 결과를 정확하게 해석할 수 있으며, 데이터에 기반한 의사결정을 내릴 수 있는 것이다.