본문 바로가기

데이터 분석

데이터 분석 3단계: 처리(Process) - 데이터 문제

데이터 문제

 

데이터와 관련된 이슈들

 

1. 데이터 부재

 

분석은 하고 싶으나데이터 자체가 없을  있다이럴 때는 어떻게 하는게 합리적인 방법일까

 

솔루션1) 우선 시간과 자원이 허락되는 내에서작은 범위의 데이터라도 수집하여 분석해 본다그러면서 동시에 더 많은 데이터를 수집할  있는 추가 시간을 요청한다

 

솔루션2) 만약 전혀 시간이 없는 상황이라면유사한 대체 데이터를 찾아서 분석한다

 

2. 데이터 부족

 

데이터가 있기는 있는데부족하다 나는 리트리버에 대한 데이터가 필요한데, 리트리버에 대한 데이터가 너무 부족하다

 

솔루션3) 그럴  임시로 라브라도에 대한 데이터도 합쳐서 본다하지만 주의해야 한다섞인 데이터로 인해서 실제와는 다른 분석 결과가 나올 수도 있기 때문이다.

 

솔루션4) 그리고 가끔은 그냥 없는 부분은 없는 채로 두는게  나을 수도 있다성인 남성에 대한 데이터가 필요한데, 18-24 성인 남성에 대한 데이터가 없을  있다그럴  그냥 25 이상만 분석하고 분석이 25 이상 남성에 한정된 것임을 밝힌다.

 

3. 데이터 오류

 

충분한 양의 데이터를 확보했다고 좋아했는데막상 분석을 해보려고 하니 데이터에 오류가 너무 많을  있다부품번호 항목에 온갖 실수로 입력되었을  같은 텍스트들이 잔뜩 있다그러면 데이터베이스 관리를 엉망으로 한 사람에 대한 불만이 나올  있다 원인이 여러 가지일  있지만불만만 늘어놓는  하나도 도움이 되지 않는다.

 

솔루션5) 혹시 데이터를 제공해준 곳에서 요청사항을 잘못 이해하지는 않았는지 확인해보고 다시 연락해 본다

 

솔루션6) 그럴  없는 상황이라면수작업으로 데이터를    있는지 알아본다. 가능하다면 데이터 클리닝을 한다. 어떤 특정한 패턴이 있다면 조금  수월하게 수정할  있을 것이다

 

솔루션7) 만약 데이터 사이즈가 충분히 크고오류가 있는 부분이 무시할만한 정도라면과감하게  부분을 빼버린다

 

여기서 중요한게 있다어떻게든 방법이 있기 마련이니, 아무것도 하지 않고 있지만 말자그리고 끊임없이 관련부서나 상급자/의뢰 부서/의뢰 회사와 소통하는 것도 잊지 말자.

 

흔한 데이터 오류 유형들

 

  • 데이터 소스 에러프로그램또는  안에서 사용한 함수들이 애초에 잘못되어 있는 경우
  • Null Data (NA): 누락 등의 이유로 발생하는 Null 또는 Not Available 데이터
  • 오타오타 안 만드는 인간은 없다.
  • 텍스트 앞뒤의 스페이스
  • 중복
  • 대소문자 혼용으로 인한 필터 누락
  • 포맷 불일치로 인한 필터 누락
  • 일부가 잘려 나간 값들

어떤 데이터 문제가 있고, 어떻게 방향을 잡아야 하는지에 대해 대략적으로 알아 보았다. 이는 데이터 정제 또는 데이터 클리닝(Data Cleaning)이라는 작업을 위함이다. 다음 글에서는 데이터 클리닝에 대해서 알아 보자.