데이터와 관련된 이슈들
1. 데이터 부재
분석은 하고 싶으나, 데이터 자체가 없을 수 있다. 이럴 때는 어떻게 하는게 합리적인 방법일까?
솔루션1) 우선 시간과 자원이 허락되는 내에서, 작은 범위의 데이터라도 수집하여 분석해 본다. 그러면서 동시에 더 많은 데이터를 수집할 수 있는 추가 시간을 요청한다.
솔루션2) 만약 전혀 시간이 없는 상황이라면, 유사한 대체 데이터를 찾아서 분석한다.
2. 데이터 부족
데이터가 있기는 있는데, 부족하다. 나는 리트리버에 대한 데이터가 필요한데, 리트리버에 대한 데이터가 너무 부족하다.
솔루션3) 그럴 땐 임시로 라브라도에 대한 데이터도 합쳐서 본다. 하지만 주의해야 한다. 섞인 데이터로 인해서 실제와는 다른 분석 결과가 나올 수도 있기 때문이다.
솔루션4) 그리고 가끔은 그냥 없는 부분은 없는 채로 두는게 더 나을 수도 있다. 성인 남성에 대한 데이터가 필요한데, 18-24세 성인 남성에 대한 데이터가 없을 수 있다. 그럴 땐 그냥 25세 이상만 분석하고 분석이 25세 이상 남성에 한정된 것임을 밝힌다.
3. 데이터 오류
충분한 양의 데이터를 확보했다고 좋아했는데, 막상 분석을 해보려고 하니 데이터에 오류가 너무 많을 수 있다. 부품번호 항목에 온갖 실수로 입력되었을 것 같은 텍스트들이 잔뜩 있다. 그러면 데이터베이스 관리를 엉망으로 한 사람에 대한 불만이 나올 수 있다. 원인이 여러 가지일 수 있지만, 불만만 늘어놓는 건 하나도 도움이 되지 않는다.
솔루션5) 혹시 데이터를 제공해준 곳에서 요청사항을 잘못 이해하지는 않았는지 확인해보고 다시 연락해 본다.
솔루션6) 그럴 수 없는 상황이라면, 수작업으로 데이터를 손 볼 수 있는지 알아본다. 가능하다면 데이터 클리닝을 한다. 어떤 특정한 패턴이 있다면 조금 더 수월하게 수정할 수 있을 것이다.
솔루션7) 만약 데이터 사이즈가 충분히 크고, 오류가 있는 부분이 무시할만한 정도라면, 과감하게 그 부분을 빼버린다.
여기서 중요한게 있다. 어떻게든 방법이 있기 마련이니, 아무것도 하지 않고 있지만 말자. 그리고 끊임없이 관련부서나 상급자/의뢰 부서/의뢰 회사와 소통하는 것도 잊지 말자.
흔한 데이터 오류 유형들
- 데이터 소스 에러: 툴, 프로그램, 또는 그 안에서 사용한 함수들이 애초에 잘못되어 있는 경우
- Null Data (NA): 누락 등의 이유로 발생하는 Null 또는 Not Available 데이터
- 오타: 오타 안 만드는 인간은 없다.
- 텍스트 앞뒤의 스페이스
- 중복
- 대소문자 혼용으로 인한 필터 누락
- 포맷 불일치로 인한 필터 누락
- 일부가 잘려 나간 값들
어떤 데이터 문제가 있고, 어떻게 방향을 잡아야 하는지에 대해 대략적으로 알아 보았다. 이는 데이터 정제 또는 데이터 클리닝(Data Cleaning)이라는 작업을 위함이다. 다음 글에서는 데이터 클리닝에 대해서 알아 보자.
'데이터 분석' 카테고리의 다른 글
데이터 분석 4단계: 분석 (Analyze) (0) | 2022.06.16 |
---|---|
데이터 분석 3단계: 처리(Process) - 데이터 클리닝 (0) | 2022.06.06 |
데이터 분석 2단계: 준비 (Preparation) - DB, 데이터베이스 (0) | 2022.05.30 |
데이터 분석 2단계: 준비 (Preparation) - 데이터 구하기 (0) | 2022.05.22 |
데이터 분석 1단계: 문제제기 (Ask) - 외부팀과의 협업 (0) | 2022.05.20 |