잠시 쉬어가는(?) 의미에서 우리가 다뤄야 할 데이터에 대해 알아보자.
빅데이터?
온갖 미디어에서 '빅데이터'가 끊이지 않고 나온다. 세상이 정말 그 정도로 데이터가 중요한 세상이 되었을 수도 있다. 아니면 가끔이나마 유튜브에서 검색했던 흔적이 알고리즘의 간택을 받아 튀어나오는 것일 수도 있다. 만약 둘 다라면 딱 한걸음만 옮겨보자. 눈에 자꾸 보이는 김에 그 잘난 세상의 데이터에 발 하나라도 걸쳐보자.
빅데이터 얘기는 계속 나오고, 추천 영상도 나오는데 아직도 뭐가 뭔지 모르겠다. 회사에서 다루고 있는 데이터도 모니터를 부숴버리고 싶을 만큼 PC를 버벅거리게 하는데 혹시 이게 빅데이터인가.
웹을 돌아다니다 보면 빅데이터의 특징을 3V로 설명하거나, 4V, 5V를 늘어 놓는 사람도 있다.
- Volume (데이터의 양)
- Variety (데이터의 다양성)
- Veracity (데이터의 신뢰성)
여기까지 보통 공통적으로 나오는 3V이다. 여기에 한 두 개를 더 추가할 수 있다.
- Velocity (얼마나 빨리 데이터를 처리할 수 있는가)
- Value (데이터를 통해 가치 있는 인사이트를 뽑아낼 수 있는가)
아무리 봐도 마지막 2개는 3V를 보고 뭔가 더 얹어보고 싶은 마음에 끼워 넣은게 아닌가 싶다.
Volume (데이터의 양)
어느 정도의 양이어야 하는가. 모르겠다. 그냥 가시적으로 볼 수 있는 것들과는 비교가 안되게 많은 양이다. 2003년까지 인류가 축적한 모든 데이터의 총량이 5 Exabyte*라고 한다. 1TB짜리 외장하드 오백만 개 분량의 데이터라고 보면 된다. 그럴 수도 있다. SSD 500 GB짜리를 들고 있는 사람이 전 세계에 천만명은 되지 않겠는가. 그런데, 2010년에 열흘 동안 만들어지는 전 세계 데이터 총량도 5 Exabyte이다. 그리고 2020년에는 네 시간 만에 같은 양의 데이터가 만들어졌다. 유튜브의 역할이 적지 않겠다. 인스타에 올라오는 셀카도 물론 한몫을 했겠다.
*1 Exabyte (엑사바이트): Exa는 10의 18승이고, 1 Exabyte는 100만 Terabyte(TB, 테라바이트)이다.
Variety (데이터의 다양성)
전통적인 데이터는 무엇일까. 인류 역사의 아주 긴 시간 동안 데이터는 책에 담겨져 왔다. 하지만 최근에는 매우 다양한 형태의 데이터들이 존재한다. 웹 상에 텍스트로 존재하는 데이터, SNS에 올라오는 사진과 비디오들, 각종 스마트기기의 센서를 통해 수집되는 데이터 등, 무수한 방법으로 저장되고 수집되는 데이터들이 있다. 영화 '돈 룩업 (Don't Lookup)'에서 레오나르도 디카프리오가 빅테크 기업 'Bash'의 CEO인 피터의 심기를 건드린 장면을 기억하는가. 그때 피터가 얘기한 것을 모두가 명심해야 한다. 빅테크 브라더들은 남과 내가 알지 못하는 나를 알고 있다. 우리가 하는 모든 일거수일투족을 알고 있고, 가끔은 본인도 모르는 깊은 내면을 알고 있기도 하다. 너무 벗어나 버렸다. 여하튼 데이터는 어디선가 저장되고, 어디론가 전송되어, 누군가가 이것저것 다 합쳐서 잘 분석되고 있다는 사실을 잊지 말자. 그리고 박애주의자가 아닌 이상, 주기만하지 말자. 합법적인 범위 내에서 구할 수 있는 데이터가 많으니, 외통수로 한 곳만 보지 말자.
Veracity (데이터의 신뢰성)
어디서 구한 데이터를 썼는데, 옆 부서 김프로님이 10년 전 술 마시고 작성한 것일 수 있다. 급한 마음에 여기저기 인터넷에 떠도는 데이터들을 긁어 썼는데, 어디서 누가 그러더냐고 하면 답하기 좀 그럴 수 있다. 분노의 마우스와 키보드 소리는 마치 불로장생의 약을 구하기 위해 진시황이 풀어놓은 많은 약사와 연금술사들과 같을 수 있다. 방향을 잃고 돌아오지 않을 수도 있고, 잘못된 약을 들고 와서 수은중독에 걸리게 할 수도 있다. 출처 외에도 신뢰도가 중요한 이유가 있다. Variety에서 말한 바와 같이, 데이터는 워낙 다양한 방법으로 수집이 되기 때문에, 비정형화(Unstructured)되어 있고 찾고자하는 것과 무관할 수도(irrelevant) 있다. 겨우 적당한 데이터를 찾았는데, 아주 중요한 기간 동안의 데이터가 누락되어 있으면 쓸 수 없다. 아주 저명한 저널이나, 유명한 학자로부터 얻은 데이터인데, 내가 말하려는 것과 맞지 않는다면 쓸 수 없다.
Velocity (빠른 처리 속도)
아무리 봐도 나중에 끼워 넣었다. 빨리 처리해야 한다는 것 자체가 이미 빅데이터가 아닌 작은 데이터에는 쓸 필요도 없는 말인데 말이다. 여하튼 빅데이터를 다룬다는 것은, 원할 때(On-Demand) 적절히 빠른 속도로 접근 가능하다는걸 전제로 한다. 그런 의미에서 아까 잠시 엑셀을 생각했다면, 얼른 마음을 접어야 한다. 10만 줄 이상의 엑셀은 조기 퇴근하기 위한 핑계이고, 참지 못한 분노로 부술 모니터에 대한 변명거리이다. 왜 핑계이고 변명인가. 회피할 다른 방법이 충분한데 굳이 그걸 하고 있기 때문이다. 하다 못해 엑셀 파워쿼리라도 돌리고, MS Access나 기타 접근이 쉬운 다른 프로그램들이라도 시도해 봐야 한다.
Value (데이터의 가치)
이것도 누군가의 뽐냄을 위한 첨언이겠다. 양이 많다고 전부는 아니다. 무엇인가 끌어내서 감동을 주던지, 월급을 올려주던지, 세상을 바꾸던지 해야 가치있는 데이터이지 않겠는가. 근데 이건 꼭 빅데이터이어야만 하는게 아니다. 몇 줄 안 되는 데이터도 충분히 가치가 있을 수 있다. 그래서 여기에 동의하지 않는다. 그리고 위의 Velocity와 마찬가지로 결과론적으로 만들어졌음직하다. 빅데이터의 특성이라기보다는 빅데이터를 통해 무엇을 할 수 있는지, 어떻게 해야 하는지에 대한 적절한 단어라 생각한다.
'데이터 기본' 카테고리의 다른 글
데이터 샘플링: 통계적 및 비통계적 샘플링 방법 (0) | 2023.02.20 |
---|---|
데이터 구조: 배열, 목록 및 테이블 (0) | 2023.02.17 |
데이터 유형: 숫자, 범주 및 순서 데이터의 이해 (0) | 2023.02.13 |
오픈 데이터 소스 (0) | 2022.05.24 |
데이터의 삶: 탄생과 죽음 (0) | 2022.05.19 |