오픈 데이터 (Open Data)
Second 또는 Third-Party 데이터의 가격은 비싸다. 수집하는데 많은 노력이 들뿐만 아니라, 데이터 검수하는데도 적지 않은 주의와 자원이 필요하기 때문이다. 이러한 이유로 일반인들은 데이터 구매에 대한 생각조차 하기 쉽지 않다. 다행히 정부와 학계, 단체에서 제공하는 양질의 오픈 데이터를 무료로 구할 수 있다.
오픈 데이터는 제공하는 주체에 따라 크게 3가지 분류가 있다.
첫째, 정부 주도 공공 데이터이다.
둘째, 기타 범정부 기관 및 학계, 단체 등에서 제공하는 무료 데이터도 있다.
셋째, 사기업에서 제공하는 데이터이다. 대부분의 빅테크 기업이 제공하고 있다.
첫째, 정부 주도 공공 데이터
우리나라 정부도 데이터의 중요성을 강조하면서 몇 년 전부터 공공데이터 서비스를 제공하고 있다. 당연히 미국 정부에서 제공하는 데이터도 있고, 유럽연합도 있다. 정부에서는 각국의 데이터 관련 산업의 증진 및 국민들의 편의를 위해 세금을 들여 데이터를 수집하고, 무료로 배포하고 있다.
1. 대한민국 공공데이터 포털 (http://www.data.go.kr)
공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase
www.data.go.kr
글을 쓰고 있는 2022년 5월23일 현재, 파일 데이터 51,222건, 오픈 API 8,965건, 표준 데이터셋 147개에 해당하는 8,181건으로 총 68,368건의 데이터를 제공하고 있다. 제공되는 파일은 CSV나 JSON, XML 등의 형태이다. 정말 다양한 데이터가 있으니 한 번 방문하여 검색해볼 것을 추천한다.
2. 유럽연합 공공데이터 포털 (https://data.europa.eu/en)
data.europa.eu
The official portal for European data
data.europa.eu
유럽연합에서 제공하는 데이터이고, 회원국 뿐만 아니라 회원국 외의 국가들에 대한 데이터도 제공한다. 총 172개 항목에 대한 36개 국가의 데이터를 제공하며, 데이터 세트 건수로는 1,443,843건을 제공하고 있다.
3. 미국 데이터 포털 (https://data.gov/)
Data.gov
The home of the U.S. Government’s open data Here you will find data, tools, and resources to conduct research, develop web and mobile applications, design data visualizations, and more. For information regarding the Coronavirus/COVID-19, please visit Cor
data.gov
미국 정부가 제공하는 오픈데이터 소스이다. 각종 연구를 위한 데이터 자체뿐만 아니라 웹이나 모바일 어플리케이션, 시각화 등을 위한 추가 정보까지 제공하고 있다. 사실 이건 대한민국 데이터 포털도 마찬가지이긴 한다. 미국 데이터 포털에서는 335,221건의 데이터 세트를 제공하고 있다.
4. 미국 인구통계국 데이터 (https://www.census.gov/data.html)
인구통계 관련 데이터를 볼 수 있다. 미 중앙 정보가 제공하는 신뢰할 수 있는 데이터를 제공한다. 인구뿐만아니라 지리, 경제 등 인구와 연관이 있는 데이터를 제공한다. 다만 미국에 대한 데이터만 있다. American Fact Finder, Census Data Explorer, Quick Facts 등의 툴을 통해서 검색과 시각화에 도움을 주고 있다.
둘째, 범정부 기관 및 학계 등 제공 데이터
유엔, 세계은행, 세계 보건기구 등 목적이 있는 범정부 기관은 해마다 주제에 맞는 연구 활동을 통해 정보를 수집하고 저장해둔다. 기타 기관과 학계도 마찬가지이다. 이러한 데이터들은 공공의 이익을 위하여 무료로 배포되는 경우가 많다. 해당 데이터들은 이름만 대도 신뢰감을 줄 수 있으므로 적극 활용하길 권장한다. 본인이 분석하고자 하는 분야에 해당하는 기관의 이름을 검색해보면, 아래의 예가 아니더라도 대부분 데이터를 공개하고 있을 가능성이 크다.
5. 세계은행 오픈 데이터 (https://data.worldbank.org/)
World Bank Open Data | Data
Open Data Catalog Provides a listing of available World Bank datasets, including databases, pre-formatted tables, reports, and other resources.
data.worldbank.org
세계 주요 경제 관련 오픈데이터를 제공한다. 신문기사, 뉴스, 논문 등 다양한 매체에서 세계은행의 통계 및 조사 자료를 인용하여 발표한다. 그만큼 공신력이 있다는 말이다. 데이터들은 직접 다운로드할 수도 있고, 자체 시각화 툴을 통해서 그래프, 차트 등으로 볼 수도 있다.
6. 세계보건기구 오픈 데이터 (https://www.who.int/data/gho/)
GHO
The GHO data repository is WHO's gateway to health-related statistics for its 194 Member States. It provides access to over 1000 health topics indicators
www.who.int
의료/보건 관련 데이터를 제공하는 세계 보건기구 오픈 데이터이다. 여기서는 엑셀 파일로 데이터를 받을 수 있다.
7. 유니세프 데이터세트 (https://data.unicef.org/)
유니세프(UNISEF)는 전 세계의 어린이들을 돕기 위해 설립된 유엔기구이다. 우리나라도 유니세프의 도움을 받았었고, 이제는 세계 5대 모금 국가 중 하나라고 한다. 그런 유니세프도 데이터를 통해 더 나은 구호 방법을 찾고, 사람들의 관심을 모으기 위해 기관이 수집한 데이터를 제공한다.
셋째, 사기업에서 제공하는 데이터
이름만 들어도 알 수 있는 빅테크 기업들도 일부 데이터를 공개한다. 그리고 멤버십 운영을 하는 데이터 제공 업체들도 일부 데이터는 무료로 제공하고 있다.
8. 구글 클라우드 공공 데이터세트 (https://cloud.google.com/datasets)
데이터 세트 및 사전 빌드된 솔루션 | Google Cloud
Google 소유의 데이터, 공개 데이터 또는 업종별 데이터로 분석 및 AI 이니셔티브를 보강할 때 데이터 애셋의 가치를 높이세요.
cloud.google.com
구글 클라우드 서비스에서 제공하는 공공 데이터이다. 앞서 말한 정부 제공 데이터, 범정부 데이터 등 모든 데이터를 확인할 수 있다. 구글 빅쿼리(Google BigQuery)라는 툴을 사용해서 직접 웹 상에서 데이터 분석도 가능하다. 다만 계정 가입을 해야 하는 수고가 있다. 검색엔진의 왕인 구글이 제공하는 만큼 다양한 소스의 데이터를 한 곳에서 확인할 수 있다. 여기도 방문하여 기웃거려 볼 것을 추천한다.
9. 캐글 (https://www.kaggle.com/datasets)
Find Open Datasets and Machine Learning Projects | Kaggle
Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.
www.kaggle.com
캐글은 머신러닝 및 데이터 사이언스를 위한 커뮤니티이며, 관련 각종 대회가 수시로 개최되고 있는 곳이다. 데이터 사이언스를 하기 위해서는 일단 캐글의 아이디부터 만들어 놓고 여기저기 돌아다녀 보자. 캐글에서 직접 제공하는 데이터도 있고, 개인들이 올려놓은 데이터도 있다. 다른 사람의 데이터라고 하더라도 공개로 해두었다면 다운로드하여 분석해 볼 수 있다. 본인의 계정으로 코딩도 저장하여 놓기 때문에 추후에 좋은 Reference가 되기도 한다. Github와 함께 필수로 있어야 하는 사이트이다.
10. 오픈데이터 검색엔진들
사실 무료 데이터는 생각보다 많다. 문제는 어떻게 적절한 데이터를 찾느냐인데, 오픈 데이터만을 전문적으로 찾아주는 검색엔진들이 있다.
- 구글 데이터 서치 (https://datasetsearch.research.google.com/)
- Dataverse (https://dataverse.org/)
- Open Data Kit (https://opendatakit.org/)
- ckan (https://ckan.org/)
- Open Data Monitor (https://opendatamonitor.eu/)
- Plenario.io (https://plenar.io/)
- Open Data Impact Map (https://opendataimpactmap.org/)
링크드 데이터
오픈 데이터를 제공하는 사이트를 둘러보면, SPARQL, Linked Data, 등의 단어를 보게 된다. SPARQL은 웹에서 사용할 수 있는 SQL이고, 개방형 연결 데이터(LOD, Linked Open Data)를 활용하기 위해 사용된다. 연결 데이터(Linked Data) 또는 개방형 연결 데이터(Linked Open Data)는 데이터를 웹상에 게시할 때 해당 데이터의 의미를 더 유용하게 찾아볼 수 있도록 웹 상의 식별자와 관련 정보 링크를 함께 제공화는 기술이며, 데이터 세트 자체이다.
연결 데이터(Linked Data, 링크드 데이터)의 개념은 웹(www)의 창시자인 팀 버너스 리 (Tim Berners Lee, 1955년 6월8일생, 생존)에 의해 정리되었으며, 해당 데이터를 적절히 활용하기 위한 4가지 기본 룰을 아래와 같이 정의하였다.
1. 데이터를 식별하기 위한 방법으로 URI(통합 자원 식별자, Unifor Resource identifier)를 사용하라.
2. 다른 데이터들과 적절히 참조될 수 있도록 HTTP를 사용하라.
3. RDF(자원기술 프레임워크, Resource Description Framework) 혹은 SPARQL (Simple Protocol and RDF Query Language)를 활용하여 데이터가 서로 연결되도록 하라.
4. 더 많은 정보를 제공할 수 있도록 다른 URI도 포함하라.
[네이버 IT용어사전 참고]
어려운 내용이지만, 분석 업무를 하다가 필요한 경우가 생길 수 있으므로 이런게 있구나 정도로 알아 두자.
'데이터 기본' 카테고리의 다른 글
데이터 샘플링: 통계적 및 비통계적 샘플링 방법 (0) | 2023.02.20 |
---|---|
데이터 구조: 배열, 목록 및 테이블 (0) | 2023.02.17 |
데이터 유형: 숫자, 범주 및 순서 데이터의 이해 (0) | 2023.02.13 |
데이터의 삶: 탄생과 죽음 (0) | 2022.05.19 |
빅데이터란? (0) | 2022.05.17 |