내용 |
LOD(Linked Open Data)에 링크를 부여하고, 데이터 활용을 추진 주식회사후지쯔연구소, 후지쯔연구개발중심유한공사, Fujitsu Laboratories of Europe Limited는 국가와 기업이 소유하고 있는 데이터와 전세계에 공개된 Linked Open Data(이하 LOD)간에, 같은 대상을 표현하는 데이터를 발견하고 링크를 자동으로 부여하는 기술을 개발했다. 현재 인터넷상에 데이터를 공개하는 구조로 LOD가 확산되어있다. LOD 각각의 데이터는 다른 웹사이트에서 공개되고 있는 데이터에 링크를 부여하는 것이 권장되고 있으며, 데이터 이용자는 이 링크를 따라가면서 다수의 웹사이트를 횡단하여 목적한 데이터를 이용할 수 있다. 그러나 다른 웹사이트의 데이터에 링크를 걸기 위해서는 공개되어 있는 데이터의 내용을 이해하고 연관된 데이터를 발견할 필요가 있으며, LOD의 구조에서 데이터를 공개할 시점이 과제로 되어 있다. 본 기술에 의해 표기나 데이터 구조의 유사성으로부터 동일한 대상을 추정하고 링크를 붙일 수 있게 된다. 예를 들어 국가가 소유하는 데이터를 LOD로 공개하거나, 기업이 소유하는 데이터를 세계 LOD와 조합해 이용할 수 있거나, 오픈 데이터의 이용 가치를 높일 것으로 기대된다. 후지쯔연구소에서는, 본 기술과 제휴 가능한 LOD검색 서비스(http://lod4all.net/)을 2014년 1월 중순(예정)에 일반 공개하고 운영한다. 개발 배경 2013년 6월 G8 회담에서 `오픈 데이터 헌장`이 합의되는 등 오픈 데이터에 대한 관심이 급속히 높아지고 있다. 일본에서도 2012년 7월 내각부 IT전략 본부에 의해 `전자 행정 오픈 데이터 전략`이 책정되고, 나아가 2013년 6월에는 내각회의에서 결정된 `세계 최첨단 IT국가 창조 선언`에서는 `공공 데이터의 민간 개방(오픈 데이터)`이 3개의 주요 기둥 중 하나로 손꼽히고 있다. 후지쯔연구소에서는 아일랜드의 연구 기관인 The INSIGHT Centre for Data Analytics(이전 명칭 : Digital Enterprise Research Institute)와 공동으로 세계에 공개되고 있는 LOD를 수집하여 일괄 검색하는 LOD활용기반을 개발했다. 과제 LOD에서는, 다른 웹사이트에서 공개되고 있는 데이터에 대해서도 관련 데이터가 있다면 링크할 것을 권장하고 있다. 이에 따라 데이터 이용자는 다수의 웹사이트를 횡단하고, 원하는 데이터를 이용할 수 있다. 그러나 다른 웹사이트에서 공개된 데이터는, 같은 대상을 보여주고 있어도 데이터 구조가 다르거나 다른 표기로 쓰이고 있기 때문에 단순히 키워드 일치로만 조사할 수 밖에 없는, 해결하기 힘든 과제가 있었다. 때문에 데이터 작성자는 미리 링크 데이터를 조사해서, 그 데이터 구조나 표기를 이해하고 작성한 데이터와 비교할 필요가 있었다. 또한 기존에는 다수의 데이터 공개 사이트를 횡단하고 관련 데이터를 발견하는 방법이 없었기 때문에, 데이터 작성자가 미리 알고 있는 데이터만 링크를 걸어둘 수 있었고, 웹상에 존재하는 다양한 데이터에 링크를 부여하기는 힘들었다. 개발한 기술 이번에 LOD활용기반을 바탕으로 표기 및 데이터 구조의 유사성으로부터 링크를 부여하는 기술을 개발했다. 다수의 데이터 가운데 동일한 대상을 자동으로 발견하는 것이 가능하게 되었다. 개발한 기술의 특징은 다음과 같다. 1. 데이터 중 인물, 조직, 장소 등의 대상에 대해 LOD로부터 동일한 데이터를 추정하는 기술. 아래 의 개발 기능을 조합해서 추정한다. - 다른 데이터 구조의 해결 : 표기의 유사도를 이용하여 데이터 구조의 유사도를 측정한다.(①) - 다른 표기의 해결 : LOD내의 데이터 구조를 이용해 같은 대상의 다른 표기를 수집한다.(②) - 애매성의 해결 : 데이터 구조 및 표기의 유사성을 파라미터화하고, 기계 학습 방법을 이용하여 동일성을 판단한다.(③) 개발한 알고리즘의 개요 본 기술은 중국이나 미국의 학술회의에서 주최한 평가 대회에서 추정정도 1위를 달성했다. 2. LOD활용 기반과의 연계 세계에서 공개되고 있는 LOD를 수집해 일괄 검색하는 LOD활용 기반과 제휴함으로써 전 세계의 LOD중에서 같은 대상을 나타내는 데이터를 발견하는 것이 가능하다. 예를 들어, 영어판의 데이터 세트뿐만 아니라, 각 국가별 언어 버전의 데이터 세트에 대해서도 동시에 링크를 부여할 수 있다. 효과 이번에 개발한 기술을 이용하여 전세계에서 공개되고 있는 LOD중에서 같은 대상을 나타내는 데이터를 발견하고 링크를 부여할 수 있다. 예를 들어 국가가 소유하고 있는 데이터를 LOD로 공개하거나, 기업이 소유하고 있는 데이터를 LOD와 조합해 이용한다든가 하는 일이 쉽게 실현될 수 있다. 후지쯔연구소에서는, 본 기술과 제휴 가능한 LOD검색서비스(http://lod4all.net/)를 2014년 1월 중(예정)에 일반 공개한다. 이 검색 서비스는 LOD활용 기반에 의해 시각적이면서 대화적인 검색 인터페이스가 이용 가능하다. 전 세계에 공개되고 있는 LOD중에서 라이센스 및 다운로드 조건에 적합한 데이터 세트에 대한 개요를 검색하거나 데이터의 내용을 참조할 수 있다. 검색 인터페이스의 표시 예 향후 이번에 개발한, 전 세계에 공개되고 있는 LOD에 링크를 부여하는 기술은 관공서나 지자체에서 오픈 데이터의 각종 실증 실험에 적용하여 기술 검증을 추진, 2015년도 내에 실용화를 목표로 한다. |