내용 |
네덜란드 국립도서관이 주축이 되어 진행되고 있는 임팩트 프로젝트IMProving ACcess to Text는 1단계를 마치고 2단계에 접어들었다. 2008년부터 2009년까지 진행된 프로젝트 1단계에서 다양한 정보기술 도구가 개발되었다. 2010년부터 2011년까지 진행되는 프로젝트 2단계에는 새로운 기관들이 참여하였다. 2단계에서는 스페인, 불가리아, 슬로베니아, 체코, 프랑스, 폴란드에 위치한 기관들이 각국의 언어로 역사 어휘를 구축할 예정이다. 2011년 초에는 중앙 서비스 기관으로 IMPACT 경쟁력센터center of competence를 설립하여 모든 유럽 정보제공기관에 디지털화된 문자매체를 서비스할 예정이다. 현재 광학 문자 인식Optical Character Recognition(OCR)을 이용해서 1900년 이전 자료의 문자를 인식했을 때 만족스러운 결과를 얻기 힘들다. 또한 고문서와 고서의 디지털화는 고대 언어 해독과 디지털화에 대한 경험이 장애 요인이다. 임팩트 프로젝트는 인쇄된 역사적인 문자 기록에 대한 접근을 향상시키기 위해 다양한 정보기술 도구를 개발했다. 1. 적응형 광학문자인식 엔진adaptive OCR engine 2. 웹 기반 협력 보정 시스템 3. ABBYY 社의 파인리더FineReader OCR 엔진 향상[주1] 4. 이미지 강화 툴킷 5. 분할segmentation 툴킷 6. 후-보정 모듈 7. 명명 엔티티 리포지터리 그 밖에 어휘자원, 기능확장 파서, 프로토 타입의 분류기와 엔진들이 있다. 프로젝트의 기술 협력기관으로는 IBM과 ABBYY 社가 참여하고 있다. 프로젝트 1단계에는 네덜란드, 영국, 프랑스, 독일, 오스트리아의 국가도서관을 비롯한 17개 기관이 참여했으며, 2단계에는 스페인, 불가리아, 슬로베니아, 체코의 국가도서관을 비롯한 12개 기관이 추가로 참여한다. 프로젝트 웹사이트는 http://www.impact-project.eu/index.php 이다. 주1] 파인리더의 광학문자인식 성능은 다음 블로그 기사를 참고할 수 있다. http://digitalstory.net/80105670038 |