내용 |
미국국립보건원은 생의학 연구 데이터의 유용성을 높이기 위해 약 3천2백만 달러를 투자했다. 넓은 범주의 미국국립보건원( National Institutes of Health, NIH) 기금이 빅 데이터라고도 불리는 점점 복잡해지는 생의학 데이터 세트의 폭발적인 증가를 분석하고 활용할 수 있는 새로운 전략을 개발하는데 사용될 것이라고 발표되었다. 이 NIH 기금은 2014 회계연도에 NIH의 BD2K( Big Data to Knowledge) 사업에 따라 약 3천2백만 달러를 투자한다. 이는 사용 가능한 기금을 출자하여 2020년까지 약 6억5천6백만 달러를 총 투자할 것으로 예상된다. DNA 시퀀싱과 이미징 등 생의학 연구에 대한 변형 기술의 출현으로 생의학 데이터 생성은 데이터를 활용하는 연구자의 능력을 능가하고 있다. BD2K 기금은 이러한 데이터에 대한 접근 및 그것을 이용하여 새로운 발견을 할 수 있는 능력을 개선하기 위해 새로운 접근법, 소프트웨어, 도구, 교육 프로그램을 개발하도록 지원할 것이다. 연구자들은 인류의 건강을 개선하는 궁극적 애플리케이션을 위해 프라이버시를 보호하면서 많은 양의 데이터를 캐낼 수 있는 새로운 분석을 찾아내기를 바란다. 예를 들면, 누가 유방암, 심장 마비, 기타 질병과 상태 등의 위험에 처해 있는지를 예측할 수 있는 능력과 그것들을 치료하고 방지하기 위한 더 나은 방법 등이다. 이미지 출처 : Biomedical Big Data Explosion http://www.nih.gov/news/health/oct2014/images/od-09-infogrphic_large.png “오늘날의 연구에서 데이터 생성은 기하급수적으로 증가하여 심지어 10년 전 우리가 예상했던 어떤 것보다도 더 빠르다.” 라고 NIH 이사 의학박사 Francis S. Collins가 말했다. “오늘날의 생의학 연구에서 매머드급 데이터 세트는 빠른 속도로 부상하고 있으며 우리가 그 데이터의 유용성을 극대화하는 데 장애가 되는 것을 극복하는 데 이런 기금이 도움이 된다. 이러한 데이터의 잠재력은 그것이 효과적으로 사용될 때 매우 놀라운 것이 된다.' 이번 기금은 각각 특정 데이터 과학 문제를 해결하는 12개의 센터를 설립할 것이다. 이 기금은 또한 데이터 검색 색인의 개발에 대해 과학적인 지역사회 중심의 접근방식을 구축하는 컨소시엄과 데이터 과학 교육 및 인력 개발을 지원할 것이다. 많은 양의 데이터를 생성하는 연구는 수천 명의 참가자를 검사하는 전염병 연구에 대한 영상 프로젝트로부터 30개 이상의 암 형태의 게놈 토대를 검사하는 Cancer Genome Atlas( http://cancergenome.nih.gov/ ), 인간 게놈에서 모든 기능 요소를 식별하려는 ENCODE Project( http://www.genome.gov/10005107 ) 등과 같은 큰 질병 중심의 노력 이르기까지 계속 확산한다. 그러한 노력은 수십억의 데이터 포인트를 생성했으며 본래의 연구자와 다른 연구자들, 즉 자신의 작업에서 생물학 및 생의학에 관한 우리의 지식을 진전시키기 위해 이 결과를 사용하는 연구자들에게 기회를 제공한다. “생의학 연구의 미래는 분자에서 인구까지 생물학의 범위에 전체에 걸친 데이터를 완전히 이해하는 것에 관한 것이다.”라고 NIH 데이터 과학 분야 부이사 Philip E. Bourne 박사가 말했다. “그와 같이 우리 각자의 건강은 빅 데이터 문제다. 우리가 기금을 지원한 연구 데이터를 최대한 활용하도록 보장하려는 것이 NIH의 최우선 순위이다.' 생의학 연구를 위한 `디지털 생태계`의 설립을 요구하는 Bourne 박사는 BD2K 프로그램이 과학적 발견에 대한 효율성과 비용 효과성을 증가시키려는 NIH의 노력의 최전선에 있다고 말했다. 생의학 정보를 최대한 이용하는 데 있어 해결해야할 문제는 많이 있다. 데이터에 접근하고 분석하기 위해 데이터 및 적절한 소프트웨어 도구의 위치를 찾아내는 문제, 여러 형태의 데이터에 대한 데이터 표준의 부족, 연구 커뮤니티 전반에 걸쳐 데이터 표준의 채택이 낮다는 문제 등이 그것이다. 프라이버시를 보호하면서 데이터 공유를 용이하게 하기 위한 새로운 정책의 필요성도 있다. 표준의 부족 및 데이터를 동료들이 사용하는 것을 내켜하지 않는 것이 데이터를 넓은 연구 커뮤니티에서 충분히 유용하게 하려는 노력을 방해한다. 큰 데이터 세트는 상대적으로 생성하기가 비싸며, 그것이 공유되고 널리 사용될 때 투자 수익률(ROI)이 증가한다. 많은 과학자들은 또한 빅 데이터를 사용할 수 있는 기회나 시설이 없다. 큰 연구중심 대학이나 대형 학술의료센터에서는 바이오인포매틱스(bioinformatics), 데이터 인프라, 개인 과학자들을 가질 수 있지만, 생의학 연구 커뮤니티에서는 그렇지 않을 수 있다. 그들의 연구 시설에 관계없이, 많은 과학자들이 대규모 데이터 세트에 접근하여 분석하는 컴퓨터 이용 기술의 훈련을 받지 않았다. BD2K 기금의 네 가지 주요 구성 요소는 다음과 같다. - 빅 데이터 컴퓨팅을 위한 우수 센터 이 11개 센터는 혁신적인 접근방식, 방법, 소프트웨어, 도구, 기타 자원을 개발할 것이다. 개발 노력이 특정 연구 문제에 초점을 맞추는 한편, 그들의 성과는 데이터 통합 및 사용, 게놈 데이터 분석, 전자 건강 기록의 데이터 관리 등 빅 데이터 과학의 다양한 측면과 더 일반적으로 관련되리라고 예상된다. - BD2K-LINCS 데이터 조정 및 통합 센터 이 센터는 NIH 일반 기금의 LINCS( Library of Integrated Network-based Cellular Signatures) 프로그램을 위한 데이터 조정 센터가 될 것이다. 그것은 다양한 유형의 세포, 조직 및 네트워크가 약물 및 기타 요인에 의한 붕괴에 어떻게 응답하는지 특성화하는 것을 목표로 한다. 센터는 여러 데이터 형태에서 나온 데이터와 LINCS 데이터베이스를 해석하고 통합하는 데에 초점을 맞추는 데이터 과학 연구를 지원할 것이다. 이 센터는 BD2K와 NIH 일반 펀드가 공동으로 기금을 지원했다. - BD2K 데이터 검색 색인 조정 컨소시엄 ( Data Discovery Index Coordination Consortium, DDICC). 이 프로그램은 생의학 연구 데이터 세트의 검색, 접근, 인용을 가능하게 하는 생의학 데이터 검색 인덱스를 커뮤니티 기반으로 개발하기 시작하고자 컨소시엄을 생성할 것이다. - 교육 및 인력 개발. 이 기금은 그들의 작업이 특정 전문지식의 사용 또는 엄청난 양의 데이터 및 데이터 자원의 생성을 필요로 할 수 있는 사람들뿐만 아니라 데이터 과학 분야에서 전공할 현재와 미래 세대 연구원의 교육과 훈련을 지원한다. 2013년 12월에 시작된 BD2K 사업은 NIH 일반기금뿐만 아니라 27개 기관과 센터에서 기금을 대는 프로그램이다. NIH의 노력은 영국과 호주에서 개발 중인 것, 그리고 유럽연합에 의해 개발 중인 것을 포함하여 전 세계에서 많은 관련 프로젝트의 맥락에서 개발되고 있다. 전 세계 과학자들이 건강과 질병에 대한 이해를 높일 수 있고 궁극적으로는 진단, 치료, 예방을 향상하는 데 기여할 수 있게 하는 이 국제적 노력에 참여한 사람들 간에 소통과 협업을 하는 것에 큰 관심이 있다. 기금 수혜자들에 대해 더 많은 정보를 보려면 다음을 참고하면된다. http://bd2k.nih.gov/FY14.html |