IT Insight

코로나, 오픈 사이언스 운동에 불을 지피다

2020. 4. 20. 09:30

전 세계가 코로나 바이러스로 몸살을 앓는 중입니다. 이를 극복하기 위해 의료계, 개인, 정부, 기업까지 여러 노력이 이뤄지고 있는데요. 오늘은 과학계 이야기를 하고자 합니다. 정확히 말해 과학계 협업 방식입니다.



요즘 과학계에선 과거 유행병이 돌던 때와는 비교할 수 없을 수준으로 정보를 공유하고 해결책을 공동으로 모색하고 있습니다. 이러한 문화를 과학계는 ‘오픈 사이언스(Open Science)’라고 부르기도 합니다. IT 업계의 오픈소스 문화처럼 개방성과 집단지성을 이용해 문제를 해결하는 것이죠.


 오픈 사이언스는 왜 필요할까?


‘과학계는 폐쇄적인 곳일까?’ 이 질문에 동의하지 않는 분이 많을 겁니다. 당장 과학 교과서를 펴보거나 인터넷을 검색해보면 누구나 원하는 과학 정보를 찾을 수 있기 때문입니다. 하지만 실제 현업에서 과학을 연구하는 학자들의 방식을 보면 그렇지 않습니다.


새로 발견되는 과학은 보통 ‘논문’이란 형식으로 공개됩니다. 논문은 새로운 주제와 그 정보를 입증할 데이터, 연구 방식 등을 담습니다. 전통적으로 그런 연구결과는 책이라는 도구를 통해 확산됐습니다. 어떤 특정 논문의 내용은 유명 학술지[각주:1]를 통해 외부에 더 빠르게 알려지곤 했습니다. 네이처, 사이언스, 셀 등이 대표적인 과학계 유명 학술지죠.



학술지는 주간지나 월간지처럼 주기별로 출판됐는데, 그 분량도 한정되어 있습니다. 전 세계 모든 연구자들의 논문을 실을 수 없으니 출판사는 투고된 원고 중 일부만 채택해해서 출판해왔죠. 어떤 원고를 채택하냐는 내부 동료 연구자들이 심사해서 결정됐습니다. 학술지에 실리는 연구결과는 그만큼 영향력과 신뢰성이 높다고 평가받기에 많은 연구자들이 학술지에 투고하고, 또 많이 읽기도 했습니다.


그런데 2000년대 인터넷 기술이 발전되면서 기존 출판 논문 업계에 변화가 생깁니다. 일단 종이책이라는 형태는 아무래도 접근성이 떨어집니다. 인터넷에 올라온다면 좀 더 검색이 쉽고 보다 다양한 사람에게 전달이 가능합니다.


비용도 문제였습니다. 학술지는 무료가 아닙니다. 인터넷에서 열람이 가능하든 책으로 보든 학술지를 읽으려면 비용을 내야 했습니다. 유명한 학술지일수록 이 구독료는 너무 비싼데, 예를 들어 화학 분야의 학술지인 ‘테트라헤드론 레터스(Tetrahedron Letters)[각주:2]’의 경우 기업이나 기관 이용자일 경우 연간 2500만 원을, 개인 이용자는 약 100만 원을 지불해야 합니다.


보통 학술지를 구매하는 곳은 대학 도서관인데 지난 몇 년간 이 비용이 너무 비싸져 학술지 구독을 취소하거나 학술지 출판업체와 갈등을 빚는 일이 늘어났죠. 2012년 하버드는 매년 지불해야 하는 학술지 구독 비용이 한화로 40억 원이 넘어 앞으로 구매가 힘들 거라고 밝히기도 했습니다. 대학 도서관도 이러하니 개인 또한 금전적 부담으로 원하는 논문을 읽지 못하는 경우가 종종 발생했습니다.



‘온라인에서는 누구나 무료로 논문을 볼 수 있게 열어두자.’ 이런 목소리를 반영한 운동이 바로 오픈 사이언스입니다. 사실 오픈 사이언스도 그 아래 세부적으로는 여러 범주로 나뉠 수 있는데요. 기존 학술지 출판사에 대항해 ‘논문’에 대한 개방성을 높이려는 운동을 ‘오픈 액세스(Open Access)’라고 부릅니다.


연구에 사용한 핵심 데이터를 외부 연구자한테 공개하는 것은 ‘오픈 데이터(Open Data)’라고 불리고요. 과학실험에 필요한 장비를 대중에게 열어 주는 문화, 어려운 연구 내용을 일반인이나 학생에게 쉽게 알려주려는 운동 역시 오픈 사이언스에 포함됩니다.


l 오픈 사이언스의 범주 (출처: https://en.wikipedia.org/wiki/Open_science#/), 재구성


 코로나 바이러스와 오픈 액세스


오픈 액세스는 오픈 사이언스 운동을 부흥시키는데 결정적인 역할을 한 운동입니다. 연구자가 오픈 액세스 운동에 참여하는 이유, 즉 논문을 누구나 무료로 볼 수 있게 열어 두는 이유는 여러 가지입니다. 일단 논문에 대한 다양한 피드백을 받아 논문의 수준을 높일 수도 있고요. 더 빠른 시간 안에 많은 사람에게 자신의 연구를 알리는 효과를 얻기도 합니다.


사실 오픈 액세스 상당수가 ‘프리프린트(pre-print)’라는 형식으로 공개되고 있는데요. 이는 최종 논문이 아닌 일종의 미완성 논문이나 연구 핵심 내용을 담은 논문들을 말합니다. 물론 오픈 액세스에도 몇몇 문제가 존재합니다. 기존 학술지처럼 동료들의 평가나 검증 없이 올릴 수 있으니 사이비 과학이나 수준 낮은 논문이 올라오기도 합니다.


연구 아이디어를 누군가에게 빼앗길 수 있는 위험도 존재하죠. 하지만 단점을 보완하는 장치가 생기면서 오픈 액세스에 대한 인기는 점점 높아지는 추세입니다. 초창기에는 비영리단체나 대학, 국가 중심으로 오픈 액세스 플랫폼이 개발됐지만 근래에는 학술지 출판기업 스스로 오픈 액세스 플랫폼을 만들어 운영하고 있습니다.


오픈 액세스 논문 수준을 높이기 위한 노력도 많아지고 있는데요. 일반 학술지처럼 동료 연구자의 검증을 받는 과정도 넣거나 댓글 창을 만들어 실시간으로 토론할 수 있게 만든 곳도 있습니다. 또한 각 나라 정부는 국가 자금을 받은 연구에 한해선 오픈 액세스 논문을 만들도록 유도하면서 연구의 개방성을 높이고 있죠.


l 오픈 액세스 형식 논문 수. CC, BY, NC 같은 기호는 영리 활용 여부, 내용 수정 허락 등을 표기한 내용이다.  하이브리드(hybrid)란 논문 내용 중 일부 내용만 공개하는 논문을 말한다 (출처: https://oaspa.org/growth-continues-for-oaspa-member-oa-content/ )


 코로나 바이러스와 오픈 액세스


아무리 오픈 액세스가 인기가 높다고 해도 사실 아직 많은 논문이 학술지 출판 방식으로 외부에 공개되고 있습니다. 통계를 보면 2018년 기준으로 전체 과학 관련 논문 중 약 36% 정도가 오픈 액세스 플랫폼을 통해 발행됐습니다. 이는 코로나 바이러스 연구에서도 비슷했습니다.


2020년 2월만 해도 코로나 바이러스와 관련된 논문 수는 약 500개였습니다. 이 중 약 160개만 오픈 액세스 형태로 무료였고 나머지 논문을 보기 위해 돈을 지불해야 했죠. 하지만 코로나 바이러스 사태가 점차 심각해지자 상황이 바뀌었습니다. 3월 16일을 기점으로 전 세계 주류 학술 출판지 대다수가 코로나 바이러스와 관련된 모든 논문과 데이터는 무료로 개방하고 재사용할 수 있게 열여 두겠다고 밝힌 것입니다.[각주:3]


현재 코로나 바이러스와 관련된 거의 모든 연구결과는 각 출판사들은 자체 홈페이지를 통해 열람 및 다운로드가 가능하며, 기존의 주류 오픈 액세스 플랫폼인 바이오아카이브(bioRxiv), 메드아카이브(medRxiv), 펍메드(PubMed) 등에서도 관련 논문이 활발히 공유되고 있습니다. 중국의 경우 국가 과학기술 관련 학술지 플랫폼 CQVIP를 통해 1만 4천여 개의 코로나 관련 논문을 무료로 공개하고 있습니다.


l 대표적인 오픈 액세스 저장소들 (출처:각 홈페이지)


오픈 액세스로 여러 논문이 빠르게 공유되면서 올해는 한 가지 해프닝이 생기기도 했습니다. 1월 31일 인도공과대학에서 올린 논문 문이었습니다. 이 논문에선 코로나 바이러스와 에이즈 감염을 일으키는 HIV 염색체와의 유사성을 지적하며 코로나 바이러스가 인간이 일부러 제작한 바이러스일 수 있다는 가능성을 제기했습니다. 해당 논문은 바이오아카이브라는 오픈 액세스 플랫폼에 올라왔는데, 이를 읽은 전 세계 과학자들은 과학적 오류를 지적하기 시작했습니다.


● Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag  논문: https://www.biorxiv.org/content/10.1101/2020.01.30.927871v1


대부분이 논문에서 언급한 염기서열은 자연계 어디서나 존재하는 내용이라며, HIV와 연관 짓기 어렵다는 내용이었고, 그 검증 방식이 문제였다고 설명했습니다. 결국 이틀 뒤 이 논문은 원문 작성자에 의해 삭제됐습니다.


하지만 논문 내용은 많은 소셜미디어와 뉴스를 통해 전달됐고, 이로 인해 다양한 음모론이 생기기도 했습니다. 논란이 있은 후 바이오아카이브는 저장소 안에 어떤 논문이 동료 평가를 받았는지 표기해 신뢰성 여부를 확인할 수 있게 만들었고, 동시에 언론이나 개인이 외부에 인용할 때 아직 과학계에서 검증받지 않은 내용이라는 걸 명시해달라고 부탁하기도 했습니다.[각주:4]


 데이터 과학 성장과 함께 떠오르는 ‘오픈 데이터’


오픈 사이언스 분야에서 가파르게 성장하고 있는 분야가 바로 오픈 데이터입니다. 여기선 데이터 포맷이 연구자들이 자주 쓰는 형태 또는 컴퓨터 분석이 쉽게 잘 정제된 것이 특징입니다. 이번 코로나 바이러스를 계기로 다양한 오픈 데이터와 관련 플랫폼이 주목을 받고 있습니다.



원래 과거의 오픈 데이터는 주로 정부나 공공단체들이 만든 것이 많았습니다. 코로나 사태를 예를 들면, 확진자 수, 지역 정보, 확진자 이동경로 같은 일반적인 통계나 공지사항 같은 것이죠. 이런 데이터는 일반 대중들에게 유용한 정보이기도 하지만 개발자에게도 새로운 서비스를 만드는 것에 도움을 주기도 합니다. 마스크 알리미 같이 마스크 구매 가능 약국을 쉽게 볼 수 있는 서비스가 대표적으로 공공 데이터를 활용해 민간에서 만든 서비스입니다.


최근엔 공공주도 데이터 외에도 연구자들이 직접 데이터를 공개하는 경우가 늘어나고 있습니다. 가령 데이터 과학자들의 커뮤니티로 유명한 ‘캐글’이란 서비스가 있습니다. 이곳에선 다양한 분야의 데이터가 분석하기 쉽게 정제돼 있거나 다운로드할  수 있습니다.


기업이나 연구 단체들은 캐글에 특정 데이터를 공개하고 해결책을 의뢰한 글을 올리기도 합니다. 얼마 전엔 이 사이트에선 한국 개발자들이 한국 질병관리본부에서 공개한 데이터를 영문화하고 정제해 공유해서 화제를 모으기도 했습니다.


l 캐글에 올라온 한국 코로나 관련 데이터 (출처: https://www.kaggle.com/kimjihoo/coronavirusdataset )


AI2[각주:5]에서 만든 코로나 전문 데이터 검색 도구도 인기입니다. 코로나19 오픈 리서치 데이터세트 (COVID-19 Open Research Dataset)라는 이 서비스에선 코로나 관련 논문과 4만 4천 개가 넘는 메타 데이터를 검색하고 다운로드할 수 있게 지원하고 있습니다. 전 세계 대학과 국제기관에 흩어져 있는 데이터를 한 번에 검색할 수 있게 해준다고 하는군요. AI2는 여기서 공개한 데이터들로 코로나 극복 방안을 연구하는 경연 대회[각주:6]를 열기도 했습니다.


코로나 바이러스와 관련된 연구들은 염기서열, 유전자 정보를 다루는 경우가 많은데요. 그래서 유전자 정보 관련 오픈 데이터 플랫폼도 관심받고 있습니다. ‘GISAID’는 인플루엔자 바이러스와 관련된 염기서열 정보, 임상실험 및 유행병 정보를 공유하는 플랫폼입니다.


2006년 독일 정부 지원으로 만들어진 비영리단체가 운영하고 있다고 하는데요. 여기엔 누구나 데이터를 올리거나 다운로드할 수 있습니다. 이와 비슷한 ‘갤럭시’라는 플랫폼도 있습니다. 미국 국립과학재단을 주축으로 미 국립 인간유전체 연구소, 존스 홉킨스 대학교, 펜실베니아주립대학교 같은 연구기관 등이 함께 운영하는 이 플랫폼은 의학공학 분야의 다양한 데이터를 대량으로 업로드할 수 있게 도와줍니다.


저장 공간 역할 외에도 특정 데이터를 추출하고 정렬하는 등 데이터 관리 기능도 웹 기반으로 제공하고 있으며, 교육 도구로도 이용되고 있습니다. 이 외에도 미국 국립생물공학정보센터가 운영하는 ‘진뱅크(GenBank)’, 중국정부가 운영하는 ‘국립 유전체학 데이터 센터’, 프레드 허친슨 암 연구센터가 만든 ‘넥스트스트레인’ 에서도 다양한 염기서열 정보를 무료로 공개하고 있습니다.


l MIT에서 만든 오픈소스 산소호흡기 (출처: MIT Emergency Ventilator (E-Vent) Project http://news.mit.edu/2020/ventilator-covid-deployment-open-source-low-cost-0326)


과학계의 노력과 더불어 IT 업계에서의 도움도 많아지고 있습니다. MS, 페이스북, 위챗 같은 대형 IT 기업은 코로나 극복을 위한 해커톤[각주:7]을 개최하거나 오픈 데이터 운영을 위한 자금[각주:8]을 지원하고 있죠.


개인들도 산소호흡기나 마스크를 직접 만들고 3D 프린터로 출력할 수 있는 오픈소스 하드웨어를 속속 공개하고 있습니다. 코로나 바이러스는 전 세계가 유례없는 위기를 만들어냈지만 이로 인해 새로운 협업 문화를 만들어냈다는 점에서 향후 큰 의미가 있을 듯합니다.


글 l 이지현 l 테크저널리스트 (j.lee.reporter@gmail.com)


* 해당 콘텐츠는 저작권법에 의해 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.




  1. 학술, 예술 분야에 관한 전문적인 글을 싣는 잡지이며, 저널(Journal)이라고 부르기도 한다. 많은 노벨 과학상 수상자들이 이런 학술지에 연구 내용을 투고하곤 한다. [본문으로]
  2. 엘스비어가 출판하는 화학분야 학술지다. 엘스비어는 네달란드 기반 기업으로 대형 학술 출판지로 손꼽히는 곳이다. [본문으로]
  3. https://wellcome.ac.uk/press-release/sharing-research-data-and-findings-relevant-novel-coronavirus-covid-19-outbreak [본문으로]
  4. https://www.medrxiv.org/content/what-unrefereed-preprint [본문으로]
  5. 마이크로소프트(MS) 설립자인 폴 알렌(Paul Allen)이 설립한 AI 연구소다. https://allenai.org/ [본문으로]
  6. https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge [본문으로]
  7. https://covid-global-hackathon.devpost.com/ [본문으로]
  8. https://wellcome.ac.uk/press-release/bill-melinda-gates-foundation-wellcome-and-mastercard-launch-initiative-speed [본문으로]
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS

댓글을 달아 주세요

  1. Favicon of https://fireflystory.tistory.com BlogIcon fireflystory 2020.04.20 10:14 신고  댓글주소  수정/삭제  댓글쓰기

    오픈 사이언스의 정의에 대해 잘보았습니다. ^^

  2. Favicon of https://mercure1026.tistory.com BlogIcon 세상 따라쟁이 2020.04.20 18:31 신고  댓글주소  수정/삭제  댓글쓰기

    잘 봤습니다
    많은 도움이 됩니다
    오늘 뉴스에서 온라인 개학에 LG CNS에서 많은 도움을 주셨다고 봤습니다.
    감사합니다^^

  3. Favicon of https://giho1.tistory.com BlogIcon 아무 말 2020.04.20 18:53 신고  댓글주소  수정/삭제  댓글쓰기

    포스팅 잘 보고 갑니다.
    시간되시면 제가 쓴 글도 보시고 가세요.!! ㅎㅎ

위로