컴퓨팅

MS 애저 기반 '문 프로젝트' 구축 완료로 한국 문학 연구 활발해지나

발행일시 : 2017-03-29 00:10

최근 세계적으로 보존이 어려운 고문서 및 옛 문학을 디지털화하여 보존하고 있다. 그러나 고문서를 실질적으로 활용하기 어려운 상황이다. 사실 지금 다른 옛 시대의 텍스트와 표현을 분석한다는 것은 수많은 데이터를 분석해야 하는 쉽지 않은 일이다. 이런 점에서 한국학도 마찬가지이다. 그러나 이제 한국학 연구가 수월해질 전망이다. 바로 머신러닝과 인공지능이 한국학과 한국문학 연구에 사용되고 있기 때문이다. 이름하여 문 프로젝트.

한국MS는 기존 한국 고서 및 근현대 문학 자료를 클라우드 상에서 데이터화 해 자유롭게 연구할 수 있는 공유 플랫폼인 문 프로젝트가 MS 클라우드 애저 상에서 성공적으로 구축 되었다고 밝혔다.

문 프로젝트는 20여 년간 한국 문학을 연구해온 웨인 드 프레메리(Wayne de Fremery) 서강대학교 국제한국학과 교수를 주축으로 하는 비영리단체인 CISK (Cambridge Institute for the Study of Korea)와 김상훈 개발자가 함께 연구하고 있다.

문 프로젝트는 MS 애저 클라우드 및 머신러닝 기술을 기반으로 기존 한국 고서 및 근현대 문학 자료를 텍스트 검색이 가능한 디지털 문서로 변환, 보다 쉽고 정확한 한국학 연구를 지원하는 플랫폼이다. 기존에 검색이 불가능하던 스캔 이미지 형태의 PDF가 가진 한계를 극복, 한글은 물론 20세기 이전의 근대 국어, 한문에 이르기까지 서체에 상관 없이 모든 텍스트를 손쉽게 검색이 가능하다. 이로써 한국 근현대 문학, 더 나아가 고문서 연구의 범위가 크게 확장될 것으로 기대된다.

‘문(Mo文oN)’ 프로젝트를 통해 김소월 시인의 '진달래꽃' 글자를 이미지로 캡처하는 모습 <‘문(Mo文oN)’ 프로젝트를 통해 김소월 시인의 '진달래꽃' 글자를 이미지로 캡처하는 모습>

예를 들어, 우리에게 익숙한 시인 김소월의 시 ‘진달래꽃’에는 “사뿐히 즈려 밟고 가시옵소서”라는 문구가 나온다. 여기에서 “즈려 밟고”에 대한 해석은 아직도 분분하다. 현대 국어에는 없는 표현이기 때문에, 정확한 뜻을 이해하기 위해서는 당시에 이 문장이 어떻게 쓰여졌는지를 다른 작품이나 동시대 문서들에 나온 표현을 찾아 비교 분석해 봐야 한다. 하지만 현재의 스캔 이미지 형태의 PDF는 검색이 불가능해, 연구자가 일일이 수만 페이지 분량을 눈으로 읽고 확인해봐야 하는 어려움이 있었다.

또한, 문 프로젝트에는 널리 사랑 받는 시 구절을 유니코드 값으로 분석해 다양한 형태의 3D 모델링을 제작하는 기능도 함께 포함돼있다. 이렇게 제작된 3D 모델은 3D 프린터 출력으로 목걸이나 반지처럼 실제로 만질 수 있는 형태의 디지털 문학으로 다시 탄생할 수 있다. 아울러, 홀로렌즈(HoloLens)와 같은 MR 기기로 학생들이 직접 문학의 세계를 체험할 수 있는 3D 교육 공간의 구성도 가능해질 전망이다.

한국MS 필란트로피즈 총괄 박선정 변호사는 “MS는 기술의 발전이 경제적인 측면 외에도 사회, 문화적인 측면에도 기여해야 한다는 철학을 기반으로 이번 프로젝트를 지원하게 됐다. 앞으로도 이러한 기술의 동등한 혜택 지원하기 위해 지속적으로 노력할 것.” 이라고 말했다.

이향선기자 hslee@nextdaily.co.kr

© 2017 nextdaily.co.kr 무단전재 및 재배포금지

서울시 금천구 가산디지털2로 123, 701호 ㅣ 대표전화 : 02-6925-6318
사업자등록번호 : 119-86-28010 ㅣ 정기간행물 등록번호 : 서울 아 01185

Copyright © Nextdaily. All Rights Reserved