알리바바그룹, 정확도 97.5% 문자인식AI로 중국 고서 디지털화 추진

알리바바그룹의 글로벌 연구 기관 다모(DAMO) 아카데미가 광학문자인식(OCR) 기술로 고서 속 문자를 디지털로 옮기며 중국 고서 디지털화에 나섰다.

중국 고서 속 고대 한자는 오랜 시간에 걸쳐 여러 가지 형태로 변형되어 표기법이 다양하다. 다모 아카데미는 이러한 고서를 누구든 쉽게 접할 수 있게 하고자 스캔 이미지 속 고대 한자를 디지털화하는 인공지능(AI) 광학문자인식 기술을 개발했다.

다모 아카데미가 중국 쓰촨대학(四川大學) 연구진과 함께 개발한 인공지능 고서 변환 시스템에는 단일 문자 인덱싱, 자동 문자 그룹화, 자가 지도 학습(self-supervised learning), 퓨샷 러닝(few-shot learning) 등 머신 러닝 기술이 탑재되었다. 시스템의 문자 인식 정확도는 97.5 %에 달하며, 현재 약 3만 개의 고대 한자를 인식할 수 있는 것으로 나타났다. 인식 속도는 관련 인력 대비 30배 빠른 수준이다.

알리바바그룹이 진행중인 AI 기술을 활용한 중국 고서 디지털화
알리바바그룹이 진행중인 AI 기술을 활용한 중국 고서 디지털화

기술이 공식 적용되는 첫 사업은 UC 버클리 동아시아 도서관이 보유한 중국 고서 20만 장의 디지털화다. 1000여 년 전 송나라 및 원나라 시대의 목판본과 필사본, 청나라 시대에 편찬된 중국 문헌 총서인 <사고전서(四庫全書)> 원본의 일부 등이 포함되었다.

이번 프로젝트에는 다모 아카데미, 알리바바공익기금회, UC 버클리 도서관, 쓰촨대학, 중국국가도서관 그리고 중국 저장도서관이 참여한다. 세계 곳곳에 흩어져 있는 중국 고서를 디지털화하고, 고서 변환 시스템은 향후 누구든 사용할 수 있도록 공개할 예정이다.

장컷Jeff Zhang) 알리바바 클라우드 인텔리전스 회장 겸 알리바바그룹 다모 아카데미 대표는 “알리바바그룹은 고서 디지털화를 비롯한 사회공헌 프로젝트를 위해 첨단 기술에 지속 투자할 계획이다”라면서 “알리바바그룹은 기술이 소중한 문화유산을 보존하는 데 큰 역할을 할 수 있으리라 믿으며 전 세계 도서관과 함께 이번 사업을 추진해 나갈 것”이라고 밝혔다.

이향선기자 hslee@nextdaily.co.kr

[알림] 전자신문인터넷과 넥스트데일리는 오는 6월 3일 목요일 오전 9시 30분부터 오후5시까지 “2021 스마트 디지털 워크스페이스 이노베이션” 무료 온라인 컨퍼런스를 개최한다. 이번 컨퍼런스에서는 디지털 워크스페이스 분야 글로벌 기업들의 최신 기술과 실무적용 노하우 및 성공사례가 자세히 소개된다. 비대면 시대에 변화된 기업 업무 환경의 생산성과 효율성을 극대화하는 방법도 제시된다.

관련기사

저작권자 © 넥스트데일리 무단전재 및 재배포 금지