2015년 중국 최대 전자상거래업체 알리바바의 마윈 회장은 "정보 기술(IT)시대는 끝나고 데이터 기술(DT)시대가 올 것이다”라고 말한 바 있다. 굳이 마윈의 말을 언급하지 않더라도 4차 산업 혁명의 핵심 기술인 인공지능(AI), 머신러닝 및 사물인터넷(IoT)은 모두 데이터에 기반을 두고 있다. 특히, IoT로 발생하는 데이터의 양은 폭발적으로 증가할 것으로 예상된다.

IDC에 따르면 전 세계에서 하루 평균 약5,000페타바이트(PB)의 데이터가 생성되고 있으며, 이 중 비정형데이터와 정형데이터 비율은 9:1 정도이다. 정형 데이터는 대부분 데이터베이스(DB)를 기반으로 기업에서 잘 관리되고 있다. 그렇다면 나머지 90%를 차지하는 비정형 데이터는 과연 잘 관리되고 있을까?

비정형 데이터의 효과적인 관리를 위한 세 가지 원칙

기업에서 생성되는 비정형 데이터는 세 가지 유형으로 나눌 수 있다 첫 번째 유형은 개인PC, 개인 태블릿 및 스마트폰 등의 데이터다. 이러한 데이터는 대부분 개인이 관리하고 있으며, 대부분의 기업의 IT 관리 시스템에서는 관리되지 않고 있다. 두 번째는 기업의 각 팀 및 지점별로 업무 파일을 공유하기 위해 사용하는 파일서버에 보관된 데이터다. 이러한 파일 서버는 대부분 NAS(Network Attached Storage)의 형태이며 공유가 편리하지만, 파일 서버를 통해 공유되는 데이터는 기업 데이터 관리 정책의 사각지역에 놓여 있는 경우가 많다. 기업에서 발생하는 비정형 데이터 중 세 번째 유형은 바로 IoT 데이터다. 기업에 도입된 IoT는 엄청난 양의 데이터를 전 세계적으로 발생시키고 있다. 이러한 데이터를 보다 효과적으로 수집하고, 저장 및 관리할 수 있는 방법을 찾는 일이 시급하다고 할 수 있다.

안타깝게도 현실에서는 이러한 비정형 데이터가 수집되지 않고 있거나 여러 장치에 걸쳐 분산돼 있다. 마윈이 이야기한 데이터기술(DT) 시대에서는 데이터 거버넌스 측면에서 이러한 데이터를 수집 및 통합하여 일관되게 관리할 수 있는 방안이 필요하다. 이를 위해서는 첫째, 다양한 소스로부터 획득한 데이터를 모두 ‘데이터 레이크(Data Lake)’로 통합해야 한다. 그리고 데이터 레이크에 수집된 모든 데이터는 원하는 시점에 언제든지 활용하기 위해 잘 정리돼 있어야 한다.

둘째, 모든 데이터를 일관된 정책 및 생명 주기를 통해 관리해야 한다. 데이터의 활용 가치에 따라 보존 기간을 유연하게 적용하고, 인가된 사용자만이 데이터를 조회 및 삭제할 수 있어야 한다. 예를 들어 2018년 5월 시행 예정인 유럽연합(EU)의 개인정보보호법(GDPR)은 정보주체의 개인정보에 대한 권한을 대폭 확대하고 한층 강화된 개인 데이터 보호 규정을 두고 있다. 기업들에게는 데이터에 대한 보존 기간 설정을 통해 데이터를 정해진 기간에 완벽하게 보호하고 그 이후 삭제할 것이 요구된다.

셋째, 호수의 수질을 관리해 주지 않으면 호수의 물이 썩듯 데이터 레이크에 저장된 데이터의 무결성을 관리해 줘야 한다. 무결성은 데이터의 수명 주기에 걸쳐 데이터가 정확하고 일관됨을 보증하는 것이다. 이를 위해서는 데이터 이중화 또는 백업을 통해 데이터 손실을 방지하며, 애플리케이션의 요청에 따라 데이터를 불러올 수 있도록 정합성이 보장돼야 한다

오브젝트 스토리지, 간편하고 안전한 데이터 관리 실현

그렇다면 이러한 비정형 데이터의 효과적인 관리 원칙을 충족시켜 줄 수 있는 솔루션은 무엇일까? 바로 오브젝트 스토리지를 들 수 있다. 비정형 데이터의 효과적인 관리를 실현하는 오브젝트 스토리지의 특징은 다음과 같다.

우선 오브젝트 스토리지는 데이터 레이크에 최적화된 스토리지다. 오브젝트 스토리지의 인터페이스는 인터넷 기반의 http 프로토콜을 기본적으로 지원한다. 인터넷만 연결돼 있으면 전 세계 어디서든 간단한 설정만으로 모바일 기기 및 웨어러블에 다양한 IoT 데이터를 저장하고 이동시킬 수 있다. 반면 전통적인 NAS시스템은 데이터센터를 벗어나는 경우에는 복잡한 연결 방식을 취해야 하므로 비정형 데이터의 저장 및 관리에 적합하지 않다.

또한 기존 NAS의 계층적인 디렉토리 방식과 비교해, 오브젝트 스토리지는 해시코드 기반의 고유한 ID와 해당 데이터의 다양한 속성을 담는 메타데이터를 통해 데이터를 저장한다. 물건을 종류별로 분류하고 가나다순으로 정렬하는 디렉토리 정렬 방식의 물류 창고와는 달리, 자동화된 로봇과 바코드를 활용해 빈 선반에 물건을 놓고 실시간으로 선반 위치를 확인해 물건을 가져오는 방식을 취하는 것이다. 데이터를 고유의 ID와 메타데이터로 분류 관리하며, 자동으로 분산된 노드에 효율적으로 배치한다. ID만 알면 데이터의 위치 정보를 알 필요 없이 데이터를 찾을 수 있다. 데이터 증가에 따라 저장 구조가 복잡해지는 NAS와 비교해, 단순화된 고유 ID로 검색시간을 대폭 줄여줄 수 있다.

마지막으로 오브젝트 스토리지는 메타데이터를 통해 사용자의 개입 없이 자동으로 데이터를 관리한다. 메타데이터는 보관 주기, 키워드 및 보호 정책 등 파일의 검색 및 관리에 필요한 추가 정보를 담고 있다. 메타데이터는 비정형 데이터인 파일에 정형성을 부여해 데이터를 보다 쉽게 검색할 수 있다. 기존의 NAS라면 이런 기능을 지원하기 위해 엄청난 스크립트와 관리 인원이 필요할 수 있다. 하지만 오브젝트 스토리지는 파일 단위 정책을 통해 불필요한 데이터의 복제 또는 기간이 만료돼 필요 없게 된 파일을 자동으로 정리해 줌으로써, 스토리지 관리를 위한 인원과 절차를 간소화해 준다. 또한 데이터 보호 측면에 있어서도 파일 공유 및 동기화 솔루션을 오브젝트 스토리지에 통합하여 인터넷에 연결된 모든 사용자 PC 또는 모바일 기기에 데이터를 자동으로 동기화 및 백업할 수 있다.

데이터는 4차 산업혁명 시대 디지털 비즈니스 운영에 핵심적인 자산이 되고 있다. 이러한 데이터의 통합 관리는 다양한 소스의 데이터를 손쉽게 저장하고, 신속한 검색 및 삭제를 통해 효율성을 높여야 한다. 비정형 데이터의 가치 확대를 통해 혁신 및 성장을 꾀하고자 하는 기업들은 자사의 IT 시스템에 산재돼 있는 데이터를 모으고 필요에 따라 안전하게 활용하도록 지원하는 오브젝트 스토리지의 도입을 적극 검토해야 할 것이다.

권필주 his-pjkwon@hyosung.com 필자는 스토리지 전문가로, 데이터 저장하는 방식에 대한 제안과 컨설팅을 해 왔다. 최근 클라우드, IoT, 빅데이터로의 트렌드 변화에 맞춰 새로운 저장방식으로 조명 받는 오브젝트 스토리지에 대한 이해를 돕고 적용할 수 있도록 조언, 안내하는 일에 주력하고 있다.

(*이 칼럼은 Nextdaily의 편집방향과 다를 수 있습니다.)

관련기사

저작권자 © 넥스트데일리 무단전재 및 재배포 금지