자연관찰 카드뉴스
칼럼

[이재관의 데이터 품질 톺아보기] 정확한 데이터, 부정확한 데이터 구별하기

발행일시 : 2019-01-22 00:00
[이재관의 데이터 품질 톺아보기] 정확한 데이터, 부정확한 데이터 구별하기

기업 목표를 달성하기 위해 수행한 비즈니스 활동에 대한 결과는 늘 기대한 대로 얻어지지 않는다. 수행된 프로세스는 재공품과 같이 눈에 보이는 물체로서 결과를 얻는 경우도 있고 변화된 모습이나 상태, 회수와 시간 등으로 사람이 쉽게 느낄 수 없는 경우도 있다. 비즈니스 활동의 결과인 데이터는 활동을 올바르게 잘 수행하였는지에 대한 상태를 표현하고 데이터 그 자체의 옳고 그름에 대한 상태도 나타낸다.

데이터에 대한 평가를 제일 먼저 한번에 할 수 있는 품질 차원(Dimension)은 정확성(Accuracy)이다. 정확성은 데이터에 대한 값이 존재하느냐 존재하지 않느냐로 먼저 구분하고 데이터 값이 존재할 때 유효(Valid)하는가와 무효(Invalid)한가로 구분할 수 있다. 유효한 데이터는 자체 성격에 맞는 올바른(Right) 데이터인가와 그른(Wrong) 데이터인지로 판명한다.

사람이 태어나며 얻은 최초의 데이터는 태어난 일시(일자와 시각)로 하나의 개체(Entity)가 세상에 최초로 존재함을 의미한다. 사람들은 자신이 세상에 태어나 존재하게 된 그 일자를 생일로 기념한다. 세상 일자의 기준은 옛날 많은 학자에 의해서 연구되며 세상 모든 사람들이 동일하게 인식할 수 있도록 정했고 문화적 관습에 의해서 달력을 선택한다. 농경사회 문화에 깊이 젖어있는 대부분 아시아인은 주로 태음력을 사용한다.

사람은 자연생태계의 거대한 시스템 메카니즘에 의해서 태어나자 마자 생일이라는 데이터는 두개의 값을 가지게 되었다. 대한민국에 거주하는 사람들은 1962년에 제정된 주민등록법에 따라 거주 지역 자치단체에 등록하게 했다. 이때 각 주민을 유일하게 식별할 수 있는 번호(식별자, Identifier)로 생년월일을 조합하여 주민번호를 부여했다. 그때 정부기관은 유럽 및 북미지역에서 주로 사용하는 태양력을 기준으로 번호를 부여했다.

많은 사람은 생일을 태음력으로 기억하고 기념한다. 운전면허증, 여권 등 공식적인 문서에는 어떤 생일을 기록할까? 생일 데이터는 어떤 데이터 값이 올바른 값인가? 한 개체가 한 활동에 의해 얻어진 결과인 데이터가 가지는 유효한 값은 하나 이상 일 수 있지만 올바른 값은 하나이다. 한 개체가 한 활동 결과인 데이터에 대한 값을 두 개 이상 가지는 경우가 발생하기도 한다.

태어난 아기의 몸무게를 쟀을 때, 단위 선택에 따라 다른 값을 나타내게 된다. 절대적 측정값은 유일하지만, 표현하기 위한 기준에 따라 값이 올바른지 혹은 그른지 판단한다. 몸무게 단위는 MKS(Meter-Kilogram-Second)와 FPS(Foot-Pound-Second) 시스템으로 개체가 존재하는 시스템에서 선택하여 판단한다. 세상이 복잡해 지면서 여러 시스템을 오가며 데이터 값을 환산하여 사용하지만 오류가 발생하여 사고가 일어나기도 한다.

정확한, 부정확한 데이터 구별 구조, “Data Quality: The Accuracy Dimension”, Jack E. Olson, MK <정확한, 부정확한 데이터 구별 구조, “Data Quality: The Accuracy Dimension”, Jack E. Olson, MK>

데이터 값이 정확한가? 부정확한가는 데이터의 주체인 개체에 대한 특성(Property)을 규명하는 것으로 개체가 속한 시스템의 문화와 규칙에 기반한다. 개체를 정의한 속성 유형(Attribute Type)이 가지고 있는 데이터에 대한 고정 값, 허용 범위, 생성 공식이 판단의 근거이고 기준이다. 개체를 정의하고 속성 유형을 정의한 결과를 메타-데이터 리파지토리에 담아놓고 지속적으로 품질 평가의 기준으로 삼아야 하는 중요한 이유이다.

하나의 데이터가 정확한가? 부정확한가는 기업의 비즈니스 상에서 한 순간에는 치명적이지 않다. 데이터는 개체로부터 출발하기 때문에 개체를 변화시키거나 개체가 다음 활동으로 이어질 때, 품질에 대한 오류로 전체 시스템에 나쁜 영향을 준다. 시스템이 늘 건강하게 유지되고 있는가를 데이터 품질을 정기적으로 점검하여 확신을 가지고 비즈니스 활동이 이루어져야 한다. 건강한 시스템은 건강한 데이터로부터 유지될 수 있고 비즈니스 활동을 수행하는 모든 이들이 책임감을 가지고 정성스럽게 데이터를 다룰 때 이룰 수 있음을 기억해야 한다.

이재관 objectjk@gmail.com 필자는 30년 전, 중소기업 전산화를 위해 프로그래머로부터 출발하여 광양제철소 생산공정 진행을 위한 데이터베이스의 데이터 정합성을 관리하며 데이터 품질 분야에 첫 발을 내디뎠다. 제임스 마틴 박사의 정보공학방법론에 매료되어 기업과 정부기관의 정보전략기획 및 정보시스템 구축  프로젝트를 위한 컨설팅을 수행하였다. 최근 3년전에 DAMA International의 Korea Chapter를 설립하여 엔터프라이즈 데이터 매니지먼트(eDM) 프레임워크를 연구하며 세계 데이터 매니지먼트 그룹들과의 연계와 지식을 보급하는 활동을 전개해 나가고 있다.

 

© 2019 nextdaily.co.kr 무단전재 및 재배포금지

NextDaily 집중분석

(주)넥스트데일리 | 등록번호 : 서울 아 01185 | 등록일 : 2010년 03월 26일 | 제호 : 넥스트데일리 | 발행·편집인 : 구원모
서울시 금천구 가산디지털2로 123, 701호ㅣ발행일자 : 2005년 08월 17일 | 대표전화 : 02-6925-6318 | 청소년보호책임자 : 나성률

Copyright © Nextdaily. All Rights Reserved