칼럼

[이재관의 통합 데이터 모델링 이해] 엔터프라이즈 데이터의 일반화 vs 특수화, 정규화 vs 비정규화

발행일시 : 2018-02-20 00:00
[이재관의 통합 데이터 모델링 이해] 엔터프라이즈 데이터의 일반화 vs 특수화, 정규화 vs 비정규화

엔터프라이즈 데이터가 종이적 매체에 기록되어 장부(Ledger)로 보관하고 열람하는 시대에서 엔티티(Entity)는 장부로 인식이 되었다. 전산시스템을 구축하는 전산화 과정에서는 현재 사용하고 있는 장표(Report)를 엔티티로 정의하고 포함하고 있는 속성들을 정규화(Normalisation)를 통해 정련하여 새로운 엔티티를 도출했다. 구조적 방법론(Structured Methodology)의 데이터 모델링 기법은 바로 정규화이고 1차, 2차, 3차, 4차 정규화 형(Boyce-Codd 정규화 형, BCNF)을 통해 완성했다.

정규화를 통한 데이터 모델링 기법은 엔터프라이즈 데이터 통합(Integration)을 이루는데 많은 인력의 노력이 필요하고 데이터 모델러의 의사소통 부재로 인한 중복성(Redundancy)이 발생했다. 정보화 시대를 맞이하여 엔터프라이즈 데이터 통합을 지향하는 정보공학방법론(Information Engineering Methodology)는 비즈니스 아키텍처를 기반으로 데이터 아키텍처를 수립하고 데이터 아키텍처를 상세화 과정을 통해 데이터 모델을 완성하는 하향식(Top-down) 접근방식을 제시했다. 데이터 아키텍처를 통해 엔티티 유형(Entity Type)을 정의하고 엔티티 유형의 성격을 나타내는 속성 유형(Attribute Type)을 정의하며 정규화를 통해 데이터 모델에 대한 품질을 점검한다.

데이터 모델의 완성은 엔티티 유형 내에 존재하는 엔티티(혹은 인스턴스)들의 특수성을 분석하여 한 단계 더 상세한 서브-타입(Sub-type)으로 그룹화하여 데이터의 성격을 정의한다. 상위 엔티티 유형을 슈퍼-타입(Super-type)이라 부르고 각 서브-타입은 분류 속성 유형(Classifying Attribute Type)을 통해 구분되고 특징적인 속성 유형을 가져야만 한다. 슈퍼-타입을 서브-타입을 한 단계 깊이 분석하는 과정은 정규화 과정의 4차 정규화 형인 Boyce-Codd 정규화 형(BCNF)에 해당한다.

전산화 시대에서 정규화를 통해 데이터를 완성한 후에 전산시스템의 성능성을 고려하여 상위 엔티티의 속성을 하위 엔티티에 복사하여 상위 엔티티에 대한 접근을 경감시키는 기법을 역정규화(De-normalisation)이라 한다. 전산 개발자들이 애용하는 기법이지만, 데이터 및 데이터베이스 관리자가 데이터 변화 가능성 및 무결성 유지 방안을 고려하여 결정해야 한다. 정보화 시대를 거치며 컴퓨팅 능력이 월등하게 좋아진 현 시점에서는 무의미한 접근 방식이고 성능성보다는 데이터 무결성을 유지하는 데이터 모델을 완성해야 한다.

[이재관의 통합 데이터 모델링 이해] 엔터프라이즈 데이터의 일반화 vs 특수화, 정규화 vs 비정규화

품질 높은 데이터 모델을 완성하기 위해서 중요한 관점 중 하나는 추상(Abstract)과 상세(Detailed)함의 균형(Balance)이다. 전산화 시대에서부터 방법론의 한 축은 객체지향방법론(Object-oriented Methodology)인데 객체 모델링을 수행하는 과정 속에서 일반화(Generalisation)과 특수화(Specialisation)를 기본 개념으로 삼았다. 엔터프라이즈 내에 존재하고 사물(Thing) 즉, 객체(Object)를 인식하고 하향식(Top-down) 접근방식을 통해 단계적으로 상세하게 구분해 나가는 특수화와 상향식(Bottom-up) 접근방식을 통해 일반화된 그룹을 형성해 나가는 일반화를 통해 객체 모델을 완성한다. (참고: ‘Developing High Quality Data Models’, European Process Industries STEP Technical Liaison Executive(EPISTLE))

엔터프라이즈 데이터 모델링에서 일반화와 특수화는 개념적 바탕이고 균형은 품질을 높이는 기준(Criteria)이다. 정보화 시대를 넘어 지식화 시대로 달려가는 현 시점에서 데이터 모델링에 대한 관점과 기준은 변함이 없다. 장부의 장표에 기록된 데이터를 모델링을 통해 구조화(Structured)하는 것은 반구조적(Semi-structured), 비구조적(Unstructured) 데이터를 모델링하는 과정 또한 일반화와 특수화 개념을 통해 완성되어야 한다. 현재 영상 스트림을 데이터로 인식하여 모델화하는 방법도 아직 미성숙하여 많은 연구가 필요하지만, 점차 연구의 성과가 나타나리라 기대한다.

사물 인터넷(IoT) 및 빅데이터를 통해 엔터프라이즈 데이터 기반의 사고(Thinking) 체계를 갖추기 위해 과거의 데이터 모델링 기법인 정규화는 매우 중요한 접근방식으로 등장하고 있다. 반구조적 및 비구조적 데이터를 정규화를 통해 데이터 모델로 정의하고 데이터베이스로 새로이 갖추는 정보시스템 역공학(Reverse Engineering)과 재공학(Re-Engineering) 접근방식(참조: ‘Information Systems Reengineering, Integration and Normalization’ 3rd Edition, Joseph Shi Piu Fong, Springer)이다. 결론적으로 엔터프라이즈를 위한 정보기술이 급속히 발전을 하더라도 현재 보유하고 있는 데이터는 지식적 접근을 통해 새로운 가치를 창출하는 자산으로 정성스러운 관리가 필요하고 기본적 개념은 변함없이 사상적 기반이 되고 있음을 깨닫는다.

이재관 objectjk@gmail.com 필자는 30년 전, 중소기업 전산화를 위해 프로그래머로부터 출발하여 광양제철소 생산공정 진행을 위한 데이터베이스의 데이터 정합성을 관리하며 데이터 품질 분야에 첫 발을 내디뎠다. 제임스 마틴 박사의 정보공학방법론에 매료되어 기업과 정부기관의 정보전략기획 및 정보시스템 구축 프로젝트를 위한 컨설팅을 수행하였다. 최근 2년전에 DAMA International의 Korea Chapter를 설립하여 엔터프라이즈 데이터 매니지먼트(eDM) 프레임워크를 연구하며 세계의 데이터 매니지먼트 그룹들과의 연계와 지식을 보급하는 활동을 전개해 나가고 있다.

© 2018 nextdaily.co.kr 무단전재 및 재배포금지

(주)넥스트데일리 | 등록번호 : 서울 아 01185 | 등록일 : 2010년 03월 26일 | 제호 : 넥스트데일리 | 발행·편집인 : 이선기
서울시 금천구 가산디지털2로 123, 701호ㅣ발행일자 : 2005년 08월 17일 | 대표전화 : 02-6925-6318 | 청소년보호책임자 : 나성률

Copyright © Nextdaily. All Rights Reserved