Unified Data Infrastructure를 다룬 청사진

1.
오랜 세월 여의도에서 일하면서 데이타 보다는 트랜잭션 및 데이타흐름이 더 중요한 일을 했습니다. 시세데이타는 자본시장에서 무척이나 중요합니다만 시세분배시스템을 통해 수신한 데이타를 어떻게 분석할까 보다는 수많은 고객에게 전달할까가 더 중요하였습니다. 주문체결데이타도 마찬가지입니다. 그런데 세상이 변하였습니다. 데이타도 단순히 빅데이타를 강조하더니 이후 Fast Data, Big Data로 분화하면서 통합을 강조합니다. 데이타도 분배의 측면뿐 아니라 분석을 강조하는 시대가 되었습니다. 몇 년째 화두인 AI는 데이타기반이기 때문입니다. 자본시장내에서 매매와 관련한 시스템을 주로 개발한 입장에서 데이타시스템은 생소합니다. 다만 이런 저런 제안작업을 하면서 들었던 풍월을 정리하면 Data Mining, Data Warehouse 혹은 OLAP이 떠오릅니다. 해외의 어떤 사람은 이를 아래와 같이 정리하였습니다.

Download (PDF, 32.64MB)

위에서 나열한 두개의 단어를 개념으로 정리하면 Operation과 Analytics로 정리할 수 있습니다. 그동안 서로 다른 목적을 가진 시스템을 구축하기 위하여 별도로 시스템을 도입하거나 구축하는 경우가 많습니다.

그런데 세상이 바뀌었습니다. 비지니스의 디지탈화입니다. 운영의 관점이든 분석의 관점이든 데이타의 양은 크게 늘어났고 데이타의 처리속도 또한 빠름을 요청합니다. 아마도 이 때문에 새로운 데이타기술구조를 떠올리지 않았을까 합니다.이러한 요구에 부응한 개념이 ‘Unified Data Infrastructure’가 아닐까 합니다. 이와 관련하여 인상적으로 읽었던 글이 Emerging Architectures for Modern Data Infrastructure입니다. 글의 배경입니다.

As an industry, we’ve gotten exceptionally good at building large, complex software systems. We’re now starting to see the rise of massive, complex systems built around data – where the primary business value of the system comes from the analysis of data, rather than the software directly. We’re seeing quick-moving impacts of this trend across the industry, including the emergence of new roles, shifts in customer spending, and the emergence of new startups providing infrastructure and tooling around data.

In fact, many of today’s fastest growing infrastructure startups build products to manage data. These systems enable data-driven decision making (analytic systems) and drive data-powered products, including with machine learning (operational systems). They range from the pipes that carry data, to storage solutions that house data, to SQL engines that analyze data, to dashboards that make data easy to understand – from data science and machine learning libraries, to automated data pipelines, to data catalogs, and beyond.

전통적인 데이타기반구조를 DW와 Data Lake를 기준으로 설명합니다.

Data infrastructure serves two purposes at a high level: to help business leaders make better decisions through the use of data (analytic use cases) and to build data intelligence into customer-facing applications, including via machine learning (operational use cases).

Two parallel ecosystems have grown up around these broad use cases. The data warehouse forms the foundation of the analytics ecosystem. Most data warehouses store data in a structured format and are designed to quickly and easily generate insights from core business metrics, usually with SQL (although Python is growing in popularity). The data lake is the backbone of the operational ecosystem. By storing data in raw form, it delivers the flexibility, scale, and performance required for bespoke applications and more advanced data processing needs. Data lakes operate on a wide range of languages including Java/Scala, Python, R, and SQL.

서로 다른 목적의 시스템이 병행하는 구조에서 변화요구받는 계기를 아래의 도표처럼 설명합니다.

이상을 배경으로

modern business intelligence
multimodal data processing
AI and ML stack

를 위한 청사진을 제시하고 있는데 아래입니다.

Download (PDF, 272KB)

2.
Unified Data Infrastructure를 검색해보면 2013년쯤 Teradata가 제안하였던 제품입니다. 전통적인 DW를 빅데이타환경에 맞게끔 진화한 개념입니다.

Teradata Unified Data Architecture™ is Teradata’s big data hybrid architecture. It combines best-of-class com-ponents— the Teradata Integrated Data Warehouse, the Teradata Aster® Discovery Platform, and two options for the Data Platform—Hortonworks® Hadoop™ or a Teradata Integrated Big Data Platform. These are connected using a high-speed Infiniband interconnect fabric, to provide a scalable, flexible, and robust ecosystem for handling all data and analytic requirements.


Download (PDF, 771KB)

앞서의 Blueprint이상을 Teradata와 비교하면 Operation 및 AI/ML 개념이 더해진 모습입니다.

그러면 현실에서 어떤 모습으로 발전할까요? 작은 스타트업에서 출발하여 시장에 영향력이 큰 플랫폼으로 성장한 쿠팡 데이타팀이 쓴 쿠팡 데이터 플랫폼의 진화을 보죠.

Phase I — 초창기 (2010–2013)

Phase II — 온프리미스 하둡, 하이브, MPP 시스템 시대 (2014–2016)

Phase III — 재설계와 마이그레이션, 장기적 해결책 (2016–2017)

Phase IV — 서비스형 빅데이터, 클라우드 스토리지를 사용하는 EDW, 완전히 새로운 데이터 수집 프레임워크 (2018~2019)

이상의 변화를 앞서 BluePrint와 비교해서면 어떨까요? 청사진은 현재가 아니라 지향하는 목표를 다룹니다. 다만 현재 구현하는 모습이 미래의 변화를 담을 수 있는 정도의 유연성은 필요로 할 듯 합니다.

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.