메모리DB를 부담없이!

1.
이천년대 초반 알티베이스가 메인메모리DB시장에 진출한 이래 IBDB(In-Memory DBMS)시장은 국내기업이 터줏대감 노릇을 해왔습니다. 그렇지만 창업에 주도적인 역할을 하였던 대표이사가 두번 바뀌면서 우여곡절을 겪었습니다.

잘나가던 기업들의 속사정

선재소프트라고 있습니다. 알티베이스 김기완 전 사장이 설립한 업체입니다. 현재 한국거래소가 추진하고 있는 Exutre+프로젝트에서 메모리DB부분을 맡고 있었습니다. 코스콤이 진행하였던 파일럿부터 현재까지 계속 하고 있습니다. 빅데이타 시대로 진입하면서 두회사가 선택한 전략은 In-Memory Analytics입니다.

국산 DBMS 기업 알티베이스도 인메모리 기술로 빅데이터 시장을 정조준하고 있다. 알티베이스는 비정형 데이터인 ‘바이너리 라지 오브젝트(BLOB)’, ‘캐릭터 라지 오브젝트(CLOB)’를 메모리 테이블에 그대로 올릴 수 있도록 하는 기술을 개발, 하이브리드 DBMS 신제품 ‘HDB 제타’에 이를 적용했다. 인메모리 기술을 고도화시켜 비정형 데이터를 고속으로 처리하도록 했다는 게 알티베이스측 설명이다. 알티베이스는 연내 이 제품보다 5배 빠른 성능을 내는 인메모리 DBMS ‘알티베이스 익스트림’, 인메모리 기술에 기반해 비정형 데이터를 실시간 분석하는 ‘알티베이스 CEP’를 출시해 빅데이터 분석 제품 라인업을 강화할 계획이다.
SW업체들 “빅데이터엔 ‘인메모리’ 기술이 정답”중에서

NBP는 또 하둡과 몽고DB를 이용해 대용량 데이터를 처리하고 있는데 이 방식은 데이터 분할 저장 및 이동이 필요하다는 단점이 있기 때문에 새로운 방식의 빅 데이터 처리 기술을 개발하겠다고 나선 것이다. ?NBP는 이에 대한 대안으로 ‘대용량 이기종 클러스터드 DBMS’를 개발 중이다. 자동 데이터 분할을 통한 이기종 저장소의 클러스터드 DBMS를 구현해 사용자는 데이터 저장 위치와 관계없이 검색할 수 있도록 하겠다는 복안이다. 아울러 이번 빅 데이터 솔루션 개발을 위해 NBP는 ‘아헴스’ 및 ‘선재소프트’와 손을 맞잡았다. 아헴스는 클라우드 플랫폼 기술 업체이며, 선재소프트는 알티베이스 김기완 전 사장이 설립한 메모리 기반 DB 업체다.
NHN, 빅 데이터 솔루션 직접 만든다?중에서

2.
자본시장도 빅데이타가 남의 문제만은 아닙니다. Wall Street & Technology는 아래와 같은 이유로 2012년 주요기술로 선정하였습니다.

금융서비스 회사들은 점증하는 규제차원의 각종 보고 수요 충족과 시장에서의 기회 탐색을 위해 ‘빅 데이터’(超 대용량 데이터 집합)에 대한 이해가 필수적이다. 금융서비스 회사들은 1)데이터 양이 기하급수적으로 증가하고, 2)법적 규제로 인해 기업들이 위험에 대해 사전대책을 강구해야 하며 3)금융회사 내부의 많은 사용자들이 시장기회 탐색, 추세, 상품개발 기회, 보고 및 위험관리 등을 위해 더 많은 양의 데이터세트에 접근을 요구하고 있기 때문에 빅 데이터에 대한 이해의 필요성을 잘 인지하고 있다.

한국 자본시장은 좀 다른 이유라고 생각합니다. Exture+입니다. Exture+의 목표는 매매체결속도를 대폭 줄이는 것입니다. 매매체결속도가 줄어들면 호가가 늘어납니다. 정정 및 취소주문이 대폭 늘어나지 않을까 합니다. 호가주문이 늘어나면 시세도 대폭 늘어납니다. 연쇄반응을 합니다.

그동안 시세가 증가할 때 대비한 검토는 있었습니다. 얼마전 개통한 신정보분배시스템도 대응중 하나입니다. 그렇지만 원장(Back Office)시스템과 관련한 준비도 해야 하지 않을까 생각합니다. ?자본시장에서 IMDB는 주로 속도를 필요로 하는 파생상품 거래에 사용하였습니다. 전사적인 계정계가 아니라 특수한 고객을 위한 주문관리시스템용이었습니다. 계정계는 Oracle과 같은 전통적인 강자들의 몫이었습니다. 그런데 Exture+서비스를 시작하면 현재의 계정계구조로 충분히 대응할 수 있을까요? 때문에 In-Memory Analytics는 아니더라도 In-Memory Processing은 필요할 듯 합니다.

3.
현재 시장에 나와 있는 IMDB는 여러 종류가 있습니다. 앞서 소개한 알티베이스나 선재소프트도 IMDB를 공급하는 사업자들입니다. 그런데 꼭 상용만 검토할 필요가 있을까요? IBM + AIX가 아니라 X.86 + Linux로 계정계를 구축하고자 할 경우 오픈소스도 검토해볼 가치가 있습니다.

IMDB이면서 NewSQL로 이야기하는 제품중 VoltDB가 있습니다. 2년전 소개하였던 제품입니다. 그동안 계속 발전해오고 있습니다.

VoltDB VS. NOSQL

VoltDB는 속도를 위하여 ACID처리를 할 때 발생하는 과부하를 줄였습니다. 그래서 NewSQL이라고 부르는 곳도 있습니다.

NoSQL, NewSQL and Beyond

오늘은 다른 제품을 소개할까 합니다.CSQLMonetDB입니다. CSQL은 MMDB Model, Cache Model 및 Replicator Model이 가능합니다. 앞서 VoltDB가 JDBC만을 지원하는 것에 비하여 ODBC도 지원합니다. 소스를 보시면 C++로 개발하였습니다.

CSQL is an open source main-memory high-performance RDBMS developed in India. It is one of the fastest open source IMDBs. It is designed to provide high performance on simple SQL queries and DML statements that involve only one table. It supports only limited features, which are used by most real-time applications, like INSERT, UPDATE, DELETE on a single table, and SELECT with local predicates on a single table.

MonetDB는 Column Based Database입니다.

?컬럼 DBMS는 I/O를 줄이기 위해 기존 행-단위 기록을 했던 방식을 반대로 컬럼(열)-단위로 바꿨습니다. 즉 1행, 2행, 3행 식으로 디스크에 기록을 하는 것이 아니라, 첫번째 열값, 두번째 열값, 세번째 열값 순으로 기록을 합니다. 이렇게 하면 질의 처리 시, 특히 selection 연산의 경우 모든 행들을 읽어서 그중 selection할 대상이 되는 컬럼만 추리는 방식에서 대상이 되는 컬럼만 디스크에서 읽게 함으로써 많은 I/O를 줄일 수 있습니다. 특히 OLAP 업무에 특히 적합한 저장 방식입니다. 이 컬럼-단위 저장에도 몇가지 방식이 있는데 그중 PAX라는 페이지 저장 방식[1]이 주로 활용됩니다. 여기에 더해서 데이터 압축도 합니다. 근래의 컴퓨팅 시스템은 컴퓨팅 사이클보다 디스크 지연시간이 훨씬 bottleneck이기 때문에 압축과 압축해제에 소요되는 컴퓨팅 비용보다 디스크 I/O 때문에 잡아먹는 비용이 더 클 수 있다는 근거로 이런 선택을 한 것이고요.
칼럼-기반 DBMS와 MapReduce중에서

시세정보를 처리하는데 탁월한 성능을 발휘하는 kdb와 같습니다. MonetDB는 Column방식 + IMDB를 결합한 방식입니다.

MonetDB is an open source high-performance DBMS developed at the National Research Institute for Mathematics and Computer Science in the Netherlands. It was designed to provide high performance on complex queries against large databases, e.g., combining tables with hundreds of columns and multi-million rows.

MonetDB is one of the first database systems to focus its query optimisation effort on exploiting CPU caches. Development of MonetDB started in 1979 and it became an open source project in 2003. MonetDB has been successfully applied in high-performance applications for data mining, OLAP, GIS, XML Query, and text and multimedia retrieval.

오픈소스도 다양한 선택이 가능합니다. Exture+가 언제 개통할지 모르지만 최소 몇 개월이상의 시간은 남아 있습니다. 기반기술을 선택하기 위하여 지금부터 파일럿을 해보시면 좋을 듯 합니다.

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.