빅데이터 핵심 기술들

  • 프린트
  • 페이스북
  • 트위터
  • 카카오스토리


빅데이터 핵심 기술들
■ 빅데이터 IT산업 중심에 서다

빅데이터를 효과적으로 분석, 활용하기 위해서는 이에 걸맞게 새로운 기술과 기법, 솔루션이 요구된다. 빅데이터 분석 기술은 오픈소스 소프트웨어 형태로 발전한 경우가 많은데, 이를 제대로 다루기 위해서는 상당한 노력이 필요하다. 최근 분산처리 기술인 하둡(Hadoop), NoSQL(Not only SQL), 빠른 분석을 위한 인메모리(In-Memory) 기술 등이 주요 빅데이터 관련 기술로 각광받고 있다.

x86서버로 묶어 대형 스토리지 구성

◇하둡=방대한 분석 대상 자료를 저렴하게 처리해야 할 필요성에 의해 개발됐다. 하둡은 대량의 자료를 저렴한 x86서버로 가상으로 묶어 대형 스토리지를 구성하고, 저장된 거대한 데이터 세트를 간편하게 분산처리하는 역할을 한다.

하둡은 구글이 개발한 맵리듀스(Mapreduce)를 오픈소스로 구현한 결과물로, 야후에서 처음 개발됐고, 현재는 아파치소프트웨어재단에서 관리하고 있다.

저렴하게 빅데이터 시스템을 구축할 수 있는 장점 때문에 적용하려는 기업이 늘어나고 있으며, 하둡 기술을 적용했느냐를 기준으로 빅데이터 프로젝트냐 아니냐를 가르는 경우가 있을 정도로 현재 대표적인 빅데이터 기술로 자리잡고 있다.

대규모 데이터 유연하게 처리

◇NoSQL=전통적인 관계형 데이터베이스관리시스템(RDBMS)을 대신해 효과적으로 빅데이터 분석을 할 수 있는 기술로 최근 각광받고 있다. NoSQL은 RDBMS와는 다른 사상에서 설계된 비관계형 DBMS로, 대규모의 데이터를 유연하게 처리할 수 있는 것이 장점이다.

RDBMS가 모든 노드는 같은 시간에 같은 데이터를 보여줘야 하고, 일부 노드가 다운돼도 다른 노드에 영향을 주지 않아야 한다는 것에 중점을 둔 반면, NoSQL은 네트워크 전송 중 일부 데이터가 손실돼도 시스템은 정상적으로 동작해야 한다는 것에 중점을 둔다. 워낙 방대한 데이터를 다루기 때문에 이중 극히 일부 데이터가 처리되지 않더라도 분석 결과에 미치는 영향이 미미하다는 것을 전제로 한 접근법이다.

NoSQL은 오픈소스SW로, 상용 DBMS에 비해 저렴한 것도 장점이다. 카산드라, 몽고DB, H베이스 등 NoSQL의 기본 사상을 담은 여러 개발 프로젝트가 운영되고 있다.

데이터 검색시간 크게 줄여

◇인메모리=메모리상에 필요한 데이터와 이의 인덱스를 보관함으로써 별도 저장공간에 데이터를 보관했다가 필요할 때 불러들이는 기존 방식에 비해 데이터 검색시간을 크게 줄일 수 있다. 이 때문에 방대한 데이터를 처리해야 하는 빅데이터에 어울리는 기술로 꼽힌다.

이밖에 오픈소스 데이터 분석엔진인 `R'도 주목받고 있다. R 언어와 개발환경을 통해 기본적인 통계기법부터 모델링, 최신 데이터 마이닝, 시뮬레이션, 수치해석 기법까지 구현할 수 있어 구글, 페이스북, 아마존 등이 대용량 데이터 통계분석과 데이터 마이닝 등에 사용하면서 관심을 받고 있다.

강동식기자 dskang@
▶강동식기자의 블로그 바로가기

[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]

추천기사