[포럼] 다가온 `머신러닝`의 시대

최병정 SAS코리아 SSP본부 이사

  •  
  • 입력: 2016-10-18 17:00
  • 프린트
  • 페이스북
  • 트위터
  • 카카오스토리


[포럼] 다가온 `머신러닝`의 시대
최병정 SAS코리아 SSP본부 이사


머신러닝과 인공지능이 화두가 된 이후, 머신러닝과 인공지능, 그리고 통계 모델링의 차이를 묻는 질문을 자주 받곤 한다. 실제로 통계 모델링, 머신러닝, 인공지능은 기술과 알고리즘, 그리고 이 기술을 통해 이루고자 하는 목표 등 일부 겹치는 부분이 있어 이 컨셉들이 충분히 혼동될 수 있다. 이에 더해 이 개념들을 구분하지 않고 무분별하게 사용한 글들은 많은 이들을 더 혼란스럽게 만들고 있다.

전통적인 통계모델링의 기본목적은 '관측된 데이터가 발생할 수 있는 확률 모델'을 묻는 질문에 대한 해답을 구하는데 있다. 해답을 찾는 방법은 합리적 모델 패밀리에서 후보모델을 선택한 후 알려지지 않은 매개변수를 추정하고, 적합모델을 대안모델과 비교하는 것이다.

예를 들어, 데이터가 이탈고객이나 분할된 셀의 수와 같이 개수를 나타내는 경우에는 포아송 패밀리나 음이항 패밀리 모델 또는 영과잉(Zero-inflated) 모델로 적합할 수 있다.

이렇게 통계모델이 선택되면, 추정모델은 가설검증, 예측값 생성, 신뢰척도 등 탐구장치의 역할을 한다. 추정모델이 데이터를 해석하는 렌즈인 셈이다. 이때 선택한 모델에서 데이터가 발생했다고 단언할 수는 없지만, 선택한 모델을 합리적 추산으로서 확증적 추론의 발단이 되는 확률 과정으로 간주할 수 있다확증적 추론은 통계모델링에서 매우 중요한 요소다. 예를 들어, 세 가지 의료기기중 어떤 것이 환자에게 가장 유용한지 결정할 때는 치료에 따른 환자편익의 차별화 메커니즘을 표현하는 모델에 관심을 갖게 된다. 이러한 데이터 메커니즘을 표현하는 모델은 종종 관측된 데이터범위 내에서 예측력이 유효할 뿐만 아니라 새로운 관측치를 예측할 수 있는 모델인 경우가 많다.

전통적 개념의 머신러닝은 회귀 및 분류알고리즘에 초점을 맞춘 데이터 중심의 기술로, 패턴인식을 통해 진행된다. 기본적인 확률적 메커니즘은 부차적이다. 대부분 머신러닝 기법이 확률모델 및 과정을 통해 구체화되기는 하지만 데이터가 해당모델에서 발생됐다고 생각하기는 어렵다. 다만 k-평균 군집화, DBSCAN, 의사 결정 트리, 랜덤 포레스트 또는 SVM을 통한 효과적인 고객층 분류 같은 특정작업에 사용되는 알고리즘이나 기법을 식별할 수 있는가 하는 문제가 일차적인 관심사다.

더 쉽게 말하자면, 통계 전문가에게는 모델이 우선이지만, 머신러닝 전문가에게는 데이터가 우선이다. 머신러닝은 모델이 아닌 데이터를 강조하기 때문에 데이터를 트레이닝 세트와 테스트 세트로 구분하는 유효성 검사기법이 매우 중요하다. 솔루션의 품질도 p-값이 아닌 이전에 알지 못했던 숨겨진 데이터에 대한 솔루션 성과를 증명하는데서 결정된다. 통계모델을 데이터 세트에 적합하게 조정하거나 의사결정트리를 데이터 세트에 맞게 트레이닝할 때는 알 수 없는 변수를 추정해야 한다. 최적의 트리분기점은 조건부 종속변수 분포의 매개변수로 추정되는 데이터에서 결정된다.

이 전통적인 머신러닝 기법은 요즘 이야기하는 머신러닝과는 조금 다르다. 학습(Learning)은 새로운 역량의 습득을 의미하고, 트레이닝은 구체화 과정이며, 학습의 일부다. 분류 학습된 심층 신경망을 트레이닝함으로써,즉 입력데이터를 고려해 가중치와 편의(biases)를 결정해 네트워크가 분류자로 바뀌게 된다.

진정한 의미의 머신러닝은 작업 수행을 목적으로 프로그래밍된 것이 아니라 작업 수행을 학습하도록 프로그래밍된 경우다. 필자는 이를 현대적 개념의 머신러닝이라고 얘기한다. 현대적 머신러닝도 전통적 개념과 마찬가지로 데이터중심의 훈련이나, 한 가지 다른 점은 다양한 알고리즘 기법에 의존하지 않는다는 사실이다. 이러한 형태의 머신러닝이 응용되는 거의 모든 분야는 심층신경망에 기반을 두고 있다.

심층 신경망은 현재 머신러닝의 일종인 딥러닝이라고 불리는 영역으로, 기계가 인간을 대신하는 인공지능분야에서 종종 활용된다. 요약하자면, 데이터의 역할에 따라 통계 모델링, 전통적 개념의 머신러닝, 그리고 현대적 개념의 머신러닝을 구분할 수 있다.

통계 모델링에서는 데이터가 확률모델을 선택하는데 있어 길잡이 역할을 하며, 이렇게 선택된 확률모델은 가설, 예측(predictions & forecasts) 같은 관심질의에 대해 확률적 선언을 할 수 있는 추상화(abstraction)로 사용된다.

전통적 개념의 머신러닝에서는 데이터가 당면한 작업을 가장 잘 수행하도록 하는 분석기법을 선택하는데 주도적인 역할을 한다. 결국 알고리즘을 트레이닝 하는 것은 데이터다.

현대적 개념의 머신러닝에서는 데이터가 신경망 기반시스템을 주도해 작업학습에 필요한 규칙성을 스스로 결정한다. 데이터에 대한 신경망 트레이닝 과정에서 작업이 학습되며, 이를 두고 '데이터가 프로그래밍을 한다'고 말하기도 한다.




[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]


가장 많이 본 기사