본문 바로가기

Machine Learning

비모수 베이지안 모델(Bayesian Nonparametric Models)



기계학습(Machine Learning) 분야에서 통계나 확률적인 방법으로 접근하여 문제를 해결하려고 시도하는 것은 자연스러운 접근방법일 것이다. 이미 어떤 데이터를 학습시킬 것인지 그 데이터의 특성을 우리가 사전에 완전히 알고 있다면 모를까, 대부분 그렇지 않을 것이고 따라서 불확실성(uncertainty)을 데이터가 가지고 있다고 봐야하기 때문에 그 데이터를 커버할 수 있는 학습모델을 선정할 때에 가장 먼저 자연스럽게 떠오르는 것이 확률적 방법일 것이라 생각한다.


기계학습분야에서 통계적 방법을 사용하는 이유는, 데이터들이 가지는 어떤 특징들의 분포(distribution)를 보고 다음에 들어오는 새로운 데이터가 어디에 많이 포함되는지를 보고 그 데이터를 분류하기 위한것이다. 그런데.. 우리가 학습문제에서 데이터의 분포를 가정한다는 것이 자연스러운가? 그리고, 트레이닝할 데이터들을 뿌려봤을때 형성되는 클러스터들이 몇개가 있을지 우리가 단정지을 수 있을까?..


Gaussian Mixture Model의 경우에 우리는 데이터의 특징 분포를 가우시안 분포로 가정하고, 가우시안 컴포넌트들의 혼합으로 데이터들을 커버하는 모델을 만든다. 이때, 커버하고자 하는 컴포넌트들의 수를 우리는 데이터들의 분포를 보고 그 수를 결정하여 클러스터링하는 경우가 일반적이다. 데이터의 클러스터가 새로 생성되었을때를 커버하기위해 Incremental EM(Expectation Maximization)이나 boosting 방법을 결합하여 가우시안 컴포넌트가 데이터가 늘어나서 발생되는 문제를 커버하려고 하는 시도를 하기도 한다.


모델을 세우기전에 위에서와 같이 데이터의 특징 분포를 가정하고, 데이터 클러스터의 갯수도 사전에 정의되어진 상태에서 모델을 세우는 방법을 우리는 모수적(parametric) 방법이라고 하고, 초기에 데이터의 분포를 가정도 하지않고, 클러스터의 갯수도 정하지 않고 모델을 세우는 방법을 비모수적(Nonparametric) 방법이라고 한다. 좀더 설명해볼까?


2009년 NIPS Workshop에서 영국의 캠브리지 대학의 Zoubin Ghahramani 교수(http://mlg.eng.cam.ac.uk/zoubin/)의 'A Brief overview of nonparametric Bayesian Models'라는 제목의 발표자료(http://mlg.eng.cam.ac.uk/zoubin/talks/nips09npb.pdf)를 보면 다음과 같이 설명되어 있다.




모수와 비모수 모델의 차이에 대한 간략한 설명이다. 모수적 모델(parametric model)은 모수들의 어떤 유한개의 set을 가정한 것이고, 데이터를 잘 표현할 수 있는 모수를 얻는데, 데이터들이 unbound되어도 모델의 복잡도는 bound된다.(유한개의 모수로 모델을 만들기 때문에 데이터의 갯수가 늘어나면 모델을 벗어나게 되는 데이터는 제대로 표현할 수 없게 된다는 것을 말하는 듯..) 비모수적 모델은 데이터의 분포를 정의하지 않는다. 그리고, 모수적 모델에서 본 유한개의 모수 set들을 함수(function)로 본다는 것을 말한다. 이 말은 가능한 모수의 공간을 무한차원(infinite dimension)으로 본다는 것..(상상으로 이해할 수 있으려나....ㅡ,.ㅡ)


또, Cambridge 대학의 Peter Orbanz와 University College London의 Yee Whye Teh의 2010년 논문 'Bayesian Nonparametric Models' (http://mlg.eng.cam.ac.uk/porbanz/reports/OrbanzTeh2010.pdf) 에서는 그 논문의 첫부분에서 정의를 다음과 같이 하고 있다.


A Bayesian nonparametric model is a Bayesian model on an in nite-dimensional parameter space. The parameter space is typically chosen as the set of all possible solutions for a given learning problem. For example, in a regression problem the parameter space can be the set of continuous functions, and in a density estimation problem the space can consist of all densities. A Bayesian nonparametric model uses only a nite subset of the available parameter dimensions to explain a nite sample of observations, with the set of dimensions chosen depending on the sample, such that the e ective complexity of the model (as measured by the number of dimensions used) adapts to the data. Classical adaptive problems, such as nonparametric estimation and model selection, can thus be formulated as Bayesian inference problems. Popular examples of Bayesian nonparametric models include Gaussian process regression, in which the correlation structure is re ned with growing sample size, and Dirichlet process mixture models for clustering, which adapt the number of clusters to the complexity of the data. Bayesian nonparametric models have recently been applied to a variety of machine learning problems, including regression, classi cation, clustering, latent variable modeling, sequential modeling, image segmentation, source separation and grammar induction.


대충 번역해보면,


비모수 베이지안 모델(Bayesian nonparametruc model)은 무한차원(infinite dimensional)의 모수공간(parameter space)에서의 베이지안 모델이다. 모수공간은 보통 주어진 어떤 학습문제에서 가능한 모든 솔루션의 집합을 말한다. 예를들면, 회귀(regression)문제에서 모수공간은 연속적인 함수들의 집합으로 볼 수 있고(이말은 회귀방정식을 만들때 polynomial의 각 차수의 계수로 볼 수 있을듯..), 밀도추정(density estimation) 문제에서는 그 공간이 모든 밀도들의 조합으로 구성되어 있다고 볼 수 있다. 비모수 베이지안 모델은 관측된 유한 샘플(finite sample)을 설명하기위해 가능한 모수 차원의 유한개의 부분집합과 그 샘플을 기반으로 선택된 차원들의 집합만 사용한다. 전통적인 적응 문제(adaptive problem), 비모수 추정(nonparametric estimation)과 모델 선택(model selection),는 베이지안의 추론 문제들로 표현할 수 있다. 비모수 베이지안 모델의 유명한 예로는 가우시안 프로세스 회귀(Gaussian Process regression), 클러스터링에서의 디리슐레 프로세스 혼합모델(Dirichlet process mixture model)등이 있는데, 가우시안 프로세스 회귀는 샘플 사이즈가 증가하는것에 대해서 상호관계 구조(correlation structure)를 개선하는 것을 말하고, 디리슐레(디리클레? 어떤 발음이 맞는지 모르겠다.. 외국 교수들의 발음은 디리슐레에 더 가까움.) 프로세스 혼합모델은 데이터의 복잡성에 따른 클러스터의 수를 적응(adapt)할 수 있는 것을 말한다. 비모수 베이지안 모델은 다양한 기계학습 분야에 적용되고 있는데, 회귀문제(regression), 분류(classification), 클러스터링(clustering), 잠재변수 모델링(latent variable modeling), 시퀀스 모델링(sequence modeling), 영상 세그멘테이션(image segmentation), source 분리(separation)와 문법추론(grammar induction)등이 있다.


ai-times 블로그(http://ai-times.tistory.com/472) 에서 비모수 통계학에 대한 소개내용부분에,,

  • 비모수적 방법은 모집단의 분포형태에 대한 가정을 완화하여 이론을 전재하기 때문에 가정이 만족되지 않음으로써 생기는 오류의 가능성이 적고 또한 계산이 간편하고 직관적으로 이해하기 쉽다는 장점이 있다.
  • 비모수적 방법이란, 통계학에서 다루는 대부분의 추론방법들은 모집단이 특정한 분포를 따른다는 가정하에서 모르는 모수(parameter)에 대한 추정이나 검정 등을 생각하는데 이 방법을 모수적(parametric method)이라 하고, 반면에 모집단에 대한 분포형태를 가정할 수 없는 경우에는 모집단의 분포형태에 대한 가정을 완화하여 이론을 전개하는데 이와 같은 통계적 방법을 비모수적 방법(nonparametric method)이라고 말한다.

(추가적으로 작성중...)



'Machine Learning' 카테고리의 다른 글

퍼듀대 2011년 Machine Learning Summer School  (0) 2012.07.05
Bayesian Nonparametrics: Hope or Hype?  (0) 2012.06.12