정의

관측되는 사건(예: 단어)과 숨겨진 사건(예: 품사 태그) 모두에 대해 확률을 다루는 통계 모델. Markov chain을 확장하여 hidden state가 observation을 emit하는 구조를 갖는다.

핵심 속성

  • 구성요소:
    • Q: N개 상태 집합 {q₁, …, qₙ}
    • A: 상태 전이 확률 행렬 (∑aᵢⱼ = 1)
    • B: 관측 확률(emission probabilities) bᵢ(oₜ)
    • π: 초기 상태 분포
  • 2가지 단순화 가정:
    • Markov 가정: P(qᵢ|q₁…qᵢ₋₁) = P(qᵢ|qᵢ₋₁) — 미래는 현재에만 의존
    • Output Independence: P(oᵢ|모든 상태·관측) = P(oᵢ|qᵢ) — 관측은 해당 시점 상태에만 의존
  • 3가지 근본 문제 (Rabiner 1989):
    • Likelihood: HMM과 관측 시퀀스 O가 주어졌을 때 P(O|λ) 계산 → Forward algorithm
    • Decoding: 관측 시퀀스로부터 최적 hidden state 시퀀스 추론 → Viterbi
    • Learning: 관측만으로 A, B 학습 → Forward-Backward algorithm (unsupervised)
  • Markov chain과의 차이: Markov chain은 관측 = 상태(투명), HMM은 관측 ≠ 상태(불투명)
  • 고전 예시: Eisner ice cream task (관측: 아이스크림 개수 → hidden: 날씨 HOT/COLD)

관계

인용

A hidden Markov model (HMM) allows us to talk about both observed events (like words that we see in the input) and hidden events (like part-of-speech tags) that we think of as causal factors in our probabilistic model.

출처

클리핑 · stanford.edu