정의
관측되는 사건(예: 단어)과 숨겨진 사건(예: 품사 태그) 모두에 대해 확률을 다루는 통계 모델. Markov chain을 확장하여 hidden state가 observation을 emit하는 구조를 갖는다.
핵심 속성
- 구성요소:
- Q: N개 상태 집합 {q₁, …, qₙ}
- A: 상태 전이 확률 행렬 (∑aᵢⱼ = 1)
- B: 관측 확률(emission probabilities) bᵢ(oₜ)
- π: 초기 상태 분포
- 2가지 단순화 가정:
- Markov 가정: P(qᵢ|q₁…qᵢ₋₁) = P(qᵢ|qᵢ₋₁) — 미래는 현재에만 의존
- Output Independence: P(oᵢ|모든 상태·관측) = P(oᵢ|qᵢ) — 관측은 해당 시점 상태에만 의존
- 3가지 근본 문제 (Rabiner 1989):
- Likelihood: HMM과 관측 시퀀스 O가 주어졌을 때 P(O|λ) 계산 → Forward algorithm
- Decoding: 관측 시퀀스로부터 최적 hidden state 시퀀스 추론 → Viterbi
- Learning: 관측만으로 A, B 학습 → Forward-Backward algorithm (unsupervised)
- Markov chain과의 차이: Markov chain은 관측 = 상태(투명), HMM은 관측 ≠ 상태(불투명)
- 고전 예시: Eisner ice cream task (관측: 아이스크림 개수 → hidden: 날씨 HOT/COLD)
관계
- 20260515-markov-chain — 상위/기반: HMM은 Markov chain의 확장
- 20260515-forward-algorithm — 하위: Likelihood 문제 해결 알고리즘
- 20260515-daniel-jurafsky — 출처: SLP3 교재의 저자
인용
A hidden Markov model (HMM) allows us to talk about both observed events (like words that we see in the input) and hidden events (like part-of-speech tags) that we think of as causal factors in our probabilistic model.