Jurafsky의 SLP3 교재가 2026년에도 HMM 챕터를 유지한다는 사실이 의외다. Transformer가 모든 것을 지배하는 시대에 왜 1960년대 모델을 가르치는가?

답은 추상화의 층위에 있다. LLM은 black box로 보이지만, 그 안에는 여전히 sequence를 처리하는 구조가 있다. HMM의 두 가정 — Markov 가정과 Output Independence — 은 모두 LLM이 명시적으로 깨뜨린 것들이다. 즉, LLM의 가치를 이해하려면 그것이 무엇을 거부하는지 알아야 한다. HMM은 그 베이스라인이다.

근거

HMM의 Markov 가정은 “미래는 현재에만 의존”한다. Transformer의 attention은 정확히 이 가정을 거부하기 위해 설계됐다 — 모든 과거 토큰을 직접 본다. Output Independence 가정도 마찬가지다 — LLM은 출력 사이의 강한 의존성을 모델링한다.

A first-order hidden Markov model instantiates two simplifying assumptions. First… the probability of a particular state depends only on the previous state. Second, the probability of an output observation oᵢ depends only on the state that produced the observation qᵢ and not on any other states.

이 두 가정이 단순화의 핵심이었고, 그 단순화가 깨졌을 때 무엇이 가능해지는지가 transformer 혁명이다. 베이스라인을 모르면 혁명의 의미도 모른다.

연결된 생각

출처

클리핑 · stanford.edu