Guardrails와 Defensive UX는 성능보다 신뢰를 위한 장치다

7가지 패턴 중 Guardrails와 Defensive UX는 모델을 더 똑똑하게 만들지 않는다. 둘 다 모델이 틀렸을 때를 전제로 설계된다. Guardrails는 출력을 검증하고 차단하는 시스템 쪽 장치고, Defensive UX는 사용자가 틀린 출력을 안전하게 다룰 수 있게 하는 인터페이스 쪽 장치다. 성능 곡선을 위로 올리는 게 아니라 실패 비용을 아래로 누르는 두 가지 방향의 압력이다.

근거

“Defensive UX is a design strategy that acknowledges that bad things, such as inaccuracies or hallucinations, can happen during user interactions with machine learning or LLM-based products.”

Guardrails에는 입력 가드레일과 출력 가드레일이 있다. 출력 검증만 생각하기 쉽지만 입력 가드레일도 동등하게 중요하다 — 어떤 프롬프트를 받느냐가 어떤 응답을 낼지를 결정한다. 0004_Wikis 파이프라인의 inbox 단계가 사실상 입력 가드레일이다 (어떤 URL을 받을지 필터링).

Defensive UX의 핵심은 Microsoft의 18개 인간-AI 가이드라인이다. 그 중에서도 첫 두 개가 토대다 — “G1: Make clear what the system can do”, “G2: Make clear how well it can do it.” 사용자가 시스템의 능력과 한계를 정확히 알 때만, 틀린 출력이 나와도 신뢰가 무너지지 않는다. 반대로 시스템이 자신감 있게 틀리면 한 번의 실수가 전체 신뢰를 깎는다.

이 두 패턴이 신뢰 장치라는 사실이 중요한 이유 — 더 큰 모델로 갈아타도 이 문제는 사라지지 않는다. GPT-5가 나와도 hallucination은 0이 안 되고, 사용자가 “이게 맞나?”를 의심하지 않게 만드는 일은 모델 외부에서만 풀 수 있다.

연결된 생각

20260508-demo-to-product-gap-7-patterns — 7패턴 중 신뢰 축의 두 패턴
20260508-no-evals-no-improvement-direction — Evals가 성능 측정이라면 이쪽은 신뢰 설계

출처

📎 클리핑 · eugeneyan.com

dataofmen

Guardrails와 Defensive UX는 성능보다 신뢰를 위한 장치다

목차

근거

연결된 생각

출처

백링크

그래프 뷰