신뢰는 프롬프트가 아니라 테스트가 만든다

마이리얼트립이 도달한 결론 중 가장 잔인한 것: “품질을 prompt 수정으로만 올리려고 했더니, 한 곳을 고치면 다른 데서 회귀가 났어요.”

이게 AI 시스템의 본질적 약점이다. 전통적 소프트웨어는 코드 변경이 국소적이다. AI 시스템에서 prompt 한 줄을 바꾸면 전체 행동이 비국소적으로 바뀐다. 그래서 신뢰를 prompt 튜닝으로 쌓을 수 없다. 그들이 도달한 답: shell test와 eval로 실제 Slack 대화를 자동 재현하여 정확성·행동 경로·안정성·형식 4가지를 매번 검증한다.

근거

품질을 prompt 수정으로만 올리려고 했더니, 한 곳을 고치면 다른 데서 회귀가 났어요. 그래서 운영 루프를 박았습니다 — 실패 사례 기록 → 원인 분석 → Knowledge 수정 → 재발 방지 test 추가.

이 워크플로우는 정확히 전통 소프트웨어 엔지니어링의 regression test loop다. AI 도메인이 30년의 SE 학습을 다시 발견하고 있다. GStack의 /qa, /review도 같은 정신에서 출발한다.

연결된 생각

20260515-process-beats-prompting-in-ai-workflows — GStack의 동일 결론
20260508-no-evals-no-improvement-direction — Eugene Yan의 동일 원칙
20260508-demo-to-product-gap-7-patterns — 데모와 프로덕션의 간극

출처

클리핑 · linkedin.com

dataofmen

신뢰는 프롬프트가 아니라 테스트가 만든다 — AI 시스템의 회귀 문제

목차

근거

연결된 생각

출처

백링크

그래프 뷰