agentic-harness

참고자료 · Metrics

Metrics 와 Observability

에이전트 도입은 체감만으로 평가하면 실패합니다. “똑똑해 보인다” 대신, trace, latency, tool calls, token usage, validation pass rate, regression rate, rework time 같은 수치를 봐야 합니다. 이 페이지는 그 측정 층을 정리합니다.

1. 무엇을 측정해야 하나

  • 정확성: validation과 tests를 통과했는가
  • 완전성: 요청된 범위를 다 수행했는가
  • 명료성: 다른 개발자가 결과를 이해할 수 있는가
  • 효율성: 과한 복잡도 없이 끝냈는가
  • 신뢰성: 비슷한 요청에서 일관되게 동작하는가
  • 제약 준수: rules, hooks, approval 경계를 지켰는가

2. Trace가 남겨야 하는 것

trace 핵심 항목text
- workflow_name
- trace_id / session_id
- group_id
- model
- tool calls
- handoffs
- guardrails triggered
- latency
- token / cost
- validation result
- final outcome

3. OpenAI Agents SDK에서 볼 수 있는 것

OpenAI Agents SDK tracing 문서는 trace와 span 개념을 분명히 설명합니다. 기본적으로 agent runs, LLM generations, tool calls, handoffs, guardrails가 trace 안에 들어갑니다. 이건 결국 “하네스의 실행 기록”을 남기는 것입니다.

4. 외부 observability 도구는 언제 붙이나

팀 단위 rollout에서는 Langfuse나 Sentry 같은 도구를 붙일 가치가 커집니다. Langfuse는 traces, sessions, observations, cost/latency/quality 를 중심으로 보고, Sentry는 AI Agent Monitoring으로 errors와 runtime behavior를 같이 봅니다.

5. 사내 도입 기준

초기 단계

lint/build/test pass rate, reviewer findings, rework rate 같은 내부 지표만 먼저 모아도 충분합니다.

확장 단계

traces, cost, latency, tool failure, MCP errors, workflow grouping까지 외부 observability 도구로 내보내는 것이 좋습니다.

6. 추천 운영 루프

measure looptext
1. 요청 실행
2. validation / tests
3. trace 저장
4. metrics 집계
5. 실패 분류
6. hooks / rules / AGENTS / skills / prompts 중 어디를 고칠지 결정
7. 재실행

7. 같이 읽으면 좋은 페이지