외부 사례 비교
OpenAI, Anthropic, Toss, gstack, revfactory/harness를 입력·상태·검증·배포 기준으로 비교합니다.
핵심 요약
- 이 장은 OpenAI·Anthropic·Toss·gstack·revfactory/harness를 입력·상태 외재화·검증 인터페이스·승인/배포 기준으로 한 화면에서 비교하는 허브입니다.
- 다섯 사례는 각각 knowledge architecture, control-loop+runtime-boundary, workflow distribution, production pipeline design, meta-architecture generation이라는 서로 다른 기술 문제를 풉니다.
- 표현은 달라도 다섯 사례는 "더 좋은 단일 프롬프트보다 더 좋은 작업 환경", "긴 작업일수록 상태 외재화와 평가 루프"라는 같은 결론에 닿습니다.
- 리포·문서 구조는 OpenAI, 평가 루프·retry budget은 Anthropic, 팀 배포는 Toss, opinionated sprint는 gstack, 하네스 생성 템플릿은 revfactory부터 읽기를 권합니다.
- 범용 템플릿은 출발점일 뿐 성능은 도메인 특화에서 나오며, 하네스는 만들고 끝이 아니라 운영하면서 계속 정리해야 합니다.
하네스 엔지니어링을 이해하려면 "누가 맞는가"보다 "각 사례가 어떤 문제를 풀려고 했는가"를 봐야 합니다.
이 장은 비교 허브입니다. 다섯 사례를 한 화면에서 나란히 본 뒤, 상세한 기술 메커니즘은 사례별 페이지로 내려가서 확인합니다.
사례: OpenAI
repo-readable 시스템, observability, cleanup 중심
사례: Anthropic
planner/evaluator, retry budget, handoff 중심
사례: Toss
executable SSOT, domain layer, frictionless 배포 중심
사례: gstack
sprint, command surface, release gate 중심
사례: revfactory/harness
domain-first 설계, agent/skill generation, validation 중심
한눈에 비교
| 사례 | 핵심 입력 | 상태 외재화 | 검증 인터페이스 | 승인/배포 | 가장 강한 메시지 |
|---|---|---|---|---|---|
| OpenAI | AGENTS.md, docs/, MCP, skills, sandbox | 문서·코드·관측 데이터·workspace manifest | 브라우저/로그/메트릭/hooks | cleanup, remote approval, Secure MCP | repo + runtime surface가 harness |
| Anthropic | task/sprint contract, permission policy | durable session log, planner/builder/evaluator handoff | evaluator + QA + permission classifier | retry budget, handoff, managed runtime | load-bearing scaffolding과 runtime boundary를 분리하라 |
| Toss | global/domain/local 규칙 | workflow와 SSOT | 실행 가능한 문서/절차 | domain HITL | 실행 가능한 SSOT로 내려라 |
| gstack | sprint phase, command, host adapter | 단계별 산출물·checkpoint·learning | review/test/ship/browser/device QA | team mode, auto-update, release gate | software factory처럼 굴려라 |
| revfactory/harness | domain analysis | agent/skill files, team architecture | validation & testing, A/B pilot | generated harness refinement | harness를 만드는 harness |
어떤 기술 문제를 풀고 있는가
| 사례 | 실제로 푸는 문제 | 기술적으로 읽으면 |
|---|---|---|
| OpenAI | 탐색 비용과 문서 엔트로피 | knowledge architecture |
| Anthropic | 장시간 작업의 자기평가 편향과 runtime/approval coupling | control-loop + runtime-boundary engineering |
| Toss | 팀 전체로의 배포와 재현성 | workflow distribution |
| gstack | 병렬 작업을 chaos 없이 굴리기 | production pipeline design |
| revfactory/harness | 하네스 설계 자체의 반복성 | meta-architecture generation |
2026-05-23 기준 최신 업데이트 포인트
| 사례 | 최신 반영 |
|---|---|
| OpenAI | Agents SDK의 model-native harness와 sandbox execution, TypeScript sandbox agents, Secure MCP Tunnel, Codex remote/hook, Developers plugin 흐름을 추가 |
| Anthropic | Claude Code auto mode의 prompt-injection probe / transcript classifier, Managed Agents의 session-harness-sandbox 분리, finance agent template의 도메인 패키징 흐름을 추가 |
| gstack | README 기준 23 specialists와 8 power tools, 10개 AI coding agent host 지원, team mode auto-update, iOS live-device QA, checkpoint/learning 기능 반영 |
| revfactory/harness | v1.2.0 README 기준 L3 Meta-Factory / Team-Architecture Factory 포지션, marketplace install, Harness 100, author-measured A/B 결과와 caveat 반영 |
자료별 상세 해석
사례를 읽는 추천 순서
| 지금 필요한 감각 | 먼저 볼 사례 |
|---|---|
| 리포와 문서 구조를 손보고 싶음 | OpenAI |
| 평가 루프와 retry budget이 궁금함 | Anthropic |
| 팀 배포와 문서-실행 연결이 궁금함 | Toss |
| 병렬 작업과 release gate를 보고 싶음 | gstack |
| 하네스 자체를 생성 가능한 자산으로 만들고 싶음 | revfactory/harness |
무엇을 먼저 훔칠 것인가
| 지금 당장 필요한 것 | 먼저 볼 사례 |
|---|---|
| 리포와 문서 구조 | OpenAI |
| planner / evaluator 판단 | Anthropic |
| 팀 배포와 workflow | Toss |
| opinionated sprint | gstack |
| 하네스 생성 템플릿 | revfactory/harness |
사례들은 표현만 다를 뿐 같은 결론에 닿습니다.
- 더 좋은 단일 프롬프트보다 더 좋은 작업 환경이 중요하다.
- 긴 작업일수록 상태 외재화와 평가 루프가 중요하다.
- 팀에 배포되려면 workflow, command, approval이 실행 가능한 형태여야 한다.
- 범용 템플릿은 시작점일 뿐, 도메인 특화가 성능을 만든다.
- 하네스는 만들고 끝나는 것이 아니라 운영하며 정리해야 한다.
참고 링크
- OpenAI, "Harness Engineering", 2026-02-11 https://openai.com/ko-KR/index/harness-engineering/
- OpenAI, "The next evolution of the Agents SDK", 2026-04-15 https://openai.com/index/the-next-evolution-of-the-agents-sdk/
- OpenAI, "Work with Codex from anywhere", 2026-05-14 https://openai.com/index/work-with-codex-from-anywhere/
- OpenAI API Changelog, 2026-05-06 / 2026-05-19 https://developers.openai.com/api/docs/changelog
- OpenAI, "OpenAI Developers plugin for Codex", 2026-05-07 https://developers.openai.com/learn/developers-codex-plugin
- OpenAI Codex Hooks / Remote Connections docs https://developers.openai.com/codex/hooks https://developers.openai.com/codex/remote-connections
- Anthropic, "Harness design for long-running application development", 2026-03-24 https://www.anthropic.com/engineering/harness-design-long-running-apps
- Anthropic, "Claude Code auto mode: a safer way to skip permissions", 2026-03-25 https://www.anthropic.com/engineering/claude-code-auto-mode
- Anthropic, "Scaling Managed Agents: Decoupling the brain from the hands", 2026-04-08 https://www.anthropic.com/engineering/managed-agents
- Anthropic, "Agents for financial services", 2026-05-05 https://www.anthropic.com/news/finance-agents
- Toss, "Software 3.0 시대, Harness를 통한 조직 생산성 저점 높이기", 2026-02-26 https://toss.tech/article/harness-for-team-productivity
- gstack README https://github.com/garrytan/gstack
- revfactory/harness README https://github.com/revfactory/harness