Dédalo — benchmark e posicionamento

Por que agora

O mercado mudou em 18 meses.

IA agêntica deixou de ser PoC e virou linha de orçamento. Analistas projetam centenas de bilhões em spending até 2027 — e mais de 40% dos projetos falhando por governança, custo e controle. Os números abaixo enquadram a janela.

40%

das apps enterprise com agentes task-specific até fim de 2026 (era <5% em 2025).

Gartner

US$ 206B

spending global em AI agent software em 2026, vindo de US$ 86B em 2025; US$ 376B projetado para 2027.

Gartner

10×

aumento no uso de agentes até 2027; demanda de inferência cresce 1000× no mesmo período.

IDC

>40%

dos projetos agentic falham até 2027 — gargalo é governança, custo e controle, não capacidade do modelo.

Gartner · Strategic Predictions 2026

52%

das organizações já operam em modo human-on-the-loop — supervisão estruturada, não bloqueio passo a passo.

CIO.com

1.500+

PRs mergeados em produção por agentes na frota da Spotify; ~50% de todos os PRs da empresa.

Spotify Engineering

O movimento das gigantes

Três jogadas. Três fatias do SDLC.

As três maiores casas de engenharia do mundo publicaram em 2025-2026 como estão usando agentes em produção. Cada uma atacou uma fatia específica do ciclo. Nenhuma cobre o ciclo inteiro.

Google · Migração TF → JAX

Gemini Enterprise Agent Platform

Migração de base massiva TensorFlow → JAX assistida por IA, 6× mais rápida que manual. Skills Repository oficial entrega expertise condensada de produtos Google Cloud. Validação por equivalência funcional; decisão final em PR review humano.

gemini-enterprise skills-repo gemini-cli

Meta · 50+ use cases WebRTC

Diff Risk Score + JITTesting

IA pontua o risco de cada diff antes do gate humano: baixo risco auto-aprova, alto risco vai pra revisão. JITTesting gera testes sob demanda em código de alto risco. Modernização de WebRTC em 50+ use cases internos.

diff-risk-score jit-testing auto-approval

Spotify · 1.500+ PRs · 60-90% economia

Honk · Fleet Management + Claude

Agente de fundo orquestrado por Claude Agent SDK sobre o framework interno de Fleet Management. Verifiers via MCP + LLM judge que veta 25% dos diffs. ~50% de todos os PRs da Spotify hoje são automatizados.

honk fleet-mgmt llm-judge verifiers

Nosso diferencial

Nove decisões que ninguém mais tomou junto.

Cada decisão sozinha é defensável. As nove combinadas, em um único produto open source e self-hosted, não existem em nenhum dos três casos públicos acima.

Cobertura ponta-a-ponta

Do backlog ao arquivo, em 11 fases.

FSM canônica, 30+ agentes especializados (22 pipeline + 9 background intelligence), phase_event persistido a cada transição. Auditável por desenho.

Gates humanos como dado

4 gates formais com SLA e veredito.

discovery_review, execution_gate, publication_gate, production_approval. Vereditos persistidos: approved · rejected · rework · expired. Sem PR review ad-hoc.

LLM híbrido local + premium

Local para estruturado. Premium onde importa.

LMStudio (Gemma 4 + nomic-embed-text-v1.5 768-dim) para classificação, ranking e embeddings. Claude Sonnet/Opus para discovery, refinamento e código. Zero cloud no caminho crítico.

Multi-tenant desde o dia zero

Cada projeto, um tenant isolado.

agent_policy por projeto, caps de custo (caps_per_agent), token de serviço (project_chat_tokens) e memória semântica isolada em pgvector. Google/Meta/Spotify resolveram só para si.

Background intelligence

O sistema documenta e aprende sozinho.

DocGen (diário), MemorySync (24h), KnowledgeTree (on-demand). Cada item executado torna o próximo mais inteligente — sem intervenção humana.

Princípio Ícaro

Falha alto. Sem fallback silencioso.

Nada de mock que mascara erro. Nada de retry que esconde regressão. Nada de gate que se auto-aprova. Os limites do sistema são o sistema.

Memória dual

Vetorial + grafo, sem dual-write.

pgvector 768-dim ⊕ Neo4j bi-temporal (Graphiti). HybridRecall funde por RRF. O grafo é projeção 100% derivada de outbox_events — dropável e replayável. Nenhum dos três concorrentes publicou stack equivalente.

Release como dado · Onda 13

Dual-trilha release × hotfix.

release_batches com FSM persistida, gate release_gate, ReleaseManagerWorkflow long-running, auto-resolve de rebase com cap monetário. Hotfix preempta release ativo. Ad-hoc nas big tech, dado de primeira classe aqui.

MCP shared surface

CLI e chat, mesma superfície.

O memory_chat v2 opera o pipeline via MCP server — mesma superfície que o Claude Code humano. Escritas só via ActionCards (confirmação humana). Token por projeto (project_chat_tokens), cap monetário por turno.

Em uma mesa só

Mesma pergunta. Quatro respostas.

A comparação direta nas dimensões que mais importam para uma decisão de implantação interna.

Dimensão	Google	Meta	Spotify	Dédalo
Cobertura do SDLC	Migração pontual (TF → JAX)	Modernização + risk gating	Manutenção em frota	Ingress → arquivo, 11 fases
Orquestrador	Gemini Enterprise (SaaS)	Proprietário interno	Fleet Mgmt + Claude Agent SDK	Temporal self-hosted
Gates humanos	PR review (ad-hoc)	Risk-based, condicional	PR review + LLM judge	4 gates formais + vereditos persistidos
Validação	Equivalência funcional	JITTesting (sob demanda)	Verifiers + LLM judge (veta 25%)	QA determinística + AC checker + auto-rebase 3×
Release management	n/a público	Ad-hoc por PR	Por PR, sem batch FSM	`release_batches` + `release_gate` + dual-trilha release/hotfix
Knowledge graph	Skills Repository (estático)	n/a público	Context engineering manual	Neo4j + Graphiti bi-temporal · `HybridRecall` (RRF)
Operação por chat	Workspace SaaS	Interno	PR-centric · sem chat operacional	`memory_chat v2` + ActionCards via MCP shared (CLI+chat)
Strategy LLM	Só Gemini (cloud)	Provider-agnostic interno	Claude Code (cloud)	Híbrido local (LMStudio) + premium (Claude)
Self-host / data residency	Não — SaaS GCP	Interno Meta	Interno + cloud Claude	100% self-host · zero cloud crítico
Multi-tenant	Implícito (1 conta = 1 tenant)	Interno único	Frota interna única	Multi-tenant desde o dia zero
Custo rastreado	Não exposto	n/a público	Quotas de LLM	`cost_ledger` + `caps_per_agent` + Langfuse
Aprendizado contínuo	Skills curadas	Implícito	Context engineering manual	DocGen + MemorySync + KnowledgeTree (auto)
Licença	Proprietário SaaS	Interno	Interno	Open source · self-hosted

Tabela completa com 15 dimensões, fontes e links em dedalo-benchmark-2026.md →

Para cada cadeira na mesa

Um pitch por audiência.

O mesmo produto, lido por quem decide. Cada linha cobre uma preocupação real do C-level interno.

CTO / VP de Engenharia

Spotify Honk + Meta Diff Risk Score + Google Skills Repo.

Em um único produto open source, self-hosted, multi-tenant, cobrindo o SDLC inteiro. Você não precisa montar três programas — você instala um.

CFO

Break-even de self-hosting em 10-30M tokens/dia.

Zero cloud no caminho crítico. cost_ledger por agente, cap por projeto, métricas diárias agregadas no Langfuse. Spending de IA vira linha previsível, não conta surpresa.

CISO / Compliance

Dado não sai do perímetro.

Zero dependência de cloud no caminho crítico. Gates humanos persistidos com SLA e veredito auditável. Princípio Ícaro: falha alto, sem fallback silencioso. Audit trail completo em Postgres.

Eng. de Plataforma

Temporal + observabilidade out-of-the-box.

Durable execution + 4 executor backends (worktree · Docker · SSH · sandbox) + stack OTel/Tempo/Loki/Grafana/Langfuse + Neo4j (graph memory) já integrada. MCP shared surface: a mesma API que o Dashboard usa, o Claude Code CLI também usa. Portável entre clouds e on-premise sem reescrever observabilidade.

Por que projetos agentic falham — e por que o Dédalo não

A resposta é estrutural, não opcional.

Mais de 40% dos projetos de agentic AI vão falhar até 2027 — por governança, custo e controle, não por capacidade do modelo.

— Gartner · Strategic Predictions for 2026

Os três motivos que Gartner aponta não são novidade — são exatamente as decisões que estruturamos no produto desde o dia zero.

Risco apontado pelo mercado	Resposta estrutural do Dédalo
Governança fraca · decisões fora de auditoria	4 gates formais (`discovery_review` · `execution_gate` · `publication_gate` · `production_approval`) com SLA, veredito persistido e `phase_event` a cada transição.
Custo opaco · LLM como conta surpresa	`cost_ledger` rastreia gasto por agente; `caps_per_agent` e `budget_monthly_usd` por projeto; métricas diárias agregadas no Langfuse.
Falta de controle · fallback silencioso, retry mascarando regressão	Princípio Ícaro: falha alto e ruidoso. Sem mock. Sem retry escondendo erro. Sem gate auto-aprovado. Observabilidade ponta-a-ponta (OTel + Tempo + Loki + Grafana + Langfuse).

O mercado convergiu.
Nós chegamos antes.

O mercado mudou em 18 meses.

Três jogadas. Três fatias do SDLC.

Gemini Enterprise Agent Platform

Diff Risk Score + JITTesting

Honk · Fleet Management + Claude

Não uma fatia.
O ciclo inteiro.

Nove decisões que ninguém mais tomou junto.

Do backlog ao arquivo, em 11 fases.

4 gates formais com SLA e veredito.

Local para estruturado. Premium onde importa.

Cada projeto, um tenant isolado.

O sistema documenta e aprende sozinho.

Falha alto. Sem fallback silencioso.

Vetorial + grafo, sem dual-write.

Dual-trilha release × hotfix.

CLI e chat, mesma superfície.

Mesma pergunta. Quatro respostas.

Um pitch por audiência.

Spotify Honk + Meta Diff Risk Score + Google Skills Repo.

Break-even de self-hosting em 10-30M tokens/dia.

Dado não sai do perímetro.

Temporal + observabilidade out-of-the-box.

A resposta é estrutural, não opcional.

Pilotar Dédalo
aqui dentro.

O mercado mudou em 18 meses.

Três jogadas. Três fatias do SDLC.

Gemini Enterprise Agent Platform

Diff Risk Score + JITTesting

Honk · Fleet Management + Claude

Não uma fatia.O ciclo inteiro.

Nove decisões que ninguém mais tomou junto.

Do backlog ao arquivo, em 11 fases.

4 gates formais com SLA e veredito.

Local para estruturado. Premium onde importa.

Cada projeto, um tenant isolado.

O sistema documenta e aprende sozinho.

Falha alto. Sem fallback silencioso.

Vetorial + grafo, sem dual-write.

Dual-trilha release × hotfix.

CLI e chat, mesma superfície.

Mesma pergunta. Quatro respostas.

Um pitch por audiência.

Spotify Honk + Meta Diff Risk Score + Google Skills Repo.

Break-even de self-hosting em 10-30M tokens/dia.

Dado não sai do perímetro.

Temporal + observabilidade out-of-the-box.

A resposta é estrutural, não opcional.

Pilotar Dédaloaqui dentro.

Não uma fatia.
O ciclo inteiro.

Pilotar Dédalo
aqui dentro.