Por que agora
IA agêntica deixou de ser PoC e virou linha de orçamento. Analistas projetam centenas de bilhões em spending até 2027 — e mais de 40% dos projetos falhando por governança, custo e controle. Os números abaixo enquadram a janela.
40%
das apps enterprise com agentes task-specific até fim de 2026 (era <5% em 2025).
Gartner
US$ 206B
spending global em AI agent software em 2026, vindo de US$ 86B em 2025; US$ 376B projetado para 2027.
Gartner
10×
aumento no uso de agentes até 2027; demanda de inferência cresce 1000× no mesmo período.
IDC
>40%
dos projetos agentic falham até 2027 — gargalo é governança, custo e controle, não capacidade do modelo.
Gartner · Strategic Predictions 2026
52%
das organizações já operam em modo human-on-the-loop — supervisão estruturada, não bloqueio passo a passo.
CIO.com
1.500+
PRs mergeados em produção por agentes na frota da Spotify; ~50% de todos os PRs da empresa.
Spotify Engineering
O movimento das gigantes
As três maiores casas de engenharia do mundo publicaram em 2025-2026 como estão usando agentes em produção. Cada uma atacou uma fatia específica do ciclo. Nenhuma cobre o ciclo inteiro.
Google · Migração TF → JAX
Migração de base massiva TensorFlow → JAX assistida por IA, 6× mais rápida que manual. Skills Repository oficial entrega expertise condensada de produtos Google Cloud. Validação por equivalência funcional; decisão final em PR review humano.
Meta · 50+ use cases WebRTC
IA pontua o risco de cada diff antes do gate humano: baixo risco auto-aprova, alto risco vai pra revisão. JITTesting gera testes sob demanda em código de alto risco. Modernização de WebRTC em 50+ use cases internos.
Spotify · 1.500+ PRs · 60-90% economia
Agente de fundo orquestrado por Claude Agent SDK sobre o framework interno de Fleet Management. Verifiers via MCP + LLM judge que veta 25% dos diffs. ~50% de todos os PRs da Spotify hoje são automatizados.
Posicionamento
Google atacou migração. Meta atacou risk-gating de diff. Spotify atacou manutenção em frota. Cada um resolveu para si mesmo, dentro do seu próprio perímetro.
Dédalo cobre da entrada de um item de backlog até o deploy auditado, em 11 fases, com 4 gates humanos persistidos como dado de primeira classe. Multi-tenant desde o dia zero — cada projeto interno é um tenant com sua própria política, custo e memória.
Quando o mercado terminar de chegar aqui, já vai ser tarde. A janela de virar referência é curta.
Nosso diferencial
Cada decisão sozinha é defensável. As nove combinadas, em um único produto open source e self-hosted, não existem em nenhum dos três casos públicos acima.
01
Cobertura ponta-a-ponta
FSM canônica, 30+ agentes especializados (22 pipeline + 9 background intelligence), phase_event persistido a cada transição. Auditável por desenho.
02
Gates humanos como dado
discovery_review, execution_gate, publication_gate, production_approval. Vereditos persistidos: approved · rejected · rework · expired. Sem PR review ad-hoc.
03
LLM híbrido local + premium
LMStudio (Gemma 4 + nomic-embed-text-v1.5 768-dim) para classificação, ranking e embeddings. Claude Sonnet/Opus para discovery, refinamento e código. Zero cloud no caminho crítico.
04
Multi-tenant desde o dia zero
agent_policy por projeto, caps de custo (caps_per_agent), token de serviço (project_chat_tokens) e memória semântica isolada em pgvector. Google/Meta/Spotify resolveram só para si.
05
Background intelligence
DocGen (diário), MemorySync (24h), KnowledgeTree (on-demand). Cada item executado torna o próximo mais inteligente — sem intervenção humana.
06
Princípio Ícaro
Nada de mock que mascara erro. Nada de retry que esconde regressão. Nada de gate que se auto-aprova. Os limites do sistema são o sistema.
07
Memória dual
pgvector 768-dim ⊕ Neo4j bi-temporal (Graphiti). HybridRecall funde por RRF. O grafo é projeção 100% derivada de outbox_events — dropável e replayável. Nenhum dos três concorrentes publicou stack equivalente.
08
Release como dado · Onda 13
release_batches com FSM persistida, gate release_gate, ReleaseManagerWorkflow long-running, auto-resolve de rebase com cap monetário. Hotfix preempta release ativo. Ad-hoc nas big tech, dado de primeira classe aqui.
09
MCP shared surface
O memory_chat v2 opera o pipeline via MCP server — mesma superfície que o Claude Code humano. Escritas só via ActionCards (confirmação humana). Token por projeto (project_chat_tokens), cap monetário por turno.
Em uma mesa só
A comparação direta nas dimensões que mais importam para uma decisão de implantação interna.
| Dimensão | Meta | Spotify | Dédalo | |
|---|---|---|---|---|
| Cobertura do SDLC | Migração pontual (TF → JAX) | Modernização + risk gating | Manutenção em frota | Ingress → arquivo, 11 fases |
| Orquestrador | Gemini Enterprise (SaaS) | Proprietário interno | Fleet Mgmt + Claude Agent SDK | Temporal self-hosted |
| Gates humanos | PR review (ad-hoc) | Risk-based, condicional | PR review + LLM judge | 4 gates formais + vereditos persistidos |
| Validação | Equivalência funcional | JITTesting (sob demanda) | Verifiers + LLM judge (veta 25%) | QA determinística + AC checker + auto-rebase 3× |
| Release management | n/a público | Ad-hoc por PR | Por PR, sem batch FSM | release_batches + release_gate + dual-trilha release/hotfix |
| Knowledge graph | Skills Repository (estático) | n/a público | Context engineering manual | Neo4j + Graphiti bi-temporal · HybridRecall (RRF) |
| Operação por chat | Workspace SaaS | Interno | PR-centric · sem chat operacional | memory_chat v2 + ActionCards via MCP shared (CLI+chat) |
| Strategy LLM | Só Gemini (cloud) | Provider-agnostic interno | Claude Code (cloud) | Híbrido local (LMStudio) + premium (Claude) |
| Self-host / data residency | Não — SaaS GCP | Interno Meta | Interno + cloud Claude | 100% self-host · zero cloud crítico |
| Multi-tenant | Implícito (1 conta = 1 tenant) | Interno único | Frota interna única | Multi-tenant desde o dia zero |
| Custo rastreado | Não exposto | n/a público | Quotas de LLM | cost_ledger + caps_per_agent + Langfuse |
| Aprendizado contínuo | Skills curadas | Implícito | Context engineering manual | DocGen + MemorySync + KnowledgeTree (auto) |
| Licença | Proprietário SaaS | Interno | Interno | Open source · self-hosted |
Tabela completa com 15 dimensões, fontes e links em dedalo-benchmark-2026.md →
Para cada cadeira na mesa
O mesmo produto, lido por quem decide. Cada linha cobre uma preocupação real do C-level interno.
CTO / VP de Engenharia
Em um único produto open source, self-hosted, multi-tenant, cobrindo o SDLC inteiro. Você não precisa montar três programas — você instala um.
CFO
Zero cloud no caminho crítico. cost_ledger por agente, cap por projeto, métricas diárias agregadas no Langfuse. Spending de IA vira linha previsível, não conta surpresa.
CISO / Compliance
Zero dependência de cloud no caminho crítico. Gates humanos persistidos com SLA e veredito auditável. Princípio Ícaro: falha alto, sem fallback silencioso. Audit trail completo em Postgres.
Eng. de Plataforma
Durable execution + 4 executor backends (worktree · Docker · SSH · sandbox) + stack OTel/Tempo/Loki/Grafana/Langfuse + Neo4j (graph memory) já integrada. MCP shared surface: a mesma API que o Dashboard usa, o Claude Code CLI também usa. Portável entre clouds e on-premise sem reescrever observabilidade.
Por que projetos agentic falham — e por que o Dédalo não
Mais de 40% dos projetos de agentic AI vão falhar até 2027 — por governança, custo e controle, não por capacidade do modelo.
— Gartner · Strategic Predictions for 2026
Os três motivos que Gartner aponta não são novidade — são exatamente as decisões que estruturamos no produto desde o dia zero.
| Risco apontado pelo mercado | Resposta estrutural do Dédalo |
|---|---|
| Governança fraca · decisões fora de auditoria | 4 gates formais (discovery_review · execution_gate · publication_gate · production_approval) com SLA, veredito persistido e phase_event a cada transição. |
| Custo opaco · LLM como conta surpresa | cost_ledger rastreia gasto por agente; caps_per_agent e budget_monthly_usd por projeto; métricas diárias agregadas no Langfuse. |
| Falta de controle · fallback silencioso, retry mascarando regressão | Princípio Ícaro: falha alto e ruidoso. Sem mock. Sem retry escondendo erro. Sem gate auto-aprovado. Observabilidade ponta-a-ponta (OTel + Tempo + Loki + Grafana + Langfuse). |
Implantação interna. Multi-projeto. Sem mover dado pra fora.
Conversar com o time