O uso corporativo de agentes de iA deixou o estágio experimental. Sistemas que leem emails, consultam drives, executam transações e coordenam subtarefas já operam em rotinas de companhias abertas. A discussão sobre risco, porém, continua ancorada em categorias antigas: qualidade do modelo, conformidade com LGPD, propriedade intelectual do output. Falta o vetor que Franklin, Tomašev, Jacobs, Leibo e Osindero (Google DeepMind, 2026) consolidaram em framework publicado em março deste ano. Chamaram de armadilhas para agentes, e o ponto central exige atenção de qualquer conselho fiduciariamente responsável.
A tese é simples. O atacante não precisa mais invadir o modelo. Basta preparar o ambiente que o agente vai ler. Páginas, emails, PDFs, imagens e notificações podem conter instruções invisíveis ao olho humano mas perfeitamente legíveis ao parser da iA. Um comentário em HTML, um texto branco em fundo branco, metadados de acessibilidade, bits codificados em imagem. O agente obedece porque foi treinado para seguir instruções do contexto. A autoridade privilegiada dele, as credenciais de acesso, os tokens de API, tudo isso passa a servir ao atacante.
Os autores mapeiam seis classes de armadilha. Injeção de conteúdo corrompe o que o agente percebe. Manipulação semântica distorce o raciocínio por enquadramento enviesado, sem comando explícito. Envenenamento cognitivo contamina memórias de longo prazo e bases de busca aumentada, de modo que a alucinação vira política estável. Controle comportamental sequestra ações, transformando o agente em canal de exfiltração de dados ou aprovador de código malicioso. Armadilhas sistêmicas exploram o fato de que muitos agentes reagem de forma parecida a estímulos iguais, o que abre caminho para crashes em cascata e colusão tácita entre algoritmos de precificação. Por fim, armadilhas com humano no circuito usam o próprio agente para explorar o viés de automação do revisor.
Dois exemplos ajudam a aterrissar o abstrato. No primeiro, um agente com privilégios de navegação e sistema operacional pode ser induzido, por instruções embutidas em páginas e emails rotineiros, a localizar arquivos locais, encodar credenciais e enviá-las por canal de rede. O estudo de Shapira et al. (2025) registra taxas de sucesso acima de 80% em cinco arquiteturas distintas de agente. No segundo, documentado por Reddy e Gujral (2025) como EchoLeak, um único email comprometeu o contexto privilegiado do Microsoft 365 Copilot e o exfiltrou inteiro para um endpoint controlado pelo atacante. Nenhum clique. Nenhuma violação de perímetro no sentido clássico.
Aqui cabe o contraponto honesto. Uma liderança cética dirá que controles de perímetro, DLP, zero trust e gestão de identidade já cobrem boa parte disso. É verdade, parcialmente. A lacuna é que esses controles foram desenhados para tráfego determinístico e para usuários humanos que podem ser treinados. Agentes processam contexto indireto o tempo todo e não distinguem, no ato da leitura, entre instrução legítima do usuário e instrução injetada em um PDF lido como referência. O próprio conceito de menor privilégio precisa ser redesenhado para entidades que agem, se replicam em subagentes e acumulam memória persistente entre sessões.
O risco deixa de ser apenas operacional e vira fiduciário. Se um agente com acesso bancário é induzido a movimentar recursos após ler um comunicado falso plantado por um atacante, a responsabilidade se distribui de forma ainda indefinida entre o fornecedor do modelo, o integrador, o operador e o dono do ambiente que hospedou a armadilha. Os autores levantam esse accountability gap como questão em aberto, não resolvida no próprio paper, e um dos obstáculos à adoção de agentes em setores regulados. No Brasil, onde o Banco Central já pesquisa e estuda hipóteses de supervisão algorítmica e a autorregulação do mercado de capitais começa a editar diretrizes próprias, a janela para chegar antes da exigência formal é curta.
Três movimentos concretos de governança. Primeiro, reconhecer que o ambiente que o agente lê é tão crítico quanto o código que ele executa. Segundo, implantar agentes com o mesmo rigor de segregação aplicado a um operador sênior: escopo mínimo de ferramentas, tempo limitado de sessão, aprovação humana obrigatória para ações irreversíveis, logs auditáveis de todo prompt consumido. Terceiro, submeter o sistema a red team específico para agentes antes de qualquer expansão de escopo. Benchmarks públicos como WASP e AgentDojo já padronizam esse teste, e há evidência de que mesmo prompts simples, escritos por humanos sem conhecimento técnico profundo, comprometem parcialmente agentes em até 86% dos cenários avaliados, ainda que a consecução integral do objetivo do atacante fique em patamar substancialmente menor.
A segurança da próxima geração de agentes começa antes do código: começa em decidir, com rigor, que conteúdo o agente está autorizado a ler.
ousadia criativa. precisão estratégica. – por kim.