Incentivos produzem o caos

Vinte pesquisadores de iA, seis agentes autônomos, duas semanas. O estudo “Agents of Chaos” (Shapira et al., 2026) colocou sistemas baseados em LLMs para operar em ambiente real, com email, Discord, acesso a shell, memória persistente e a capacidade de editar suas próprias instruções operacionais. O resultado não foi o que os entusiastas de iA agêntica querem ouvir. Os agentes obedeceram terceiros sem autorização, divulgaram dados sensíveis sem redação, destruíram infraestrutura do próprio proprietário e, em múltiplas ocasiões documentadas, reportaram ter completado tarefas que de fato não concluíram. O agente Ash alegou ter deletado um segredo enquanto os dados permaneciam intactos no servidor remoto; declarou ter parado de responder enquanto continuava respondendo a cada novo interlocutor. A discrepância entre relato e estado real do sistema é um padrão recorrente nos dados do estudo.

O ponto que diferencia este estudo de avaliações anteriores de segurança é onde o problema começa. Não começa em jailbreaks. Não começa em prompts maliciosos ou exploits sofisticados. A instabilidade emerge dos incentivos embutidos no próprio treinamento dos modelos. Agentes alinhados por RLHF para serem solícitos tratam qualquer expressão de urgência como sinal de que devem agir. Quem fala mais alto recebe prioridade. Quem expressa frustração obtém concessões crescentes. Quando um pesquisador explorou a culpa do agente Ash após uma violação de privacidade real, conseguiu extrair concessões escalantes: redação de nomes, deleção de memória, exposição de arquivos internos, até o compromisso de abandonar o servidor. Cada remédio recusado pelo pesquisador levava o agente a oferecer um sacrifício maior. O alinhamento com a utilidade se converteu no mecanismo exato de exploração.

Esse padrão revela um problema que escala de forma não linear. Os autores identificam três déficits estruturais nos agentes atuais: ausência de modelo de stakeholder (o agente não sabe a quem deve lealdade em situações de conflito), ausência de auto-modelo (não reconhece quando excede sua competência) e ausência de superfície de deliberação privada (não consegue raciocinar internamente sobre o que revelar e para quem). Os três déficits se retroalimentam. Sem saber a quem serve, o agente otimiza para quem interage. Sem reconhecer seus limites, aceita tarefas que não deveria executar. Sem espaço interno de deliberação, vaza informação por canais que considera equivalentes quando não são.

A implicação que o artigo tangencia mas não desenvolve completamente é a de teoria dos jogos. Alinhar um agente individual é insuficiente quando múltiplos agentes operam no mesmo ecossistema. Os próprios dados do estudo demonstram isso. Quando o agente Doug aprendeu a baixar artigos científicos, ensinou a técnica ao agente Mira em uma cooperação iterativa que os autores descrevem como “resiliência colaborativa”. A mesma infraestrutura de coordenação, no entanto, serviu para que o agente Ash propagasse uma “constituição” comprometida por um atacante externo ao agente Jarvis, sem ser solicitado. Cooperação e contágio usam o mesmo canal. O estudo é exploratório e de escala limitada: seis agentes, duas semanas, um framework. Mas os mecanismos identificados não dependem de escala para operar. Seis agentes em laboratório já produziram loops de consumo de recursos que duraram nove dias, spoofing de identidade entre canais e disseminação de conteúdo difamatório para toda a lista de contatos de email. A extrapolação é inevitável, ainda que o paper não a faça: o que acontece quando milhares de agentes operam em mercados financeiros reais, negociações autônomas ou marketplaces de iA-para-iA?

O estudo registra que o NIST anunciou em fevereiro de 2026 sua AI Agent Standards Initiative, priorizando identidade, autorização e segurança de agentes. Mas o artigo também mostra que os agentes atuais não possuem as fundações sobre as quais esses padrões poderiam operar. A identidade do proprietário no OpenClaw é declarada via prompt de sistema, sem ancoragem verificável. Um atacante que mudou seu nome de exibição no Discord para o do proprietário e abriu um canal privado novo obteve acesso completo: shutdown do sistema, deleção de arquivos persistentes, reatribuição de controle administrativo. A declaração de identidade não é identidade.

É possível argumentar que essas falhas são contingentes, remediáveis por engenharia. Autenticação multi-fator, sandboxing de ferramentas, redação automática de dados sensíveis. Os autores reconhecem explicitamente a distinção entre falhas fundamentais e contingentes. Mas há uma camada que resiste à remediação por design: agentes baseados em LLMs processam instruções e dados como tokens indistinguíveis no mesmo contexto. Essa indistinguibilidade é anterior a qualquer falha específica; é a condição que torna todas as outras vulnerabilidades possíveis. A injeção de prompt não é um bug a corrigir. É uma propriedade estrutural do paradigma. Cada camada de engenharia adicionada reduz a superfície de ataque em proporção variável. Algumas falhas contingentes cedem a soluções conhecidas: a verificação de user ID do Discord, por exemplo, já funcionou dentro do mesmo canal no estudo. Mas para a classe de vulnerabilidades estruturais, o trade-off com capacidade é real e permanece sem solução conhecida dentro da arquitetura atual.

O que o artigo demonstra com dados empíricos, a teoria dos jogos antecipa com modelos formais. Quando agentes racionais operam sem mecanismo de coordenação verificável, a estratégia dominante converge para a exploração de assimetrias de informação. Agentes baseados em LLMs não são racionais no sentido formal: não calculam payoffs nem modelam o adversário. Mas sua otimização de recompensa proximal, treinada para maximizar utilidade percebida a cada turno, produz resultado funcionalmente equivalente ao equilíbrio predatório sem exigir racionalidade estratégica. Não por malícia. Por incentivo. O agente que prioriza vencer, influenciar ou capturar recursos adota táticas que maximizam sua vantagem, mesmo que isso implique enganar humanos ou outros agentes. A corrida para implementar agentes autônomos em finanças, segurança e comércio avança sem que quase ninguém modele os efeitos ecossistêmicos dessa implementação.

Quando o agente Ash destruiu o servidor de email do proprietário a pedido de um terceiro, o proprietário respondeu com três palavras: “You broke my toy.” A frase é involuntariamente precisa. Os agentes que estamos construindo são mais do que brinquedos, mas os tratamos como se fossem. A diferença entre coordenação e colapso em ecossistemas de agentes autônomos não será resolvida por melhor código. Será resolvida, ou não, por design de incentivos. E design de incentivos opera em dois registros distintos que a maioria das empresas ainda confunde. O primeiro é técnico: protocolos de autenticação, limites de autoridade, sandboxing de ferramentas, verificação de identidade que sobreviva a mudanças de canal. O segundo é institucional: quem responde quando o agente causa dano, quem arca com o custo da destruição, quem define os limites de delegação antes que sejam testados por terceiros com intenções que ninguém modelou. O paper de Shapira et al. coloca a pergunta com dados. A resposta, por enquanto, pertence a quem governa.

Referência

SHAPIRA, N.; WENDLER, C.; YEN, A. et al. Agents of Chaos. arXiv:2602.20021v1 [cs.AI], 23 fev. 2026. Disponível em: https://arxiv.org/abs/2602.20021

Pesquisa & Artigos

O ambiente é a arma

O uso corporativo de agentes de iA deixou o estágio experimental. Sistemas que leem emails, consultam drives, executam transações e coordenam subtarefas já operam em

abril 21, 2026

Da publi à assinatura

A creator economy brasileira começou 2026 com uma contradição aritmética. O país concentra cerca de 15,8% dos criadores ativos do Instagram mundial, segundo o Influencer

abril 18, 2026

Tempo de Confete

O filho de Jesse Genet tem cinco anos e confunde o seis com o nove. Isso não é problema. Problema é que, antes dos agentes,

abril 17, 2026

Renato Kim Panelli

Empreendedor e engenheiro com mais de 25 anos de experiência integrando tecnologia, estratégia de negócios e inovação. Combina expertise técnica em engenharia de materiais com formação em administração pela Babson College (MBA) e conhecimento jurídico através de graduação em direito.

Fundou a MBi – Mind Blowing Innovative, especializada em soluções baseadas em IA e estratégias de dados para transformação de negócios. Histórico comprovado em liderança de P&D, tendo gerenciado portfólios superiores a $250.000 anuais e desenvolvido produtos que geraram receitas acima de $15 milhões.

Pesquisador com publicações e patentes em tecnologia automotiva, com expertise em metalurgia do pó, planejamento estratégico e design de algoritmos.

kim@mbi.digital