Em janeiro de 2026, a Anthropic publicou a Constituição do Claude sob licença CC0. É um documento de dezenas de páginas que define não apenas o que o modelo não pode fazer, mas o tipo de entidade que ele deve aspirar ser. A decisão de torná-lo público, auditável e replicável marca uma inflexão no desenvolvimento de iA. Não é um manual de compliance. É algo mais próximo de um DNA comportamental.
A pergunta que esse movimento levanta é direta: por que um modelo de linguagem precisaria de uma constituição?
A resposta começa pela limitação das alternativas tradicionais. Durante anos, a abordagem padrão para alinhamento de iA foi adicionar regras. Se o modelo diz algo inadequado, adiciona-se uma regra proibindo aquela categoria de resposta. Se usuários encontram brechas, adicionam-se mais regras. O problema é que regras discretas do tipo “se X, então Y” têm limites de escalabilidade. A combinatória de situações possíveis é vasta demais para antecipar. E regras literais convidam ao contorno literal.
Existe, porém, uma alternativa que não depende de constituições. Sistemas adaptativos combinando regras com aprendizado de máquina também podem resolver o problema de contexto. A moderação de conteúdo do YouTube, por exemplo, usa ML para detectar contexto e intenção, não apenas palavras-chave. O RLHF incorpora feedback humano contínuo que refina comportamento sem necessidade de princípios escritos. Essa abordagem funciona em produção, em escala massiva, há anos. Seria intelectualmente desonesto ignorá-la.
A constituição oferece uma solução diferente, não necessariamente superior. Em vez de listar proibições ou aprender padrões implícitos, ela estabelece princípios que informam julgamento explícito. Um princípio como “evitar causar dano desproporcional ao benefício” permite ao modelo avaliar situações novas com base em raciocínio, não apenas reconhecimento de padrões. É a diferença entre aprendizado estatístico e deliberação estruturada. Ainda não há estudos comparativos rigorosos entre as duas abordagens. O que existe são apostas de design diferentes, cada uma com trade-offs próprios.
A Constituição do Claude estabelece uma hierarquia de valor explícita: primeiro segurança ampla, depois ética, em seguida conformidade com diretrizes da Anthropic, e por último utilidade. Essa ordenação resolve conflitos antes que aconteçam. Se um usuário pede algo útil mas eticamente problemático, a ética prevalece. A previsibilidade resultante tem valor prático. Empresas que integram o modelo sabem o que esperar em situações-limite, ao menos em teoria.
O formato constitucional traz outra característica relevante. Um documento público cria condições necessárias para auditoria. Pesquisadores externos, reguladores e usuários conseguem verificar se o comportamento observado corresponde aos princípios declarados. Isso contrasta com abordagens opacas, onde os critérios de decisão permanecem internos. Mas auditabilidade não é o mesmo que accountability. Para que a publicação gere responsabilização efetiva, é preciso fiscalização externa estruturada, que ainda não existe de forma madura no ecossistema de iA. A transparência abre a porta. Alguém precisa entrar.
A metáfora que a própria Anthropic usa é a da treliça. Diferente de uma jaula, que apenas restringe movimento, uma treliça oferece estrutura para crescimento direcionado. A constituição não diz apenas “não faça isso”. Ela define positivamente o que o modelo deve ser. O arquétipo escolhido é o do amigo experiente e honesto, alguém que oferece o que você precisa ouvir, não apenas o que quer ouvir. Isso se traduz em princípios anti-servilismo: o modelo é instruído a discordar quando apropriado, a não bajular, a admitir incertezas em vez de gerar confiança artificial.
Essa escolha de identidade tem consequências operacionais. A maioria dos usuários prefere validação a verdade. Um modelo bajulador gera interações agradáveis no curto prazo. A Anthropic fez uma aposta de produto contrária: que honestidade construtiva constrói mais valor ao longo do tempo. É uma hipótese testável. Não há dados suficientes ainda para confirmar ou refutar.
Se constituições oferecem essas vantagens, por que outros laboratórios de fronteira não adotaram o formato? A OpenAI usa RLHF combinado com camadas de moderação, sem documento público equivalente. O DeepMind desenvolveu princípios para o Sparrow em 2022, mas não os elevou a método central de treinamento. A resposta provável envolve trade-offs estratégicos. Uma constituição pública é uma promessa auditável. Se o modelo viola seus próprios princípios declarados, a empresa fica exposta a críticas baseadas em seu próprio documento. Manter critérios internos preserva margem de manobra.
A publicação da Anthropic pode criar pressão competitiva. Alguns analistas projetam que OpenAI e DeepMind devem publicar documentos similares nos próximos meses. É especulação baseada em dinâmica de mercado, não em anúncios confirmados. Pode não acontecer. Mas o silêncio sobre critérios de governança se torna progressivamente mais custoso em termos de percepção pública.
O debate relevante deixa de ser técnico e passa a ser político. Constituições codificam valores. Quais valores? Definidos por quem? Com que legitimidade? A Constituição do Claude reflete as crenças da equipe da Anthropic sobre comportamento ético adequado. Outras empresas, em outros contextos culturais, codificariam princípios diferentes. Isso não é defeito do formato, é característica. Toda governança incorpora escolhas normativas. A novidade é que essas escolhas agora precisam ser declaradas, ou ao menos podem ser.
A longo prazo, a pergunta não será se laboratórios de fronteira devem ter constituições. Será quais constituições escolhem ter, e quem participa dessa escolha.
ousadia criativa. precisão estratégica. – por kim.