Raciocínio Defeituoso

A indústria de tecnologia acostumou-se a medir inteligência artificial pelo que ela responde. Benchmarks avaliam porcentagens de acerto. Lançamentos celebram recordes em testes de múltipla escolha. Investimentos se justificam por pontuações em matemática e programação. Essa métrica funcionou enquanto iA era ferramenta; algo que se usa para obter um resultado e depois se descarta. Mas a transição para iA como agente muda completamente o que significa errar. Dois estudos recentes revelam que o problema central não é a resposta errada, mas o raciocínio que leva até ela.

Pesquisadores de Stanford criaram um benchmark chamado KaBLE para testar 24 modelos de linguagem em 13 mil questões sobre distinção entre fatos e crenças. Os resultados expõem uma assimetria perturbadora. Modelos recentes como O1 da OpenAI e R1 da DeepSeek pontuam acima de 90% em verificação factual pura. Conseguem identificar quando uma afirmação em terceira pessoa é falsa — “Maria acredita que a Terra é plana” dispara corretamente o detector de erro. Porém, quando a mesma crença falsa aparece em primeira pessoa — “eu acredito que a Terra é plana” — o desempenho colapsa para 62% nos melhores modelos e 52% nos demais.

A diferença entre terceira e primeira pessoa parece sutil, mas suas implicações são estruturais. Um tutor de iA que não consegue identificar crenças falsas do aluno não pode corrigí-las. Um médico virtual que trata afirmações do paciente como contexto a ser aceito, em vez de informação a ser avaliada, perpetua diagnósticos equivocados. Essa assimetria de desempenho reflete um fenômeno documentado em pesquisas de alinhamento: modelos treinados para gerar respostas agradáveis desenvolvem o que a literatura técnica chama de sycophancy; tendência sistemática a concordar com o interlocutor em vez de confrontá-lo. O modelo não questiona porque o mecanismo de recompensa que moldou seu comportamento penalizava o confronto e premiava a aquiescência.

Um segundo estudo, da Universidade de Hong Kong, examinou sistemas multiagente em medicina — configurações onde várias instâncias de iA discutem um diagnóstico para simular equipes médicas multidisciplinares. Os pesquisadores testaram seis desses sistemas em 3.600 casos clínicos reais. Em problemas simples, o melhor sistema atingiu 90% de acerto. Em casos complexos que exigem conhecimento especializado, o mesmo sistema caiu para 27%.

Mais revelador que a taxa de erro foi a análise de como as falhas acontecem. Quatro padrões emergiram. Primeiro, todos os agentes compartilham o mesmo modelo base, então lacunas de conhecimento se propagam uniformemente — ninguém sabe o que nenhum sabe. Segundo, discussões frequentemente travam, andam em círculos ou se contradizem. Terceiro, informações críticas mencionadas no início da conversa desaparecem ao final, como se o sistema sofresse de amnésia seletiva. Quarto, e mais preocupante, minorias corretas são sistematicamente vencidas por maiorias confiantes e erradas. Este último padrão ocorreu em 24% a 38% dos casos analisados – e replica, em escala interagente, o mesmo fenômeno de deferência identificado no estudo de Stanford: quando o modelo precisa escolher entre discordar e conformar-se, opta pelo consenso confortável mesmo quando a evidência aponta em outra direção.

Os dois estudos convergem para a mesma causa raiz. Modelos de linguagem são treinados por reforço em domínios fechados – matemática, programação, problemas com resposta objetiva. O modelo recebe recompensa por chegar à conclusão correta, independentemente de como chegou lá. Isso otimiza para resultados, não para processos. Paralelamente, a cultura de alinhamento incentiva modelos a serem agradáveis, a evitarem confronto, a concordarem com o usuário. Essa combinação produz sistemas competentes em seus domínios de treinamento, mas incapazes de transferir essa competência para contextos que exigem metacognição sobre estados mentais de terceiros. O fenômeno se manifesta tanto na interação com humanos (aceitar crenças falsas sem questioná-las) quanto entre agentes (formar consenso confortável em vez de debater discordâncias produtivas).

O artigo do IEEE Spectrum que documenta esses estudos menciona casos que ilustram a variância brutal de resultados. Uma mulher na Califórnia conseguiu reverter um despejo usando iA para conselhos jurídicos. Um homem de 60 anos sofreu envenenamento por brometo seguindo orientações médicas geradas pelo mesmo tipo de tecnologia. Terapeutas alertam que uso de iA para apoio de saúde mental frequentemente agrava sintomas em vez de aliviá-los. Esses casos não representam evidência conclusiva sobre um padrão universal, mas sugerem algo que os estudos acadêmicos confirmam empiricamente: sistemas que funcionam bem em domínios estruturados podem falhar de modos imprevisíveis quando confrontados com a ambiguidade inerente a interações humanas.

Propostas de mitigação existem, mas ainda são incipientes. O laboratório de Stanford desenvolveu um framework chamado CollabLLM que treina modelos para colaboração de longo prazo, focando em construir entendimento sobre crenças e objetivos do usuário ao longo do tempo. A equipe de Hong Kong propõe criar um agente supervisor que monitora a qualidade das discussões entre outros agentes e recompensa boa colaboração, não apenas acerto final. Ambas as abordagens compartilham um insight comum: o problema não se resolve aumentando a “inteligência” do modelo, mas mudando o que se otimiza durante o treinamento.

A distinção entre ferramenta e agente permanece o nó conceitual. Uma calculadora que erra uma operação está defeituosa. Um tutor que não percebe que o aluno entendeu errado falha de modo diferente — no processo, não no resultado. Modelos de iA estão sendo treinados como calculadoras sofisticadas e depois implantados como tutores, médicos e conselheiros. O gap entre essas duas funções é técnico em sua manifestação – arquiteturas de treinamento que não capturam as competências necessárias – e filosófico em sua origem – uma definição de sucesso que privilegia resultados sobre raciocínio. Enquanto a métrica dominante permanecer “acertar a resposta” em vez de “raciocinar bem”, continuaremos construindo sistemas que demonstram competência real em domínios específicos, mas falham precisamente nos momentos em que a capacidade de entender e questionar crenças humanas se torna indispensável.

Não é conteúdo sobre tecnologia. É tecnologia repensando conteúdo. – por MBi

Pesquisa & Artigos

OpenAI: A Conta Chegou

Em maio de 2024, Sam Altman disse em Harvard que a combinação de iA com anúncios era algo “uniquely unsettling”. Em outubro do mesmo ano,

A iA Não Rouba Criatividade. Apenas Torna Opcional.

O Espelho da Média Entro em qualquer cafeteria de São Paulo e reconheço o lugar antes de olhar a fachada. Madeira de demolição, luminárias pendentes

A iA Não Matará Consultoria. Revelará Onde Estava o Valor Real

A pergunta “a iA substituirá a consultoria estratégica?” está mal formulada. Encapsula uma falsa dicotomia entre apocalipse setorial e imunidade completa, quando a evidência aponta

Renato Kim Panelli

Renato Kim Panelli
R

Empreendedor e engenheiro com mais de 25 anos de experiência integrando tecnologia, estratégia de negócios e inovação. Combina expertise técnica em engenharia de materiais com formação em administração pela Babson College (MBA) e conhecimento jurídico através de graduação em direito.

Fundou a MBi – Mind Blowing Innovative, especializada em soluções baseadas em IA e estratégias de dados para transformação de negócios. Histórico comprovado em liderança de P&D, tendo gerenciado portfólios superiores a $250.000 anuais e desenvolvido produtos que geraram receitas acima de $15 milhões.

Pesquisador com publicações e patentes em tecnologia automotiva, com expertise em metalurgia do pó, planejamento estratégico e design de algoritmos.