A diferença entre um modelo convencional e um raciocínio é semelhante aos dois tipos de pensamento descritos pelo economista vencedor do Nobel, Michael Kahneman, em seu livro de 2011 Pensando rápido e lento: Sistema-1 rápido e instintivo e pensamento mais lento do sistema-2 mais deliberativo.
O tipo de modelo que tornou possível o chatgpt, conhecido como modelo de idioma grande ou LLM, produz respostas instantâneas a um aviso, consultando uma grande rede neural. Essas saídas podem ser surpreendentemente inteligentes e coerentes, mas podem não responder a perguntas que exigem raciocínio passo a passo, incluindo aritmética simples.
Um LLM pode ser forçado a imitar o raciocínio deliberativo se for instruído a criar um plano que ele deve seguir. Esse truque nem sempre é confiável, no entanto, e os modelos normalmente lutam para resolver problemas que exigem um planejamento extenso e cuidadoso. Openai, Google e agora Antrópico estão todos usando um método de aprendizado de máquina conhecido como Aprendizagem de reforço para obter seus modelos mais recentes para aprender a gerar raciocínio que aponta para respostas corretas. Isso requer a coleta de dados de treinamento adicionais de seres humanos sobre a solução de problemas específicos.
Penn diz que o modo de raciocínio de Claude recebeu dados adicionais sobre aplicativos de negócios, incluindo escrever e consertar código, usar computadores e responder a perguntas legais complexas. “As coisas em que fizemos melhorias são … assuntos técnicos ou assuntos que exigem um longo raciocínio”, diz Penn. “O que temos de nossos clientes é muito interesse em implantar nossos modelos em suas cargas de trabalho reais”.
O Antrópico diz que o Claude 3.7 é especialmente bom em resolver problemas de codificação que exigem raciocínio passo a passo, superando o O1 Open em alguns parâmetros de referência como o SWE-banch. A empresa está lançando hoje uma nova ferramenta, chamada Claude Code, projetada especificamente para esse tipo de codificação assistida por AA.
“O modelo já é bom em codificação”, diz Penn. Mas “o pensamento adicional seria bom para casos que podem exigir um planejamento muito complexo – digamos que você está olhando para uma base de código extremamente grande para uma empresa”.