Inteligência Artificial
Pesquisadores criaram um modelo de IA por menos de US$ 50
Modelo s1 desafia OpenAI e DeepSeek. Entenda sobre a IA de baixo custo e suas implicações éticas.
10/02/2025, 17:00
Pesquisadores das universidades de Stanford e Washington treinaram um modelo de IA com capacidade de "raciocínio" por menos de US$ 50 em créditos de computação em nuvem, revelou um artigo científico publicado na última sexta-feira.
O modelo, chamado s1, apresenta desempenho comparável a sistemas de ponta como o o1 da OpenAI e o R1 da DeepSeek em testes de matemática e programação. O código, dados e metodologia do s1 estão disponíveis publicamente no GitHub.
O segredo por trás do custo revolucionário
A equipe por trás do s1 partiu de um modelo base pronto (do laboratório chinês Qwen, da Alibaba) e aplicou destilação — técnica que extrai capacidades de raciocínio de outro modelo de IA, neste caso, o Gemini 2.0 Flash Thinking Experimental da Google.
Esse método, usado no mês passado por pesquisadores de Berkeley para criar um modelo similar por US$ 450, envolve ajuste fino supervisionado (SFT). Nele, a IA é instruída a imitar comportamentos específicos de um conjunto de dados, um processo mais barato que o aprendizado por reforço em larga escala (usado pela DeepSeek no R1).
Hegemonia das gigantes de IA
A ascensão de modelos como o s1 levanta questões urgentes:
Onde está a vantagem competitiva se é possível replicar modelos de milhões de dólares com recursos mínimos?
Ética na destilação: A Google proíbe o uso de sua API para desenvolver concorrentes, e a OpenAI já acusou a DeepSeek de extrair dados de forma inadequada.
Apesar do entusiasmo com a democratização da IA, laboratórios tradicionais alertam para riscos de modelos e desincentivo à inovação radical.
O truque do "esperar" e a eficiência do s1
Para otimizar o desempenho, os pesquisadores usaram uma estratégia engenhosa: instruíram o modelo a "esperar" durante o processo de raciocínio. Essa pausa forçada, implementada via testtime scaling, permitiu que o s1 revisasse respostas e corrigisse erros, aumentando a precisão em benchmarks como MATH (problemas matemáticos complexos).
O treinamento consumiu:
16 GPUs Nvidia H100
Menos de 30 minutos
Custo estimado de US$ 20 em recursos atuais de nuvem, segundo Niklas Muennighoff, pesquisador de Stanford envolvido no projeto.
Paradoxo do investimento bilionário vs. inovação acessível
Enquanto Meta, Google e Microsoft planejam investir centenas de bilhões de dólares em infraestrutura de IA até 2025, o s1 prova que avanços significativos podem surgir de abordagens frugais. Porém, especialistas ressaltam:
A destilação replica capacidades existentes, mas não cria modelos radicalmente superiores. A fronteira da IA ainda exigirá investimentos maciços.
Disponibilidade e repercussão
O s1 está hospedado no repositório simplescaling/s1 do GitHub, junto com seu dataset de 1.000 perguntas selecionadas e respostas detalhadas geradas pelo Gemini. A Google, questionada sobre possíveis violações de termos de uso, ainda não se pronunciou publicamente.
Enquanto isso, o debate sobre propriedade intelectual e acesso aberto na IA ganha novo fôlego — e o s1 está no centro dele.
Fonte: Tech Crunch