Como a startup de IA chinesa Deepseek fez um modelo que rivaliza com o OpenAi

Internacional


Hoje, a Deepseek é uma das únicas principais empresas de IA da China que não depende de financiamento de gigantes da tecnologia como Baidu, Alibaba ou Bytedance.

Um jovem grupo de gênios ansiosos para provar a si mesmos

De acordo com Liang, quando montou a equipe de pesquisa de Deepseek, ele não estava procurando engenheiros experientes para construir um produto voltado para o consumidor. Em vez disso, ele se concentrou em estudantes de doutorado das principais universidades da China, incluindo a Universidade de Pequim e a Universidade de Tsinghua, que estavam ansiosos para provar a si mesmos. Muitos foram publicados em principais periódicos e ganharam prêmios em conferências acadêmicas internacionais, mas não tinham experiência no setor, de acordo com A publicação de tecnologia chinesa Qbitai.

“Nossas posições técnicas principais são preenchidas principalmente por pessoas que se formaram este ano ou nos últimos um ou dois anos”. Liang disse a 36kr em 2023. A estratégia de contratação ajudou a criar uma cultura colaborativa da empresa, onde as pessoas eram livres para usar amplos recursos de computação para buscar projetos de pesquisa não ortodoxos. É uma maneira totalmente diferente de operar de empresas de Internet estabelecidas na China, onde as equipes costumam competir por recursos. (Um exemplo recente: Bytedance acusou um ex -estagiário – um prestigioso vencedor do prêmio acadêmico, nada menos – de sabotar o trabalho de seus colegas para acumular mais recursos de computação para sua equipe.)

Liang disse que os alunos podem ser mais adequados para pesquisas de alto investimento e de baixo lucro. “A maioria das pessoas, quando é jovem, pode se dedicar completamente a uma missão sem considerações utilitárias”, explicou. Seu campo para contratações em potencial é que a Deepseek foi criada para “resolver as perguntas mais difíceis do mundo”.

O fato de esses jovens pesquisadores serem quase inteiramente educados na China acrescenta ao seu impulso, dizem os especialistas. “Essa geração mais jovem também incorpora um senso de patriotismo, principalmente ao navegar nas restrições dos EUA e os pontos de estrangulamento em tecnologias críticas de hardware e software”, explica Zhang. “A determinação deles em superar essas barreiras reflete não apenas a ambição pessoal, mas também um compromisso mais amplo de promover a posição da China como líder global de inovação”.

Inovação nascida de uma crise

Em outubro de 2022, o governo dos EUA começou a montar os controles de exportação que restringiam severamente as empresas de IA chinesas de acessar chips de ponta como o H100 da Nvidia. A medida apresentou um problema para a Deepseek. A empresa começou com um estoque de 10.000 H100, mas precisava de mais para competir com empresas como OpenAI e Meta. “O problema que estamos enfrentando nunca foi financiar, mas o controle de exportação em chips avançados”, disse Liang ao 36KR Em uma segunda entrevista em 2024.

A Deepseek teve que criar métodos mais eficientes para treinar seus modelos. “Eles otimizaram sua arquitetura de modelo usando uma bateria de truques de engenharia-esquemas de comunicação de clientes entre batatas fritas, reduzindo o tamanho dos campos para salvar a memória e o uso inovador da abordagem de mixagem”, diz Wendy Chang, um engenheiro de software que transformou a política Analista do Instituto Mercator para Estudos da China. “Muitas dessas abordagens não são novas idéias, mas combiná-las com sucesso para produzir um modelo de ponta é um feito notável.”

A Deepseek também fez um progresso significativo na atenção latente de várias cabeças (MLA) e na mistura de especialistas, dois projetos técnicos que tornam os modelos Deepseek mais econômicos, exigindo menos recursos de computação para treinar. De fato, o mais recente modelo de Deepseek é tão eficiente que exigiu um décimo do poder de computação do modelo de llama 3.1 comparável da Meta para treinar, De acordo com a época da instituição de pesquisa ai.

A disposição da Deepseek de compartilhar essas inovações com o público ganhou uma boa vontade considerável na comunidade global de pesquisa da IA. Para muitas empresas de IA chinesas, o desenvolvimento de modelos de código aberto é a única maneira de se atualizar com seus colegas ocidentais, porque atrai mais usuários e colaboradores, o que, por sua vez, ajuda os modelos a crescer. “Eles agora demonstraram que os modelos de ponta podem ser construídos usando menos, embora ainda muito dinheiro e que as normas atuais de construção de modelos deixam muito espaço para otimização”, diz Chang. “Temos certeza de ver muito mais tentativas nessa direção daqui para frente.”

As notícias podem significar problemas para os controles atuais de exportação dos EUA, que se concentram na criação de gargalos de recursos de computação. “As estimativas existentes de quanto o poder de computação de IA China tem e o que elas podem alcançar com ela podem ser derrubadas”, diz Chang.



Source link

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *