Tudo sobre a DeepSeek, a startup chinesa de IA que está desafiando as Big Techs 

Atualizado em 27 de janeiro de 2025 às 23:04
Logo do Deepseek. Foto: Divulgação

DeepSeek, uma startup chinesa de inteligência artificial até então pouco conhecida, causou impacto no Vale do Silício com o lançamento de modelos de IA de ponta. Desenvolvidos com alta eficiência e disponibilizados como recursos de código aberto, esses modelos desafiam a hegemonia de empresas como OpenAI, Google e Meta.

DeepSeek: Uma Estrela em Ascensão

Fundada em maio de 2023 por Liang Wenfeng, figura destacada nos setores de fundos hedge e IA, a DeepSeek opera de forma independente, sendo financiada exclusivamente pela High-Flyer, um fundo quantitativo também criado por Wenfeng. Esse modelo de financiamento permite à empresa focar em pesquisas de longo prazo sem pressões de investidores externos.

A equipe da DeepSeek é composta principalmente por jovens graduados de universidades chinesas de prestígio, promovendo inovação e uma compreensão profunda da língua e cultura chinesas. Além disso, a empresa prioriza habilidades técnicas em vez de experiência profissional tradicional.

Desde o lançamento do modelo DeepSeek Coder em novembro de 2023, voltado para tarefas de codificação, a empresa tem avançado rapidamente. Em maio de 2024, o DeepSeek-V2 chamou a atenção por sua alta performance e baixo custo, iniciando uma guerra de preços no mercado chinês. Mais recentemente, modelos como o DeepSeek-V3 e DeepSeek-R1 consolidaram sua posição no setor de IA, com tecnologias que desafiam grandes players globais.

Apesar do rápido sucesso, a DeepSeek mantém seu foco em pesquisa, sem planos detalhados para ampla comercialização no curto prazo.

Parcerias Estratégicas

A DeepSeek formou colaborações importantes, como com a AMD, utilizando GPUs Instinct e o software ROCM para otimizar o desempenho de seus modelos, especialmente o DeepSeek-V3.

Técnicas Inovadoras

A empresa utiliza abordagens únicas:

  • Aprendizado por Reforço: Seus modelos aprendem por tentativa e erro, como o DeepSeek-R1, que foca em tarefas de raciocínio.
  • Arquitetura Mixture-of-Experts (MoE): Ativa apenas frações dos parâmetros necessários para cada tarefa, reduzindo custos computacionais.
  • Atenção Latente Multi-Head: Permite que modelos processem dados de forma mais precisa, identificando relações complexas simultaneamente.
  • Técnicas de Distilação: Transfere o conhecimento de modelos maiores para versões menores, tornando a IA mais acessível.

Abordagem de Baixo Custo

A DeepSeek destaca-se por custos reduzidos, tanto no treinamento quanto no uso de seus modelos. Por exemplo, o DeepSeek-R1 tem preços competitivos para APIs, tornando a tecnologia acessível para pequenas empresas.

Impacto no Setor de IA

O modelo de código aberto da DeepSeek está democratizando o acesso a tecnologias avançadas, aumentando a concorrência e promovendo inovações no setor. A empresa também traz benefícios ambientais, ao desenvolver modelos mais eficientes e sustentáveis.

Conheça as redes sociais do DCM:
⚪️ Facebook: https://www.facebook.com/diariodocentrodomundo
🟣 Threads: https://www.threads.net/@dcm_on_line