
DeepSeek, uma startup chinesa de inteligência artificial até então pouco conhecida, causou impacto no Vale do Silício com o lançamento de modelos de IA de ponta. Desenvolvidos com alta eficiência e disponibilizados como recursos de código aberto, esses modelos desafiam a hegemonia de empresas como OpenAI, Google e Meta.
DeepSeek: Uma Estrela em Ascensão
Fundada em maio de 2023 por Liang Wenfeng, figura destacada nos setores de fundos hedge e IA, a DeepSeek opera de forma independente, sendo financiada exclusivamente pela High-Flyer, um fundo quantitativo também criado por Wenfeng. Esse modelo de financiamento permite à empresa focar em pesquisas de longo prazo sem pressões de investidores externos.
A equipe da DeepSeek é composta principalmente por jovens graduados de universidades chinesas de prestígio, promovendo inovação e uma compreensão profunda da língua e cultura chinesas. Além disso, a empresa prioriza habilidades técnicas em vez de experiência profissional tradicional.
Desde o lançamento do modelo DeepSeek Coder em novembro de 2023, voltado para tarefas de codificação, a empresa tem avançado rapidamente. Em maio de 2024, o DeepSeek-V2 chamou a atenção por sua alta performance e baixo custo, iniciando uma guerra de preços no mercado chinês. Mais recentemente, modelos como o DeepSeek-V3 e DeepSeek-R1 consolidaram sua posição no setor de IA, com tecnologias que desafiam grandes players globais.
Apesar do rápido sucesso, a DeepSeek mantém seu foco em pesquisa, sem planos detalhados para ampla comercialização no curto prazo.
Parcerias Estratégicas
A DeepSeek formou colaborações importantes, como com a AMD, utilizando GPUs Instinct e o software ROCM para otimizar o desempenho de seus modelos, especialmente o DeepSeek-V3.
Técnicas Inovadoras
A empresa utiliza abordagens únicas:
- Aprendizado por Reforço: Seus modelos aprendem por tentativa e erro, como o DeepSeek-R1, que foca em tarefas de raciocínio.
- Arquitetura Mixture-of-Experts (MoE): Ativa apenas frações dos parâmetros necessários para cada tarefa, reduzindo custos computacionais.
- Atenção Latente Multi-Head: Permite que modelos processem dados de forma mais precisa, identificando relações complexas simultaneamente.
- Técnicas de Distilação: Transfere o conhecimento de modelos maiores para versões menores, tornando a IA mais acessível.
Abordagem de Baixo Custo
A DeepSeek destaca-se por custos reduzidos, tanto no treinamento quanto no uso de seus modelos. Por exemplo, o DeepSeek-R1 tem preços competitivos para APIs, tornando a tecnologia acessível para pequenas empresas.
Impacto no Setor de IA
O modelo de código aberto da DeepSeek está democratizando o acesso a tecnologias avançadas, aumentando a concorrência e promovendo inovações no setor. A empresa também traz benefícios ambientais, ao desenvolver modelos mais eficientes e sustentáveis.