A DeepSeek é uma empresa chinesa que está ganhando destaque no cenário global de inteligência artificial (IA) com seu modelo de linguagem de grande escala (LLM, na sigla em inglês). Assim como o ChatGPT, a DeepSeek é capaz de gerar conteúdo em texto, como artigos, revisão de textos, tradução, e muito mais.
No entanto, o que realmente diferencia essa IA é sua filosofia open-source (código aberto), que permite uso gratuito e colaborativo, além de uma abordagem tecnológica bem interessante.
“A mistura de especialistas”
Um dos principais diferenciais da DeepSeek é seu modelo MoE (Mixture-of-Experts), que utiliza vários modelos especializados em tarefas específicas. Cada solicitação do usuário é direcionada para o “especialista” mais adequado, garantindo respostas mais precisas e eficientes. Essa abordagem não só melhora a qualidade das respostas, mas também otimiza o custo computacional.
Além disso, a DeepSeek é open-source, o que significa que qualquer pessoa pode contribuir para o desenvolvimento da ferramenta. Basta acessar o GitHub, baixar o código e começar a colaborar. Segundo a empresa, sua missão é “estreitar a lacuna entre modelos abertos e fechados”, promovendo uma IA mais acessível e colaborativa.
DeepSeek V3 e R1: os modelos disponíveis
Atualmente, a DeepSeek opera com dois modelos principais: o V3 e o R1. O mais recente é o R1, lançado em 20 de janeiro, especializado em raciocínio lógico, superou o modelo GPT-4 da OpenAI em testes matemáticos (MATH-500), com uma taxa de acerto de 97,3% contra 96,4% do concorrente.
Em termos da quantidade de parâmetros temos o seguinte:
- DeepSeek V3: 671 bilhões de parâmetros totais, com 37 bilhões de parâmetros ativos durante a inferência.
- DeepSeek R1: Entre 32 e 70 bilhões de parâmetros, dependendo da versão.
Lembrando que a contagem de parâmetros é uma métrica importante quando tratamos da avaliação de modelos de inteligência artificial no estilo do DeepSeek. Números mais elevados de parâmetros tem relação direta com a capacidade que aquela IA consegue atingir.
Repare abaixo na página de Download do DeepSeek V3 no Github a contagem de parâmetros do modelo V3. Temos uma número para o total de parâmetros (Total Params) e outro diferente que seriam os parâmetros ativos (Activated Params)
Essa diferença tem relação total com aquela característica mencionada no início, o fato da DeepSeek apostar em MoE. Os 671 bilhões de parâmetros totais representa o número absoluto utilizado durante o treinamento desse modelo, já os parâmetros ativos, que nesse caso são 37 bilhões, indica quantos desses parâmetros são utilizados em determinado momento durante cada requisição do usuário, o que melhora a eficiência e reduz custos.
Eficiência que impressiona
A DeepSeek destaca muito a questão da eficiência, em relação ao custo, perante seus concorrentes. Por exemplo, o modelo V3 teria exigido um custo de US$ 5,5 milhões e 2048 GPUS NVIDIA H800 e 2,788 milhões de horas para o treinamento. Já o GPT-4, da OpenAI, teria demandado US$ 80 milhões.
Como usar a DeepSeek?
A interação com a DeepSeek é simples e intuitiva, semelhante ao ChatGPT. Você pode:
- Acessar o site oficial, realizar o login, e fazer solicitações via prompt.
- Baixar o aplicativo para Android ou iOS.
- Rodar localmente usando softwares como o LM Studio, que permite baixar e utilizar os modelos da DeepSeek diretamente no seu computador.
Ao clicar na lupa do LM Studio você consegue visualizar as opções de modelos treinados para download. Repare que o DeepSeek R1 está na lista. Lembrando que essa versão do R1 é a “distiled” que representa um modelo mais simples e compacto de um modelo maior, o número de parâmetros pode ser menor que o modelo original. No entanto, a grosso modo a diferença fica mais por conta da otimização.
Resultados de benchmarks mostram que, para aqueles que buscam rodar localmente, as opções mais recomendada disponíveis no LM Studio são as seguintes:
- DeepSeek R1-Distill Qwen-32B (19.85 GB)
- DeepSeek R1-Distill Qwen-14B (8.99 GB)
- DeepSeek R1-Distill Qwen-7B (4.68 GB)
Lembrando que modelos com um maior número de parâmetros exigirão mais do hardware para serem rodados localmente.
O que da pra fazer com o DeepSeek?
Confira abaixo algumas das tarefas que é possível realizar com o DeepSeek:
- Redigir artigos, ensaios, relatórios, resumos e dissertações;
- Escrever textos criativos, como poesias, contos e roteiros.
- Revisar e corrigir textos para melhorar clareza, gramática e estilo.
- Traduzir textos entre vários idiomas
- Fornecer resumos de livros, artigos ou tópicos específicos.
- Auxiliar na solução de problemas técnicos ou de software.
- Simular conversas
- Ajudar a criar listas de tarefas, cronogramas e metas.