TESTE 01
 

DeepSeek: o que é e como usar: tudo o que você precisa saber sobre a IA chinesa do momento

DeepSeek é uma empresa chinesa que está ganhando destaque no cenário global de inteligência artificial (IA) com seu modelo de linguagem de grande escala (LLM, na sigla em inglês). Assim como o ChatGPT, a DeepSeek é capaz de gerar conteúdo em texto, como artigos, revisão de textos, tradução, e muito mais.

TESTE 02
 

No entanto, o que realmente diferencia essa IA é sua filosofia open-source (código aberto), que permite uso gratuito e colaborativo, além de uma abordagem tecnológica bem interessante.

“A mistura de especialistas”

Um dos principais diferenciais da DeepSeek é seu modelo MoE (Mixture-of-Experts), que utiliza vários modelos especializados em tarefas específicas. Cada solicitação do usuário é direcionada para o “especialista” mais adequado, garantindo respostas mais precisas e eficientes. Essa abordagem não só melhora a qualidade das respostas, mas também otimiza o custo computacional.

Além disso, a DeepSeek é open-source, o que significa que qualquer pessoa pode contribuir para o desenvolvimento da ferramenta. Basta acessar o GitHub, baixar o código e começar a colaborar. Segundo a empresa, sua missão é “estreitar a lacuna entre modelos abertos e fechados”, promovendo uma IA mais acessível e colaborativa.

DeepSeek V3 e R1: os modelos disponíveis

Atualmente, a DeepSeek opera com dois modelos principais: o V3 e o R1. O mais recente é o R1, lançado em 20 de janeiro, especializado em raciocínio lógico, superou o modelo GPT-4 da OpenAI em testes matemáticos (MATH-500), com uma taxa de acerto de 97,3% contra 96,4% do concorrente.

TESTE 03
 

deepseek r1 benchmark

Em termos da quantidade de parâmetros temos o seguinte:

  • DeepSeek V3: 671 bilhões de parâmetros totais, com 37 bilhões de parâmetros ativos durante a inferência.
  • DeepSeek R1: Entre 32 e 70 bilhões de parâmetros, dependendo da versão.

Lembrando que a contagem de parâmetros é uma métrica importante quando tratamos da avaliação de modelos de inteligência artificial no estilo do DeepSeek. Números mais elevados de parâmetros tem relação direta com a capacidade que aquela IA consegue atingir.

Repare abaixo na página de Download do DeepSeek V3 no Github a contagem de parâmetros do modelo V3. Temos uma número para o total de parâmetros (Total Params) e outro diferente que seriam os parâmetros ativos (Activated Params)

4

Captura de tela 2025 01 28 111638

Essa diferença tem relação total com aquela característica mencionada no início, o fato da DeepSeek apostar em MoE. Os 671 bilhões de parâmetros totais representa o número absoluto utilizado durante o treinamento desse modelo, já os parâmetros ativos, que nesse caso são 37 bilhões, indica quantos desses parâmetros são utilizados em determinado momento durante cada requisição do usuário, o que melhora a eficiência e reduz custos.

Eficiência que impressiona

A DeepSeek destaca muito a questão da eficiência, em relação ao custo, perante seus concorrentes. Por exemplo, o modelo V3 teria exigido um custo de US$ 5,5 milhões e 2048 GPUS NVIDIA H800 e 2,788 milhões de horas para o treinamento. Já o GPT-4, da OpenAI, teria demandado US$ 80 milhões.

Como usar a DeepSeek?

A interação com a DeepSeek é simples e intuitiva, semelhante ao ChatGPT. Você pode:

  1. Acessar o site oficial, realizar o login, e fazer solicitações via prompt.
  2. Baixar o aplicativo para Android ou iOS.
  3. Rodar localmente usando softwares como o LM Studio, que permite baixar e utilizar os modelos da DeepSeek diretamente no seu computador.

Ao clicar na lupa do LM Studio você consegue visualizar as opções de modelos treinados para download. Repare que o DeepSeek R1 está na lista. Lembrando que essa versão do R1 é a “distiled” que representa um modelo mais simples e compacto de um modelo maior, o número de parâmetros pode ser menor que o modelo original. No entanto, a grosso modo a diferença fica mais por conta da otimização.

Captura de tela 2025 01 28 114436

Resultados de benchmarks mostram que, para aqueles que buscam rodar localmente, as opções mais recomendada disponíveis no LM Studio são as seguintes:

  • DeepSeek R1-Distill Qwen-32B (19.85 GB)
  • DeepSeek R1-Distill Qwen-14B (8.99 GB)
  • DeepSeek R1-Distill Qwen-7B (4.68 GB)

Lembrando que modelos com um maior número de parâmetros exigirão mais do hardware para serem rodados localmente.

O que da pra fazer com o DeepSeek?

Confira abaixo algumas das tarefas que é possível realizar com o DeepSeek:

  • Redigir artigos, ensaios, relatórios, resumos e dissertações;
  • Escrever textos criativos, como poesias, contos e roteiros.
  • Revisar e corrigir textos para melhorar clareza, gramática e estilo.
  • Traduzir textos entre vários idiomas
  • Fornecer resumos de livros, artigos ou tópicos específicos.
  • Auxiliar na solução de problemas técnicos ou de software.
  • Simular conversas
  • Ajudar a criar listas de tarefas, cronogramas e metas.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *