A explicação tá no nome…

Quem começa a se aproximar do mundo das inteligências artificiais locais logo se depara com nomes estranhos, quase como códigos de produto:

À primeira vista, parece coisa feita para afastar curiosos. Mas esses nomes seguem uma lógica. Depois que entendemos essa lógica, eles deixam de parecer uma sopa de letras e passam a funcionar como uma espécie de etiqueta técnica do modelo.

É mais ou menos como olhar para o nome de um carro, de um celular ou de um computador. Quando alguém diz “iPhone 15 Pro Max 256 GB”, há ali várias informações compactadas: marca, geração, linha, capacidade de armazenamento e posição do produto na família. Com modelos de linguagem, acontece algo parecido.

A primeira parte:
a família do modelo

Vamos usar como exemplo o nome:

qwen2.5:3b

A palavra qwen indica a família do modelo. Família, aqui, significa a linhagem à qual aquele modelo pertence. Assim como existem carros da família Corolla, Civic, Gol ou Uno, também existem modelos de inteligência artificial pertencentes a famílias como:

Cada família tem características próprias. Algumas são mais conhecidas por bom desempenho em textos gerais. Outras são fortes em programação. Outras funcionam melhor em computadores modestos. Outras são mais pesadas, mas também mais capazes.

Portanto, quando vemos:

qwen2.5

Nós estamos olhando para o “sobrenome” do modelo.

O número depois
do sobrenome: a geração

Ainda no exemplo:

qwen2.5:3b

A parte 2.5 indica a versão ou geração daquela família.

Isso significa que qwen2.5 não é exatamente a mesma coisa que qwen2, qwen3 ou outra versão futura. Assim como softwares, celulares e carros recebem novas versões, os modelos de inteligência artificial também passam por gerações.

Uma nova geração pode trazer melhorias como:

melhor compreensão de perguntas;
respostas mais organizadas;
melhor desempenho em outros idiomas;
maior capacidade de lidar com código;
menor tendência a erros;
melhor aproveitamento do hardware.

Isso é importante porque um modelo menor, mas mais novo, pode às vezes funcionar melhor do que um modelo maior, porém mais antigo.

Ou seja:
Não basta olhar apenas para o tamanho. A geração também importa.

Em uma analogia simples, pense em dois celulares:

Moto G67: um celular intermediário lançado este ano;
Moto G6: um celular topo de linha lançado há oito anos.

O mais antigo pode ter sido poderoso no seu tempo, mas o mais novo talvez seja mais eficiente, mais compatível e mais adequado ao uso atual. Com modelos de IA acontece algo parecido.

Os dois-pontos: separando o modelo da versão específica

Em nomes como:

qwen2.5:3b

Os dois-pontos : funcionam como um separador.

De um lado, temos o nome da família e geração:

qwen2.5

Do outro, temos uma informação sobre a variante específica:

:3

Em algumas ferramentas, como ambientes que permitem baixar e rodar modelos localmente, essa parte depois dos dois-pontos funciona como uma etiqueta da versão escolhida.

É como se disséssemos:

Quero o modelo Qwen 2.5, mas especificamente na versão de 3 bilhões de parâmetros.

3b
O que significa?

A parte:

3b

Significa aproximadamente 3 bilhões de parâmetros. O b vem de billion, em inglês. Em português, podemos ler como bilhão.

Então:

1b = 1 bilhão de parâmetros
3b = 3 bilhões de parâmetros
7b = 7 bilhões de parâmetros
14b = 14 bilhões de parâmetros
32b = 32 bilhões de parâmetros
70b = 70 bilhões de parâmetros

Mas o que são parâmetros?

De forma bem simplificada, os parâmetros são os “ajustes internos” que o modelo aprendeu durante seu treinamento. Eles não são memórias no sentido humano. O modelo não guarda frases exatamente como nós guardamos lembranças. Mas esses parâmetros ajudam o modelo a prever, organizar e gerar respostas.

Uma analogia possível:

Os parâmetros são como as conexões e regulagens internas de uma grande máquina de linguagem.

Quanto mais parâmetros, maior tende a ser a capacidade do modelo de lidar com situações complexas. Mas isso também cobra um preço: modelos maiores precisam de mais memória, mais processamento e computadores mais potentes.

Modelo maior
é sempre melhor?

Não necessariamente. Essa é uma das ideias mais importantes para quem está começando.

Há de haver equilíbrio na escolha… Um modelo de 14 bilhões de parâmetros tende a ser mais capaz do que um modelo de 3 bilhões, mas isso não significa que ele será sempre a melhor escolha.

Um modelo maior pode ser:

mais lento;
mais pesado;
mais difícil de rodar;
mais exigente em memória;
desnecessário para tarefas simples.

Enquanto isso, um modelo menor pode ser:

mais rápido;
mais leve;
mais barato de executar;
suficiente para tarefas simples;
mais adequado a computadores modestos.

É como escolher um veículo. Para atravessar uma cidade, talvez um carro compacto resolva muito bem. Para puxar uma carga pesada, talvez seja preciso uma caminhonete. Para transportar dezenas de pessoas, aí já estamos falando de um ônibus.

Modelos de IA também devem ser escolhidos de acordo com a tarefa.

Entendendo nomes mais longos

Às vezes o nome do modelo é mais complexo, como:

qwen2.5-coder:7b-instruct-q4_K_M

Esse nome parece assustador, mas pode ser desmontado em partes.

Vamos separar:

qwen = família 2.5 = geração coder = especialização em programação 7b = 7 bilhões de parâmetros instruct = ajustado para seguir instruções q4_K_M = tipo de compressão/quantização

Agora ficou mais legível…

O que significa coder?

Quando aparece a palavra:

coder

isso geralmente indica que o modelo foi treinado ou ajustado para lidar melhor com código de programação.

Modelos com coder no nome costumam ser mais adequados para tarefas como:

explicar trechos de código;
corrigir erros;
sugerir funções;
ajudar com HTML, CSS, JavaScript, Python, PHP e outras linguagens;
interpretar mensagens de erro;
apoiar desenvolvimento de sistemas.

Isso não quer dizer que eles só saibam programar. Mas significa que sua especialidade é essa.

Analogia simples… Imagine dois professores:

um professor generalista, que sabe explicar vários assuntos;
um professor especializado em programação.

Ambos podem ajudar em muitas coisas. Mas, se a pergunta for sobre código, talvez o especialista seja mais adequado.

Instruct?
O que significa?

Quando aparece:

instruct

Isso indica que o modelo foi ajustado para seguir instruções. Isso é importante porque nem todo modelo de linguagem nasce pronto para conversar de forma obediente, organizada e útil. Alguns modelos são mais “crus”, mais próximos de uma máquina que continua textos. Já os modelos instruct foram preparados para responder comandos como:

resuma este texto;
explique de forma simples;
compare essas duas ideias;
crie uma lista;
reescreva em tom profissional;
analise este problema.

Para a maioria das pessoas usando IA em formato de conversa, modelos instruct tendem a ser mais apropriados.

q4, q5, q8 ou fp16.
O que significa?

Aqui entramos em uma parte fundamental para entender a relação entre modelos e computadores.

Essas siglas costumam indicar algo chamado quantização.

A palavra é feia, mas a ideia pode ser explicada de forma simples:

Quantização é uma forma de reduzir o tamanho do modelo para que ele ocupe menos memória e consiga rodar em computadores mais modestos.

Modelos de IA podem ser muito grandes. Para caberem em máquinas comuns, muitas vezes eles são “comprimidos”. Essa compressão reduz o consumo de memória, mas pode causar alguma perda de qualidade.

Uma escala simplificada seria:

fp16 = mais pesado, mais fiel, exige mais memória q8 = ainda pesado, mas mais leve que fp16 q5 = bom equilíbrio q4 = muito usado por equilibrar qualidade e leveza q3 = mais leve, mas com perda maior q2 = muito comprimido, qualidade mais instável

Analogia com imagem… Pense em uma fotografia. Você pode ter:

Uma foto enorme, em altíssima qualidade;
Uma foto média, ainda muito boa;
Uma foto comprimida para enviar rapidamente pelo WhatsApp.

A imagem comprimida ocupa menos espaço, mas pode perder detalhes. Com modelos de IA, a lógica é parecida. A quantização reduz o tamanho do modelo, mas pode reduzir um pouco sua precisão.

Por que isso importa para o computador?

Porque modelos de IA precisam caber na memória da máquina. E aqui temos três elementos importantes:

A RAM é a memória principal do computador. É usada por programas em geral.

A VRAM é a memória da placa de vídeo. Ela é especialmente importante quando usamos uma GPU, principalmente placas NVIDIA, para acelerar modelos de IA.

O armazenamento é o espaço em disco, SSD ou HD, onde os arquivos dos modelos ficam guardados.

De forma simples:

armazenamento = onde o modelo fica guardado;
RAM = onde o modelo pode ser carregado para funcionar;
VRAM = memória da placa de vídeo, geralmente mais rápida para IA.

Uma régua prática de tamanhos

Não existe uma regra perfeita, porque tudo depende da ferramenta usada, da quantização, do tamanho do contexto e da configuração da máquina. Mas podemos pensar em uma régua aproximada:

0.5B a 1.5B = modelos muito leves 3B = modelos pequenos e úteis 7B = modelos intermediários, bom ponto de partida 14B = modelos mais robustos 32B = modelos grandes 70B ou mais = modelos muito grandes

Traduzindo para uso prático:

modelos pequenos → bons para tarefas simples e máquinas modestas;
modelos médios → bons para uso geral;
modelos grandes → melhores para tarefas complexas, mas exigem hardware forte.

Como escolher um modelo sem se perder?

Uma boa pergunta não é:

Qual é o melhor modelo?

Mas sim:

Qual é o melhor modelo para esta tarefa, neste computador?

Para tarefas simples, como resumir textos curtos, classificar informações ou gerar respostas rápidas, um modelo pequeno pode ser suficiente.

Para escrever textos mais elaborados, revisar documentos, interpretar instruções mais complexas ou ajudar com programação, talvez seja melhor usar um modelo intermediário.

Para raciocínio mais sofisticado, análise extensa ou tarefas mais exigentes, modelos maiores podem ser necessários.

Mas, se o computador não tiver memória suficiente, o modelo maior pode ficar lento demais ou simplesmente não funcionar.

Tamanho do modelo
e tipo de tarefa

Uma forma simples de pensar:

Tarefa	Tamanho provável
Classificar frases simples	1B a 3B
Resumir textos curtos	3B a 7B
Conversar de forma geral	7B
Ajudar com programação	7B a 14B, preferencialmente coder
Analisar textos longos	14B ou mais
Raciocínio complexo	14B, 32B ou mais

Isso não é uma lei. É apenas uma orientação inicial.

Um modelo pequeno
pode ser inteligente?

Sim.

Modelos pequenos estão ficando cada vez melhores. Um modelo de 3 bilhões de parâmetros atual pode ser surpreendentemente útil para muitas tarefas.

Mas é importante ajustar a expectativa.

Um modelo pequeno tende a ser bom para:

respostas rápidas;
tarefas bem delimitadas;
resumos simples;
classificações;
rascunhos iniciais;
automação de pequenas tarefas.

Mas pode ter mais dificuldade com:

instruções muito longas;
raciocínio em várias etapas;
interpretação de documentos complexos;
programação avançada;
manutenção de coerência em conversas extensas.

Por que modelos
locais são interessantes?

Hoje muita gente usa inteligência artificial em serviços online. Nesse caso, o modelo roda em servidores de uma empresa, e a pessoa acessa pela internet.

Mas também é possível rodar modelos localmente, no próprio computador. Isso tem vantagens e limitações.

Vantagens:

mais controle;
possibilidade de uso sem depender tanto da nuvem;
maior privacidade em alguns cenários;
aprendizado técnico;
custo previsível depois da montagem da máquina.

Limitações:

exige hardware;
pode ser mais lento;
modelos locais pequenos podem ser menos capazes que grandes modelos comerciais;
configuração pode ser trabalhosa;
nem todo computador dá conta.

Por isso, entender nomes como qwen2.5:3b ajuda a saber o que estamos tentando rodar.

Lendo um nome completo na prática

Vamos voltar ao exemplo mais longo:

qwen2.5-coder:7b-instruct-q4_K_M

Agora podemos traduzir:

qwen → família do modelo 2.5 → geração da família coder → especializado em código 7b → aproximadamente 7 bilhões de parâmetros instruct → preparado para seguir instruções q4_K_M → versão quantizada, mais leve

Em linguagem comum:

Este é um modelo da família Qwen, geração 2.5, especializado em programação, com cerca de 7 bilhões de parâmetros, preparado para responder instruções, em uma versão comprimida para rodar melhor em computadores locais.

Depois dessa tradução, o nome deixa de ser um código misterioso e passa a ser uma ficha técnica resumida.

Uma analogia final: escolher sapatos

Escolher um modelo de IA é um pouco como escolher sapatos.

Não existe “o melhor sapato” em absoluto.

Existe:

sapato para corrida;
sapato social;
bota para trilha;
chinelo para casa;
tênis confortável para o dia a dia.

Com modelos de IA, acontece o mesmo.

modelo pequeno → leve e rápido;
modelo médio → bom para uso geral;
modelo grande → mais capaz, mas pesado;
modelo coder → melhor para programação;
modelo instruct → melhor para conversa e comandos;
modelo quantizado → mais fácil de rodar localmente.

A escolha certa depende do uso.

Entendeu?

Recapitulando… Nomes como:

qwen2.5:3b

podem parecer complicados, mas geralmente carregam informações muito úteis.

No exemplo:

qwen = família 2.5 = geração 3b = tamanho aproximado em bilhões de parâmetros

E, quando aparecem partes adicionais, elas também ajudam:

coder = especializado em código instruct = ajustado para seguir instruções q4/q5/q8 = tipo de compressão/quantização

Entender essa nomenclatura permite fazer escolhas mais conscientes. Em vez de baixar qualquer modelo ao acaso, passamos a perguntar:

qual tarefa quero realizar?
qual modelo é adequado para ela?
qual tamanho cabe no meu computador?
preciso de um modelo generalista ou especializado?
quero mais qualidade ou mais velocidade?

No fim, a nomenclatura dos modelos é como uma pequena ficha técnica escondida no nome. E aprender a lê-la é um primeiro passo importante para usar inteligência artificial de forma mais autônoma, crítica e eficiente.

S	M	T	W	T	F	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

A primeira parte:a família do modelo

O número depois do sobrenome: a geração

Os dois-pontos: separando o modelo da versão específica

3bO que significa?

Modelo maioré sempre melhor?

Entendendo nomes mais longos

O que significa coder?

Instruct?O que significa?

q4, q5, q8 ou fp16.O que significa?

Por que isso importa para o computador?

Uma régua prática de tamanhos

Como escolher um modelo sem se perder?

Tamanho do modeloe tipo de tarefa

Um modelo pequenopode ser inteligente?

Por que modelos locais são interessantes?

Vantagens:

Limitações:

Lendo um nome completo na prática

Uma analogia final: escolher sapatos

Entendeu?

Compartilhe:

Related

Leave a Reply

A primeira parte:
a família do modelo

O número depois
do sobrenome: a geração

3b
O que significa?

Modelo maior
é sempre melhor?

Instruct?
O que significa?

q4, q5, q8 ou fp16.
O que significa?

Tamanho do modelo
e tipo de tarefa

Um modelo pequeno
pode ser inteligente?

Por que modelos
locais são interessantes?