QTU | O que são tokens? Entenda como funciona a 'unidade fundamental' da IA

O que são tokens? Entenda como funciona a 'unidade fundamental' da IA

Fonte:

Quando um chatbot responde a perguntas, cria um texto ou analisa imagens, ele não lida com frases inteiras, fotos ou vídeos. Para processar esses dados, a IA divide o conteúdo em pedacinhos chamados tokens, que são unidades de informação que ajudam os modelos a entender, processar e gerar respostas. Prompt, tokens, LLM e mais: 10 termos de IA essenciais para o seu dia a dia AGI | O que é inteligência artificial geral? A seguir, tire suas dúvidas sobre: O que são tokens? Como os tokens funcionam? Por que os tokens são usados para cobrar o uso da IA? O que são tokens? Um token é uma pequena unidade de dados criada a partir da quebra de informações maiores. Em textos, ele pode ser uma palavra, parte de um termo ou vários caracteres. -Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.- Assim, um token costuma corresponder a cerca de quatro caracteres em inglês, mas o número pode mudar conforme idioma, modelo e tipo de informação processada. Em português, uma frase curta pode gerar mais tokens do que parece à primeira vista. Como os tokens funcionam? O funcionamento dos tokens está ligado a um processo chamado tokenização. É ele que transforma textos, imagens, áudios ou vídeos em blocos menores que a IA consegue analisar. Durante o treinamento, os modelos de IA são expostos a bilhões ou trilhões de tokens. Eles aprendem observando padrões e tentando prever qual será o próximo token em uma sequência. Se erram, ajustam seus parâmetros, mas se acertam, reforçam aquele caminho. Esse processo se repete até que o modelo consiga gerar respostas coerentes. Quando um usuário envia um comando, o mesmo fluxo acontece: A entrada é convertida em tokens; O modelo processa essa sequência; A resposta é gerada token por token; Esses tokens são convertidos novamente em algo legível, como texto, imagem ou som. Como os blocos de informações são divididos? A forma como os dados são transformados em tokens depende do formato da informação: Textos costumam ser divididos em palavras, partes de palavras ou caracteres; Imagens são convertidas em representações numéricas baseadas em pixels e regiões visuais; Áudios são fragmentados a partir de trechos do som ao longo do tempo; Vídeos juntam imagem, movimento e áudio, o que faz com que consumam muito mais tokens. Ou seja, quanto mais complexo e denso o conteúdo, maior será o consumo de tokens. É por isso que um vídeo de poucos segundos pode gastar mais tokens que um texto longo. Para processar as informações e gerar as respostas, a IA divide o conteúdo em blocos chamados token. (Imagem: Solen Feyissa/Unsplash) O que é “input” e “output”? O Input (entrada) corresponde aos dados que o usuário envia para o modelo, como texto ou imagem anexada. Já o output (saída) é a resposta gerada pela IA. Uma pergunta curta pode gerar um output grande, assim como um input longo pode resultar em uma resposta breve. Cada um desses lados é contabilizado separadamente. O que é processamento em lotes? O processamento em lotes, ou batch processing, é uma forma de usar a inteligência artificial para executar grandes volumes de tarefas sem exigir respostas imediatas. As solicitações são enviadas de uma só vez e processadas durante horas ou um dia inteiro. Esse tipo de uso costuma ter custo menor, já que muitas plataformas aplicam descontos no valor dos tokens quando o processamento acontece em lote. Por que os tokens são usados para cobrar o uso da IA? Os tokens são usados para cobrar o uso da IA porque eles representam quanto trabalho computacional o modelo precisou realizar para atender a uma solicitação. Eles funcionam como uma unidade de medida, assim como quilowatt-hora mede consumo de energia elétrica. Quanto mais tokens uma tarefa exige, mais recursos de processamento ela consome. Isso torna a cobrança mais justa e transparente, já que usuários pagam apenas pelo volume de dados que realmente utilizam. Além disso, esse modelo de cobrança se adapta a diferentes formatos de conteúdo. Um texto, imagem e áudio podem ser comparados entre si porque todos são convertidos em tokens antes de serem processados. Como calcular o uso da IA? O uso da inteligência artificial é calculado de acordo com o modelo e o serviço, sendo comum a cobrança por milhão de tokens, com preços diferentes para input e output. É comum que tokens de saída sejam mais caros que os de entrada, já que gerar conteúdo exige mais esforço computacional. Por exemplo, o Gemini 2.5 Flash, do Google, cobra US$ 0,30 por milhão de tokens de entrada e US$ 2,50 por milhão de saída. Já o GPT‑5.2 Pro, da OpenAI, chega a US$ 21 por milhão de tokens de input e US$ 168 por milhão de output. O tipo de conteúdo também influencia no custo. Textos costumam consumir menos tokens, enquanto imagens, áudios e, principalmente, vídeos aumentam o volume processado e, consequentemente, o preço. Confira outros conteúdos do Canaltech: O que é um prompt de comando? O que é LLM? | Large Language Model O que é IA multimodal? Entenda o seu funcionamento VÍDEO: Por que tudo agora tem Inteligência Artificial gratuita? É de graça mesmo? E a paga? Leia a matéria no Canaltech.