Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Fundamentos
15 minLição 1 de 14

Introdução: Como funcionam os LLMs

Entenda a mecânica fundamental dos LLMs para conseguir raciocinar sobre sistemas reais com modelos de linguagem

Objetivos de aprendizagem

  • •Entender como a arquitetura Transformer permite a geração de texto
  • •Aprender sobre predição do próximo token e geração autoregressiva
  • •Reconhecer as limitações dos LLMs em relação a memória e compreensão

A arquitetura Transformer

Grandes modelos de linguagem (LLMs) são redes neurais treinadas em quantidades massivas de texto para entender e gerar linguagem semelhante à humana. Em essência, funcionam prevendo o token mais provável em uma sequência.

Os LLMs modernos são construídos sobre a arquitetura Transformer, introduzida no artigo de 2017 "Attention Is All You Need". A inovação central é o mecanismo de atenção, que permite ao modelo ponderar a relevância de diferentes partes da entrada ao gerar cada token de saída.

Quando você envia um prompt a um LLM, acontece o seguinte:

  1. Tokenização: Seu texto é dividido em tokens (palavras ou pedaços de palavras)
  2. Embedding: Cada token é convertido em um vetor numérico
  3. Processamento: Os vetores passam por múltiplas camadas transformer
  4. Predição: O modelo produz probabilidades para o próximo token
  5. Geração: Um token é selecionado e o processo se repete

Predição do próximo token

LLMs são fundamentalmente modelos autoregressivos. Isso significa que geram texto um token por vez, usando todos os tokens anteriores como contexto. O modelo não "compreende" no sentido humano — ele prevê padrões estatísticos aprendidos dos dados de treinamento.

Por exemplo, quando você digita "A capital da França é", o modelo prevê "Paris" com alta probabilidade porque viu esse padrão milhões de vezes nos dados de treinamento.

Ideia central

O modelo não tem memória entre conversas. Cada requisição começa do zero. O que parece "compreensão" é na verdade correspondência sofisticada de padrões entre bilhões de parâmetros aprendidos durante o treinamento.

O modelo pode gerar código porque aprendeu os padrões estatísticos de como o código é estruturado a partir de milhões de exemplos.

Erros comuns

×Achar que o modelo 'sabe' ou 'lembra' informações como um banco de dados — ele prevê com base em padrões
×Esperar precisão factual perfeita — LLMs podem alucinar informações convincentes mas falsas
×Achar que o modelo entende contexto entre conversas separadas — cada requisição é independente
×Acreditar que modelos maiores são sempre melhores — o modelo certo depende do seu caso de uso

Principais pontos

+LLMs geram texto prevendo o próximo token mais provável com base em padrões de treinamento
+A arquitetura transformer permite que o modelo considere contexto ao fazer predições
+Modelos não têm memória persistente — cada conversa começa do zero
+Compreensão é correspondência de padrões, não compreensão real — sempre verifique informações críticas

Playground

Experimente estes prompts

Prompt

Por que este experimento?

Use estes mini experimentos para sentir como o modelo completa padrões, termina frases e responde perguntas simples.

Resposta
Nenhuma resposta ainda
Escolha um experimento acima ou digite seu prompt e clique em Executar para ver a resposta do modelo aqui.

Uma lista curtíssima que torna a predição de próximo token bem concreta — você consegue ver rápido se a continuação "combina" com o padrão.