Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Técnicas avançadas
18 minLição 11 de 14

Embeddings e busca semântica

Converta texto em vetores para busca por similaridade

Objetivos de aprendizagem

  • •Entender o que são embeddings e como funcionam
  • •Aprender a implementar busca semântica
  • •Saber quando usar embeddings em vez de outras abordagens

O que são embeddings?

Embeddings convertem texto em vetores numéricos que capturam significado semântico:

  • Significados similares → Vetores similares
  • Significados diferentes → Vetores diferentes

Uma frase como "Adoro pizza" vira um vetor como [0,23, -0,45, 0,87, ...] (tipicamente 1536+ dimensões).

Propriedade chave: Você pode medir similaridade entre embeddings com similaridade de cosseno ou produto escalar.

Gerando embeddings

const response = await openai.embeddings.create({
  model: "text-embedding-ada-002",
  input: "Seu texto aqui"
});

const vector = response.data[0].embedding;
// Retorna um vetor de 1536 dimensões

Armazene esses vetores em um banco vetorial para busca por similaridade eficiente.

Busca semântica

Busca tradicional: correspondência exata de palavras-chave Busca semântica: correspondência por significado

  • "automóvel" encontra documentos sobre "carros"
  • "feliz" encontra documentos sobre "alegre" ou "contente"
  • "ML" encontra documentos sobre "aprendizado de máquina"

O processo:

  1. Gere embedding da sua consulta
  2. Encontre vetores similares no seu banco
  3. Retorne os documentos correspondentes

Erros comuns

×Fazer embedding de textos muito longos — divida em pedaços menores para melhor recuperação
×Usar modelo de embedding errado — combine o modelo ao seu caso de uso e idioma
×Ignorar custo de embeddings — são mais baratos que completions mas somam em escala
×Não normalizar vetores — algumas métricas de similaridade exigem vetores normalizados

Principais pontos

+Embeddings convertem texto em vetores que capturam significado semântico
+Significados similares produzem vetores similares, permitindo busca semântica
+Divida documentos longos em chunks para melhor precisão de recuperação
+Use embeddings para busca, clustering e sistemas de recomendação

Playground

Experimente estes prompts

Prompt

Por que este experimento?

Explore como embeddings capturam significado semântico.

Resposta
Nenhuma resposta ainda
Escolha um experimento acima ou digite seu prompt e clique em Executar para ver a resposta do modelo aqui.

Embeddings capturam significado, então sinônimos têm vetores próximos e palavras não relacionadas ficam distantes.