Modelos de Fundação
Visão geral
Modelos de fundação (foundation models) são grandes modelos de aprendizado de máquina (machine learning) treinados em dados amplos e diversos, em escala massiva, de modo que possam ser adaptados para muitas tarefas downstream (downstream tasks) com relativamente pouco treinamento adicional específico da tarefa. O termo é comumente associado a grandes modelos de linguagem (large language models, LLMs), mas se aplica de forma mais ampla a modelos que abrangem texto, imagens, áudio, vídeo e combinações multimodais (multimodal).
A ideia central é que o pré-treinamento em larga escala (large-scale pretraining) (muitas vezes auto-supervisionado (self-supervised)) aprende representações e comportamentos de uso geral. Após o pré-treinamento, o mesmo modelo pode ser reaproveitado por meio de:
- Uso de prompts (prompting) / aprendizado no contexto (in-context learning) (sem atualização de pesos)
- Ajuste fino (fine-tuning) (atualiza todos ou alguns pesos, frequentemente usando métodos eficientes em parâmetros)
- Geração Aumentada por Recuperação (Retrieval-Augmented Generation, RAG) (aumentando prompts com conhecimento externo)
- Uso de ferramentas (tool use) (chamar APIs, executar código, pesquisar etc.)
Os modelos de fundação ficam no centro dos sistemas modernos de IA generativa (generative AI) porque oferecem um “motor geral” que pode ser especializado de forma barata em comparação com treinar modelos separados por tarefa.
Conceitos relacionados que você pode querer ler a seguir: Pré-treinamento e Leis de Escalonamento (Pretraining & Scaling Laws), Arquitetura Transformer (Transformer Architecture), Aprendizado no Contexto (In-Context Learning), Ajuste Fino (Fine-Tuning) e Modelos Abertos vs Fechados (Open vs Closed Models).
O que “fundação” significa
Um modelo geralmente é considerado um modelo de fundação quando tem a maior parte das seguintes propriedades:
- Pré-treinamento de uso geral: Treinado em dados amplos (por exemplo, texto da web, código, imagens+legendas, transcrições de áudio) em vez de um conjunto de dados restrito para uma única tarefa.
- Transferibilidade: Executa muitas tarefas com adaptação mínima, às vezes “sem exemplos (zero-shot)” ou “com poucos exemplos (few-shot)”.
- Melhoria escalável: O desempenho tende a melhorar de forma previsível com mais dados/computação/capacidade do modelo (embora com retornos decrescentes e restrições práticas).
- Interface de adaptação: Pode ser adaptado com eficácia por uso de prompts, ajuste fino ou recuperação sem necessidade de reconstruir o modelo.
- Papel de plataforma: Serve como um componente base sobre o qual outros sistemas e produtos são construídos.
Modelo de fundação vs modelo base vs modelo alinhado
Em ecossistemas de grandes modelos de linguagem, você frequentemente verá estes termos relacionados:
- Modelo base (base model): O modelo bruto pré-treinado (por exemplo, predição do próximo token (next-token prediction)). Forte conhecimento geral, mas pode não seguir instruções de forma confiável.
- Modelo ajustado por instruções / modelo de chat (instruction-tuned / chat model): Um modelo base treinado adicionalmente para seguir instruções e ser conversacional (frequentemente via ajuste supervisionado por instruções e otimização por preferências). Veja Seguimento de Instruções (Instruction Following) e Métodos de Otimização por Preferências (Preference Optimization Methods).
- Modelo alinhado (aligned model): Um modelo moldado para atender a metas de segurança e políticas (recusas, restrições de não causar dano etc.). Veja Alinhamento (Alignment) e Mitigações de Segurança (Safety Mitigations).
Um “modelo de fundação” pode se referir ao modelo base ou à família de modelos derivados dele.
Por que o pré-treinamento em larga escala permite ampla transferência
Objetivos auto-supervisionados constroem representações reutilizáveis
Muitos modelos de fundação aprendem com aprendizado auto-supervisionado (self-supervised learning), em que o sinal de treinamento é derivado dos próprios dados:
- Linguagem: prever o próximo token (autoregressivo) ou preencher tokens mascarados (modelagem de linguagem mascarada (masked language modeling)).
- Visão: prever blocos ausentes, remover ruído de imagens corrompidas ou aprender incorporações vetoriais (embeddings) via aprendizado contrastivo (contrastive learning) (por exemplo, correspondência imagem-texto).
- Multimodal: alinhar representações entre modalidades (por exemplo, legendas de imagens ↔ imagens; áudio ↔ transcrições).
Como o modelo precisa comprimir um vasto mundo de padrões em seus parâmetros, ele tende a aprender abstrações gerais que transferem entre tarefas.
Aprendizado de representações + escala reduz a necessidade de rótulos específicos da tarefa
O aprendizado supervisionado (supervised learning) tradicional frequentemente exige conjuntos de dados rotulados para cada tarefa (por exemplo, classificação de sentimento (sentiment classification), reconhecimento de entidades nomeadas (NER), respostas a perguntas (question answering)). Modelos de fundação reduzem esse ônus ao aprender uma estrutura ampla durante o pré-treinamento, possibilitando:
- Sem exemplos: “Faça a tarefa apenas a partir das instruções.”
- Com poucos exemplos: “Faça a tarefa a partir de alguns exemplos no prompt.”
- Ajuste fino leve: “Adapte com um conjunto de dados rotulado modesto.”
Esta é uma mudança econômica importante: você investe pesado uma vez no pré-treinamento e depois adapta de forma barata muitas vezes.
Propriedades-chave dos modelos de fundação
Comportamento de escalonamento (e seus limites)
Escalonamento (scaling) se refere a aumentar alguma combinação de:
- Tamanho do modelo (parâmetros, largura/profundidade, mistura de especialistas (mixture-of-experts))
- Tamanho/qualidade dos dados de treinamento
- Computação de treinamento (training compute) (hardware + passos de treinamento)
Empiricamente, muitas capacidades melhoram com escala de um modo que pode ser aproximado por leis de escalonamento (scaling laws) (relações do tipo lei de potência) em certos regimes. Isso sustenta a estratégia de treinar modelos de fronteira (frontier models) ao empurrar a escala e, então, usá-los como fundações para sistemas downstream.
Para detalhes, veja Pré-treinamento e Leis de Escalonamento.
Implicações práticas do escalonamento
- Maior nem sempre é melhor para implantação: Um modelo menor pode ser mais barato e mais rápido com qualidade aceitável.
- A qualidade dos dados importa: Filtragem, deduplicação e balanceamento de domínios podem rivalizar com o simples aumento do volume de dados.
- O custo de inferência (inference) vira uma restrição de primeira classe: Servir milhões de tokens/dia exige engenharia cuidadosa (agrupamento (batching), quantização (quantization), cache).
Capacidades emergentes (e por que o termo é debatido)
À medida que os modelos escalam, às vezes eles parecem adquirir novas habilidades “de repente”, como:
- Melhor raciocínio em múltiplas etapas
- Uso de ferramentas ou competência em geração de código
- Seguimento de instruções
- Tradução entre idiomas com supervisão direta limitada
Essas são frequentemente chamadas de capacidades emergentes (emergent capabilities). No entanto, pesquisadores debatem o quão “súbitas” essas transições realmente são — às vezes elas refletem efeitos de medição (measurement effects) (métricas com limiares) ou artefatos de avaliação (evaluation artifacts), em vez de uma mudança de fase literal.
Um aprendizado prático: a capacidade pode mudar qualitativamente com a escala, então você deve validar novos tamanhos de modelo nas suas tarefas reais, em vez de assumir uma melhoria suave e previsível.
Relacionado: Técnicas de Cadeia de Pensamento e Raciocínio (Chain-of-Thought & Reasoning Techniques) e Computação em Tempo de Teste (Test-Time Compute).
Métodos de adaptação: uso de prompts, ajuste fino e geração aumentada por recuperação
Modelos de fundação são úteis porque a adaptação geralmente é mais barata do que treinar do zero. Os três padrões de adaptação mais comuns são:
Uso de prompts e aprendizado no contexto
Com uso de prompts, você direciona um modelo usando instruções e exemplos no contexto de entrada. Isso aproveita o aprendizado no contexto: o modelo infere implicitamente uma tarefa a partir do prompt sem atualizar pesos.
Exemplo de padrão de prompt para classificação:
You are a support triage assistant.
Classify each ticket as one of: BILLING, BUG, FEATURE, OTHER.
Ticket: "My credit card was charged twice for the same invoice."
Label:
O uso de prompts é atraente porque é:
- Rápido para iterar
- Não requer infraestrutura de treinamento
- Fácil de fazer teste A/B (A/B test)
Mas pode ser frágil e sensível ao comprimento do contexto, à formatação e às escolhas de decodificação (decoding). Veja Aprendizado no Contexto, Janelas de Contexto (Context Windows) e Estratégias de Decodificação (Decoding Strategies).
Ajuste fino (incluindo métodos eficientes em parâmetros)
O ajuste fino atualiza os parâmetros do modelo para internalizar uma tarefa, estilo ou domínio. Variantes comuns incluem:
- Ajuste fino supervisionado (SFT) (supervised fine-tuning) em pares instrução-resposta
- Ajuste fino eficiente em parâmetros (parameter-efficient fine-tuning) (por exemplo, adaptadores, LoRA) para reduzir custo de treinamento e simplificar a implantação
- Otimização por preferências (preference optimization) (por exemplo, métodos do tipo DPO) para moldar o comportamento usando preferências em vez de rótulos explícitos
O ajuste fino é útil quando você precisa de:
- Formatação consistente (JSON, chamadas de ferramenta)
- Terminologia específica do domínio
- Forte aderência a políticas e tom
- Menor sobrecarga de prompt (reduzindo custo de tokens)
Veja Ajuste Fino e Métodos de Otimização por Preferências.
Geração aumentada por recuperação
A geração aumentada por recuperação melhora a factualidade e o ancoramento no domínio ao recuperar documentos relevantes no momento da consulta e inseri-los no contexto do modelo.
Pipeline típico:
- Gerar incorporações vetoriais de documentos e armazená-las em um índice vetorial (vector index)
- No momento da consulta, gerar a incorporação vetorial da consulta do usuário
- Recuperar os top-k trechos relevantes
- Fornecer o texto recuperado ao modelo e pedir que responda usando essas fontes
Um exemplo simplificado (pseudocódigo ilustrativo):
query = "What is our 2025 parental leave policy?"
q_emb = embed(query)
chunks = vector_index.search(q_emb, top_k=5) # returns text passages
context = "\n\n".join(chunks)
prompt = f"""
Answer the question using only the provided policy excerpts.
If the answer is not contained, say you don't know.
Policy excerpts:
{context}
Question: {query}
Answer:
"""
answer = llm.generate(prompt)
A geração aumentada por recuperação costuma ser preferível ao ajuste fino quando:
- O conhecimento muda com frequência (políticas, documentação de produto)
- Você precisa de citações ou rastreabilidade
- Você deve evitar “incorporar” dados proprietários nos pesos do modelo
Ela também ajuda a mitigar algumas falhas discutidas em Alucinações (Hallucinations), embora introduza seus próprios modos de falha (recuperação ruim, contexto ausente, injeção de prompt (prompt injection)).
Modelos de fundação em diferentes modalidades
Embora grandes modelos de linguagem sejam os modelos de fundação mais visíveis, os mesmos princípios se aplicam a outras modalidades:
- Modelos de fundação de visão (vision foundation models): pré-treinados em grandes corpora de imagens para suportar classificação, detecção, segmentação e busca baseada em incorporações vetoriais.
- Modelos visão-linguagem (vision-language models, VLMs): conectam imagens e texto para legendagem, perguntas e respostas visuais, compreensão de gráficos e automação de UI.
- Modelos de fala/áudio: reconhecimento de fala, diarização de locutores, legendagem de áudio e conversão de voz.
- Modelos generativos multimodais: texto-para-imagem, texto-para-vídeo, edição de imagens, assistentes multimodais.
Modelos de fundação multimodais permitem fluxos de trabalho como:
- “Resuma este PDF com gráficos e tabelas.”
- “Responda perguntas sobre esta captura de tela.”
- “Crie imagens de marketing a partir de descrições de produtos.”
Nota prática: sistemas multimodais trazem considerações adicionais de avaliação e segurança (por exemplo, conteúdo não permitido em imagens, privacidade facial, marcação d’água (watermarking)).
Aplicações práticas e exemplos
Exemplo: assistente de suporte ao cliente
Um sistema comum baseado em modelo de fundação combina múltiplas abordagens de adaptação:
- Uso de prompts para impor formato e tom
- Geração aumentada por recuperação para trazer os artigos mais recentes da central de ajuda
- Uso de ferramentas para checar status de pedidos ou emitir reembolsos (sob restrições)
Esse padrão de “modelo de linguagem como orquestrador” é abordado em Modelos de Linguagem que Usam Ferramentas (Tool-Using LLMs).
Exemplo: geração e revisão de código
Um modelo de fundação voltado a código pode:
- Gerar boilerplate
- Escrever testes unitários (unit tests)
- Explicar código desconhecido
- Fazer sugestões de revisão de código
Mas ele precisa de salvaguardas (guardrails): contexto do repositório, tratamento seguro de segredos e avaliação forte. Veja Modelos de Código (Code Models).
Exemplo: inteligência de documentos corporativos
Um modelo de fundação pode extrair dados estruturados de contratos, faturas e políticas. Um sistema típico:
- Reconhecimento óptico de caracteres (OCR) + análise de layout (layout parsing)
- Segmentação e recuperação sobre documentos
- Extração pelo modelo de linguagem para um esquema (schema) com validação
- Revisão humana para exceções
Considerações de implantação
Implantar um modelo de fundação costuma ser mais difícil do que construir uma demonstração. Questões-chave incluem:
Latência, vazão e custo
Modelos de fundação são caros em tempo de inferência porque a geração é sequencial. Estratégias comuns de otimização:
- Agrupamento de requisições e uso de runtimes de serving eficientes
- Quantização (por exemplo, pesos 8-bit/4-bit) para reduzir memória e acelerar inferência
- Decodificação especulativa (speculative decoding) ou outros métodos de aceleração
- Cache (caching) (cache de prompt, cache de prefixo) quando muitas requisições compartilham contexto
- Roteamento de modelos (model routing): enviar consultas fáceis para modelos menores e consultas difíceis para modelos maiores
Configurações de decodificação também importam para custo e confiabilidade; veja Estratégias de Decodificação.
Gestão de contexto
Prompts longos aumentam o custo e podem degradar o desempenho se texto irrelevante ocupar o espaço do que importa.
- Use segmentação + recuperação em vez de “entupir” tudo na janela de contexto
- Resuma ou comprima o histórico
- Valide o comportamento do modelo sob as Janelas de Contexto alvo
Privacidade, segurança e governança de dados
Perguntas-chave:
- Para onde os dados vão (API na nuvem vs on-prem)?
- Os dados são retidos para treinamento pelo provedor?
- Como os logs são tratados?
- O sistema pode vazar segredos a partir do contexto?
Sistemas de geração aumentada por recuperação enfrentam riscos de injeção de prompt quando documentos recuperados contêm instruções adversariais. Mitigações incluem prompts de sistema estritos, sanitização de conteúdo, separação de instruções vs dados e permissão de ferramentas.
Padrões de confiabilidade
Sistemas em produção frequentemente adicionam:
- Validação de saída (output validation) (checagens de esquema, regex, parsing de JSON)
- Estratégias de fallback (tentar novamente com prompt diferente, modelo diferente ou pedir ajuda a um humano)
- Monitoramento (monitoring) (deriva de qualidade, incidentes de segurança, picos de latência)
- Humano no loop (human-in-the-loop) para decisões de alto impacto
Avaliação: medir o que importa
A avaliação de modelos de fundação é multidimensional:
Benchmarking offline
Benchmarks gerais (raciocínio, código, conhecimento) podem fornecer um sinal aproximado, mas frequentemente falham em capturar:
- A linguagem do seu domínio
- Suas restrições de política
- Sua distribuição real de usuários
- Uso de ferramentas e comportamento de geração aumentada por recuperação
Use benchmarks públicos com cautela e prefira avaliações específicas da tarefa.
Avaliação específica da tarefa
Para um assistente de suporte, você pode medir:
- Precisão de resolução (resolveu o problema?)
- Conformidade com políticas (seguiu regras de reembolso?)
- Correção de citações (se estiver usando geração aumentada por recuperação)
- Correção de formato (JSON válido/argumentos válidos para chamada de ferramenta)
- Satisfação do usuário (avaliações humanas)
Quando possível, crie conjuntos de dados rotulados a partir de casos históricos e execute testes de regressão.
Segurança e teste adversarial
Mesmo modelos fortes podem produzir saídas inseguras ou seguir instruções maliciosas. A avaliação de segurança frequentemente inclui:
- Tentativas de jailbreak (jailbreak)
- Tratamento de tópicos sensíveis
- Testes de exfiltração de dados
- Sondagens de viés/equidade
- Correção de recusa (recusar quando necessário, cumprir quando seguro)
Veja Mitigações de Segurança e Alinhamento.
Alucinações e checagens de ancoragem
Alucinações não são apenas “fatos errados”; elas também incluem citações fabricadas, saídas inválidas de ferramentas e raciocínio confiante porém sem ancoragem. Estratégias de mitigação incluem:
- Geração aumentada por recuperação com exigência de citações
- Decodificação restrita / geração estruturada
- Verificação pós-hoc (regras, modelos secundários ou checagens determinísticas)
Veja Alucinações.
Licenciamento e considerações legais
Modelos de fundação introduzem uma pilha de licenciamento em camadas:
- Licença do modelo: termos para pesos ou uso de API
- Proveniência dos dados de treinamento: quais dados foram usados e se os direitos foram liberados
- Saídas downstream: propriedade, direitos de uso e restrições
- Dependências: tokenizador, código, bibliotecas de runtime, modelos de incorporação vetorial, licenças de banco de dados vetorial
Pesos abertos vs APIs fechadas
- Modelos fechados (somente API) (closed models (API-only)): mais fáceis de usar, frequentemente com desempenho forte, mas com transparência limitada e dependência de fornecedor.
- Modelos de pesos abertos (open-weight models): mais controle (on-prem, personalização), mas você assume mais carga operacional e de conformidade.
Veja Modelos Abertos vs Fechados.
Armadilhas comuns de licenciamento
- Cláusulas de não comercialização: podem bloquear uso em produção.
- Restrições de uso: por exemplo, proibições em certos domínios.
- Requisitos de atribuição: podem exigir divulgação em documentação/UI.
- Mistura de modelos: fazer ajuste fino de um modelo aberto em dados regidos por licenças mais restritivas pode criar conflitos de conformidade.
Uma boa prática útil é manter um cartão do modelo (model card) e documentação interna registrando:
- modelo/versão,
- uso pretendido,
- resultados de avaliação,
- limitações conhecidas,
- políticas de tratamento de dados,
- e termos de licença.
Limitações e desafios em aberto
Mesmo com a melhora dos modelos de fundação, desafios persistentes incluem:
- Raciocínio robusto e verificação: melhorou, mas ainda é propenso a erros sem checagens externas
- Ancoragem e factualidade: especialmente para fatos de cauda longa ou que mudam rapidamente
- Contaminação e vazamento de dados: riscos de memorização, contaminação de benchmarks, preocupações de privacidade
- Custo computacional e ambiental: treinar e servir em escala é intensivo em recursos
- Interpretabilidade (interpretability): a compreensão dos mecanismos internos continua limitada; veja Redes Neurais (Neural Networks) para fundamentos e tópicos relacionados de interpretabilidade em outras partes de muitos wikis
Escolhendo uma estratégia de adaptação (orientação prática)
Uma regra prática útil:
- Comece com uso de prompts para iterar rápido.
- Adicione geração aumentada por recuperação quando a correção depender de conhecimento proprietário ou em mudança.
- Use ajuste fino quando você precisar de comportamento consistente, menor custo de prompt ou especialização de domínio/estilo que prompts não conseguem impor de forma confiável.
Na prática, muitos sistemas em produção combinam os três.
Resumo
Modelos de fundação são modelos grandes e amplamente pré-treinados que atuam como núcleos adaptáveis para muitas tarefas e modalidades. Sua utilidade vem de (1) generalização impulsionada por escala, (2) transferência via uso de prompts, ajuste fino e recuperação, e (3) seu papel como plataformas para sistemas que usam ferramentas, multimodais e especializados em domínios. Implantá-los de forma responsável requer atenção à economia de inferência, gestão de contexto, rigor de avaliação, mitigações de segurança e detalhes de licenciamento/conformidade.