Modelos de Fundação

Visão geral

Modelos de fundação (foundation models) são grandes modelos de aprendizado de máquina (machine learning) treinados em dados amplos e diversos, em escala massiva, de modo que possam ser adaptados para muitas tarefas downstream (downstream tasks) com relativamente pouco treinamento adicional específico da tarefa. O termo é comumente associado a grandes modelos de linguagem (large language models, LLMs), mas se aplica de forma mais ampla a modelos que abrangem texto, imagens, áudio, vídeo e combinações multimodais (multimodal).

A ideia central é que o pré-treinamento em larga escala (large-scale pretraining) (muitas vezes auto-supervisionado (self-supervised)) aprende representações e comportamentos de uso geral. Após o pré-treinamento, o mesmo modelo pode ser reaproveitado por meio de:

Uso de prompts (prompting) / aprendizado no contexto (in-context learning) (sem atualização de pesos)
Ajuste fino (fine-tuning) (atualiza todos ou alguns pesos, frequentemente usando métodos eficientes em parâmetros)
Geração Aumentada por Recuperação (Retrieval-Augmented Generation, RAG) (aumentando prompts com conhecimento externo)
Uso de ferramentas (tool use) (chamar APIs, executar código, pesquisar etc.)

Os modelos de fundação ficam no centro dos sistemas modernos de IA generativa (generative AI) porque oferecem um “motor geral” que pode ser especializado de forma barata em comparação com treinar modelos separados por tarefa.

Conceitos relacionados que você pode querer ler a seguir: Pré-treinamento e Leis de Escalonamento (Pretraining & Scaling Laws), Arquitetura Transformer (Transformer Architecture), Aprendizado no Contexto (In-Context Learning), Ajuste Fino (Fine-Tuning) e Modelos Abertos vs Fechados (Open vs Closed Models).

O que “fundação” significa

Um modelo geralmente é considerado um modelo de fundação quando tem a maior parte das seguintes propriedades:

Pré-treinamento de uso geral: Treinado em dados amplos (por exemplo, texto da web, código, imagens+legendas, transcrições de áudio) em vez de um conjunto de dados restrito para uma única tarefa.
Transferibilidade: Executa muitas tarefas com adaptação mínima, às vezes “sem exemplos (zero-shot)” ou “com poucos exemplos (few-shot)”.
Melhoria escalável: O desempenho tende a melhorar de forma previsível com mais dados/computação/capacidade do modelo (embora com retornos decrescentes e restrições práticas).
Interface de adaptação: Pode ser adaptado com eficácia por uso de prompts, ajuste fino ou recuperação sem necessidade de reconstruir o modelo.
Papel de plataforma: Serve como um componente base sobre o qual outros sistemas e produtos são construídos.

Modelo de fundação vs modelo base vs modelo alinhado

Em ecossistemas de grandes modelos de linguagem, você frequentemente verá estes termos relacionados:

Modelo base (base model): O modelo bruto pré-treinado (por exemplo, predição do próximo token (next-token prediction)). Forte conhecimento geral, mas pode não seguir instruções de forma confiável.
Modelo ajustado por instruções / modelo de chat (instruction-tuned / chat model): Um modelo base treinado adicionalmente para seguir instruções e ser conversacional (frequentemente via ajuste supervisionado por instruções e otimização por preferências). Veja Seguimento de Instruções (Instruction Following) e Métodos de Otimização por Preferências (Preference Optimization Methods).
Modelo alinhado (aligned model): Um modelo moldado para atender a metas de segurança e políticas (recusas, restrições de não causar dano etc.). Veja Alinhamento (Alignment) e Mitigações de Segurança (Safety Mitigations).

Um “modelo de fundação” pode se referir ao modelo base ou à família de modelos derivados dele.

Por que o pré-treinamento em larga escala permite ampla transferência

Objetivos auto-supervisionados constroem representações reutilizáveis

Muitos modelos de fundação aprendem com aprendizado auto-supervisionado (self-supervised learning), em que o sinal de treinamento é derivado dos próprios dados:

Linguagem: prever o próximo token (autoregressivo) ou preencher tokens mascarados (modelagem de linguagem mascarada (masked language modeling)).
Visão: prever blocos ausentes, remover ruído de imagens corrompidas ou aprender incorporações vetoriais (embeddings) via aprendizado contrastivo (contrastive learning) (por exemplo, correspondência imagem-texto).
Multimodal: alinhar representações entre modalidades (por exemplo, legendas de imagens ↔ imagens; áudio ↔ transcrições).

Como o modelo precisa comprimir um vasto mundo de padrões em seus parâmetros, ele tende a aprender abstrações gerais que transferem entre tarefas.

Aprendizado de representações + escala reduz a necessidade de rótulos específicos da tarefa

O aprendizado supervisionado (supervised learning) tradicional frequentemente exige conjuntos de dados rotulados para cada tarefa (por exemplo, classificação de sentimento (sentiment classification), reconhecimento de entidades nomeadas (NER), respostas a perguntas (question answering)). Modelos de fundação reduzem esse ônus ao aprender uma estrutura ampla durante o pré-treinamento, possibilitando:

Sem exemplos: “Faça a tarefa apenas a partir das instruções.”
Com poucos exemplos: “Faça a tarefa a partir de alguns exemplos no prompt.”
Ajuste fino leve: “Adapte com um conjunto de dados rotulado modesto.”

Esta é uma mudança econômica importante: você investe pesado uma vez no pré-treinamento e depois adapta de forma barata muitas vezes.

Propriedades-chave dos modelos de fundação

Comportamento de escalonamento (e seus limites)

Escalonamento (scaling) se refere a aumentar alguma combinação de:

Tamanho do modelo (parâmetros, largura/profundidade, mistura de especialistas (mixture-of-experts))
Tamanho/qualidade dos dados de treinamento
Computação de treinamento (training compute) (hardware + passos de treinamento)

Empiricamente, muitas capacidades melhoram com escala de um modo que pode ser aproximado por leis de escalonamento (scaling laws) (relações do tipo lei de potência) em certos regimes. Isso sustenta a estratégia de treinar modelos de fronteira (frontier models) ao empurrar a escala e, então, usá-los como fundações para sistemas downstream.

Para detalhes, veja Pré-treinamento e Leis de Escalonamento.

Implicações práticas do escalonamento

Maior nem sempre é melhor para implantação: Um modelo menor pode ser mais barato e mais rápido com qualidade aceitável.
A qualidade dos dados importa: Filtragem, deduplicação e balanceamento de domínios podem rivalizar com o simples aumento do volume de dados.
O custo de inferência (inference) vira uma restrição de primeira classe: Servir milhões de tokens/dia exige engenharia cuidadosa (agrupamento (batching), quantização (quantization), cache).

Capacidades emergentes (e por que o termo é debatido)

À medida que os modelos escalam, às vezes eles parecem adquirir novas habilidades “de repente”, como:

Melhor raciocínio em múltiplas etapas
Uso de ferramentas ou competência em geração de código
Seguimento de instruções
Tradução entre idiomas com supervisão direta limitada

Essas são frequentemente chamadas de capacidades emergentes (emergent capabilities). No entanto, pesquisadores debatem o quão “súbitas” essas transições realmente são — às vezes elas refletem efeitos de medição (measurement effects) (métricas com limiares) ou artefatos de avaliação (evaluation artifacts), em vez de uma mudança de fase literal.

Um aprendizado prático: a capacidade pode mudar qualitativamente com a escala, então você deve validar novos tamanhos de modelo nas suas tarefas reais, em vez de assumir uma melhoria suave e previsível.

Relacionado: Técnicas de Cadeia de Pensamento e Raciocínio (Chain-of-Thought & Reasoning Techniques) e Computação em Tempo de Teste (Test-Time Compute).

Métodos de adaptação: uso de prompts, ajuste fino e geração aumentada por recuperação

Modelos de fundação são úteis porque a adaptação geralmente é mais barata do que treinar do zero. Os três padrões de adaptação mais comuns são:

Uso de prompts e aprendizado no contexto

Com uso de prompts, você direciona um modelo usando instruções e exemplos no contexto de entrada. Isso aproveita o aprendizado no contexto: o modelo infere implicitamente uma tarefa a partir do prompt sem atualizar pesos.

Exemplo de padrão de prompt para classificação:

You are a support triage assistant.
Classify each ticket as one of: BILLING, BUG, FEATURE, OTHER.

Ticket: "My credit card was charged twice for the same invoice."
Label:

O uso de prompts é atraente porque é:

Rápido para iterar
Não requer infraestrutura de treinamento
Fácil de fazer teste A/B (A/B test)

Mas pode ser frágil e sensível ao comprimento do contexto, à formatação e às escolhas de decodificação (decoding). Veja Aprendizado no Contexto, Janelas de Contexto (Context Windows) e Estratégias de Decodificação (Decoding Strategies).

Ajuste fino (incluindo métodos eficientes em parâmetros)

O ajuste fino atualiza os parâmetros do modelo para internalizar uma tarefa, estilo ou domínio. Variantes comuns incluem:

Ajuste fino supervisionado (SFT) (supervised fine-tuning) em pares instrução-resposta
Ajuste fino eficiente em parâmetros (parameter-efficient fine-tuning) (por exemplo, adaptadores, LoRA) para reduzir custo de treinamento e simplificar a implantação
Otimização por preferências (preference optimization) (por exemplo, métodos do tipo DPO) para moldar o comportamento usando preferências em vez de rótulos explícitos

O ajuste fino é útil quando você precisa de:

Formatação consistente (JSON, chamadas de ferramenta)
Terminologia específica do domínio
Forte aderência a políticas e tom
Menor sobrecarga de prompt (reduzindo custo de tokens)

Veja Ajuste Fino e Métodos de Otimização por Preferências.

Geração aumentada por recuperação

A geração aumentada por recuperação melhora a factualidade e o ancoramento no domínio ao recuperar documentos relevantes no momento da consulta e inseri-los no contexto do modelo.

Pipeline típico:

Gerar incorporações vetoriais de documentos e armazená-las em um índice vetorial (vector index)
No momento da consulta, gerar a incorporação vetorial da consulta do usuário
Recuperar os top-k trechos relevantes
Fornecer o texto recuperado ao modelo e pedir que responda usando essas fontes

Um exemplo simplificado (pseudocódigo ilustrativo):

query = "What is our 2025 parental leave policy?"
q_emb = embed(query)

chunks = vector_index.search(q_emb, top_k=5)  # returns text passages
context = "\n\n".join(chunks)

prompt = f"""
Answer the question using only the provided policy excerpts.
If the answer is not contained, say you don't know.

Policy excerpts:
{context}

Question: {query}
Answer:
"""

answer = llm.generate(prompt)

A geração aumentada por recuperação costuma ser preferível ao ajuste fino quando:

O conhecimento muda com frequência (políticas, documentação de produto)
Você precisa de citações ou rastreabilidade
Você deve evitar “incorporar” dados proprietários nos pesos do modelo

Ela também ajuda a mitigar algumas falhas discutidas em Alucinações (Hallucinations), embora introduza seus próprios modos de falha (recuperação ruim, contexto ausente, injeção de prompt (prompt injection)).

Modelos de fundação em diferentes modalidades

Embora grandes modelos de linguagem sejam os modelos de fundação mais visíveis, os mesmos princípios se aplicam a outras modalidades:

Modelos de fundação de visão (vision foundation models): pré-treinados em grandes corpora de imagens para suportar classificação, detecção, segmentação e busca baseada em incorporações vetoriais.
Modelos visão-linguagem (vision-language models, VLMs): conectam imagens e texto para legendagem, perguntas e respostas visuais, compreensão de gráficos e automação de UI.
Modelos de fala/áudio: reconhecimento de fala, diarização de locutores, legendagem de áudio e conversão de voz.
Modelos generativos multimodais: texto-para-imagem, texto-para-vídeo, edição de imagens, assistentes multimodais.

Modelos de fundação multimodais permitem fluxos de trabalho como:

“Resuma este PDF com gráficos e tabelas.”
“Responda perguntas sobre esta captura de tela.”
“Crie imagens de marketing a partir de descrições de produtos.”

Nota prática: sistemas multimodais trazem considerações adicionais de avaliação e segurança (por exemplo, conteúdo não permitido em imagens, privacidade facial, marcação d’água (watermarking)).

Aplicações práticas e exemplos

Exemplo: assistente de suporte ao cliente

Um sistema comum baseado em modelo de fundação combina múltiplas abordagens de adaptação:

Uso de prompts para impor formato e tom
Geração aumentada por recuperação para trazer os artigos mais recentes da central de ajuda
Uso de ferramentas para checar status de pedidos ou emitir reembolsos (sob restrições)

Esse padrão de “modelo de linguagem como orquestrador” é abordado em Modelos de Linguagem que Usam Ferramentas (Tool-Using LLMs).

Exemplo: geração e revisão de código

Um modelo de fundação voltado a código pode:

Gerar boilerplate
Escrever testes unitários (unit tests)
Explicar código desconhecido
Fazer sugestões de revisão de código

Mas ele precisa de salvaguardas (guardrails): contexto do repositório, tratamento seguro de segredos e avaliação forte. Veja Modelos de Código (Code Models).

Exemplo: inteligência de documentos corporativos

Um modelo de fundação pode extrair dados estruturados de contratos, faturas e políticas. Um sistema típico:

Reconhecimento óptico de caracteres (OCR) + análise de layout (layout parsing)
Segmentação e recuperação sobre documentos
Extração pelo modelo de linguagem para um esquema (schema) com validação
Revisão humana para exceções

Considerações de implantação

Implantar um modelo de fundação costuma ser mais difícil do que construir uma demonstração. Questões-chave incluem:

Latência, vazão e custo

Modelos de fundação são caros em tempo de inferência porque a geração é sequencial. Estratégias comuns de otimização:

Agrupamento de requisições e uso de runtimes de serving eficientes
Quantização (por exemplo, pesos 8-bit/4-bit) para reduzir memória e acelerar inferência
Decodificação especulativa (speculative decoding) ou outros métodos de aceleração
Cache (caching) (cache de prompt, cache de prefixo) quando muitas requisições compartilham contexto
Roteamento de modelos (model routing): enviar consultas fáceis para modelos menores e consultas difíceis para modelos maiores

Configurações de decodificação também importam para custo e confiabilidade; veja Estratégias de Decodificação.

Gestão de contexto

Prompts longos aumentam o custo e podem degradar o desempenho se texto irrelevante ocupar o espaço do que importa.

Use segmentação + recuperação em vez de “entupir” tudo na janela de contexto
Resuma ou comprima o histórico
Valide o comportamento do modelo sob as Janelas de Contexto alvo

Privacidade, segurança e governança de dados

Perguntas-chave:

Para onde os dados vão (API na nuvem vs on-prem)?
Os dados são retidos para treinamento pelo provedor?
Como os logs são tratados?
O sistema pode vazar segredos a partir do contexto?

Sistemas de geração aumentada por recuperação enfrentam riscos de injeção de prompt quando documentos recuperados contêm instruções adversariais. Mitigações incluem prompts de sistema estritos, sanitização de conteúdo, separação de instruções vs dados e permissão de ferramentas.

Padrões de confiabilidade

Sistemas em produção frequentemente adicionam:

Validação de saída (output validation) (checagens de esquema, regex, parsing de JSON)
Estratégias de fallback (tentar novamente com prompt diferente, modelo diferente ou pedir ajuda a um humano)
Monitoramento (monitoring) (deriva de qualidade, incidentes de segurança, picos de latência)
Humano no loop (human-in-the-loop) para decisões de alto impacto

Avaliação: medir o que importa

A avaliação de modelos de fundação é multidimensional:

Benchmarking offline

Benchmarks gerais (raciocínio, código, conhecimento) podem fornecer um sinal aproximado, mas frequentemente falham em capturar:

A linguagem do seu domínio
Suas restrições de política
Sua distribuição real de usuários
Uso de ferramentas e comportamento de geração aumentada por recuperação

Use benchmarks públicos com cautela e prefira avaliações específicas da tarefa.

Avaliação específica da tarefa

Para um assistente de suporte, você pode medir:

Precisão de resolução (resolveu o problema?)
Conformidade com políticas (seguiu regras de reembolso?)
Correção de citações (se estiver usando geração aumentada por recuperação)
Correção de formato (JSON válido/argumentos válidos para chamada de ferramenta)
Satisfação do usuário (avaliações humanas)

Quando possível, crie conjuntos de dados rotulados a partir de casos históricos e execute testes de regressão.

Segurança e teste adversarial

Mesmo modelos fortes podem produzir saídas inseguras ou seguir instruções maliciosas. A avaliação de segurança frequentemente inclui:

Tentativas de jailbreak (jailbreak)
Tratamento de tópicos sensíveis
Testes de exfiltração de dados
Sondagens de viés/equidade
Correção de recusa (recusar quando necessário, cumprir quando seguro)

Veja Mitigações de Segurança e Alinhamento.

Alucinações e checagens de ancoragem

Alucinações não são apenas “fatos errados”; elas também incluem citações fabricadas, saídas inválidas de ferramentas e raciocínio confiante porém sem ancoragem. Estratégias de mitigação incluem:

Geração aumentada por recuperação com exigência de citações
Decodificação restrita / geração estruturada
Verificação pós-hoc (regras, modelos secundários ou checagens determinísticas)

Veja Alucinações.

Licenciamento e considerações legais

Modelos de fundação introduzem uma pilha de licenciamento em camadas:

Licença do modelo: termos para pesos ou uso de API
Proveniência dos dados de treinamento: quais dados foram usados e se os direitos foram liberados
Saídas downstream: propriedade, direitos de uso e restrições
Dependências: tokenizador, código, bibliotecas de runtime, modelos de incorporação vetorial, licenças de banco de dados vetorial

Pesos abertos vs APIs fechadas

Modelos fechados (somente API) (closed models (API-only)): mais fáceis de usar, frequentemente com desempenho forte, mas com transparência limitada e dependência de fornecedor.
Modelos de pesos abertos (open-weight models): mais controle (on-prem, personalização), mas você assume mais carga operacional e de conformidade.

Veja Modelos Abertos vs Fechados.

Armadilhas comuns de licenciamento

Cláusulas de não comercialização: podem bloquear uso em produção.
Restrições de uso: por exemplo, proibições em certos domínios.
Requisitos de atribuição: podem exigir divulgação em documentação/UI.
Mistura de modelos: fazer ajuste fino de um modelo aberto em dados regidos por licenças mais restritivas pode criar conflitos de conformidade.

Uma boa prática útil é manter um cartão do modelo (model card) e documentação interna registrando:

modelo/versão,
uso pretendido,
resultados de avaliação,
limitações conhecidas,
políticas de tratamento de dados,
e termos de licença.

Limitações e desafios em aberto

Mesmo com a melhora dos modelos de fundação, desafios persistentes incluem:

Raciocínio robusto e verificação: melhorou, mas ainda é propenso a erros sem checagens externas
Ancoragem e factualidade: especialmente para fatos de cauda longa ou que mudam rapidamente
Contaminação e vazamento de dados: riscos de memorização, contaminação de benchmarks, preocupações de privacidade
Custo computacional e ambiental: treinar e servir em escala é intensivo em recursos
Interpretabilidade (interpretability): a compreensão dos mecanismos internos continua limitada; veja Redes Neurais (Neural Networks) para fundamentos e tópicos relacionados de interpretabilidade em outras partes de muitos wikis

Escolhendo uma estratégia de adaptação (orientação prática)

Uma regra prática útil:

Comece com uso de prompts para iterar rápido.
Adicione geração aumentada por recuperação quando a correção depender de conhecimento proprietário ou em mudança.
Use ajuste fino quando você precisar de comportamento consistente, menor custo de prompt ou especialização de domínio/estilo que prompts não conseguem impor de forma confiável.

Na prática, muitos sistemas em produção combinam os três.

Resumo

Modelos de fundação são modelos grandes e amplamente pré-treinados que atuam como núcleos adaptáveis para muitas tarefas e modalidades. Sua utilidade vem de (1) generalização impulsionada por escala, (2) transferência via uso de prompts, ajuste fino e recuperação, e (3) seu papel como plataformas para sistemas que usam ferramentas, multimodais e especializados em domínios. Implantá-los de forma responsável requer atenção à economia de inferência, gestão de contexto, rigor de avaliação, mitigações de segurança e detalhes de licenciamento/conformidade.