Aprendizado Supervisionado

Visão geral

Aprendizado supervisionado (supervised learning) é o cenário de aprendizado de máquina (machine learning) em que um algoritmo aprende um mapeamento de entradas para saídas usando exemplos rotulados (labeled examples). Cada exemplo de treinamento inclui:

Características (features) (entradas) (x): por exemplo, o texto de um e-mail, os pixels de uma imagem, o perfil de um cliente
Rótulo (label) (alvo) (y): por exemplo, “spam/não spam”, o preço de uma casa, um diagnóstico médico

O objetivo é aprender uma função (f(x)) que generalize: ela faz previsões precisas em dados novos, não vistos.

O aprendizado supervisionado é o carro-chefe da IA preditiva (predictive AI) moderna. Ele viabiliza classificação (escolher uma categoria), regressão (prever um número), ranqueamento, e muitas tarefas de predição estruturada. Ele também é a linha de base contra a qual outros cenários de aprendizagem — como Aprendizado Não Supervisionado (Unsupervised Learning), Aprendizado Semi/Self-Supervisionado (Semi/Self-Supervised Learning) e Supervisão Fraca (Weak Supervision) — costumam ser comparados.

Ideia central: aprender com exemplos

Um conjunto de dados supervisionado normalmente é escrito como:

[ \mathcal{D} = {(x_i, y_i)}_{i=1}^n ]

O algoritmo busca um modelo (f_\theta) com parâmetros (\theta) (pesos, divisões da árvore, etc.) que prediga (y) a partir de (x) com precisão. O aprendizado geralmente é formulado como a minimização de uma função de perda (loss) média:

[ \min_\theta \frac{1}{n}\sum_{i=1}^n \mathcal{L}(f_\theta(x_i), y_i) ]

Isso se chama minimização do risco empírico (empirical risk minimization, ERM). O principal desafio é que um erro baixo no treinamento não garante um erro baixo em novos dados — generalização (generalization) é o objetivo real.

Tipos comuns de tarefas supervisionadas

Classificação

Prever um rótulo discreto.

Classificação binária (binary classification): fraude vs. não fraude
Multiclasse (multiclass): qual dos 10 dígitos está na imagem?
Multirrótulo (multilabel): quais tags se aplicam (por exemplo, “esportes”, “saúde”, “política”)?

As saídas típicas são:

Rótulos rígidos (hard labels) (IDs de classe), ou
Probabilidades (probabilities) (por exemplo, (P(y=\text{spam} \mid x))), que permitem limiarização e decisões sensíveis a custo.

Perdas comuns:

Entropia cruzada (cross-entropy) / perda logarítmica (log loss)
Perda hinge (hinge loss) (usada em SVMs)

Regressão

Prever um valor contínuo.

Exemplos:

Previsão do preço de uma casa
Previsão de demanda
Estimativa de tempo até falha

Perdas comuns:

Erro quadrático médio (mean squared error, MSE)
Erro absoluto médio (mean absolute error, MAE)
Perda de Huber (Huber loss) (robusta a outliers)

Ranqueamento e predição estruturada (brevemente)

Alguns problemas supervisionados preveem saídas mais complexas:

Aprendizado para ranquear (learning to rank): ordenar resultados de busca
Rotulagem de sequência (sequence labeling): marcar cada token em um texto (por exemplo, reconhecimento de entidades nomeadas (named entity recognition))

Esses problemas frequentemente usam modelos/perdas especializados, mas ainda seguem o princípio de “aprender com exemplos rotulados”.

O que faz o aprendizado supervisionado funcionar (e falhar): rótulos e dados

Dados rotulados são o combustível

O aprendizado supervisionado depende da disponibilidade e da qualidade dos rótulos:

Correção: ruído nos rótulos pode limitar o desempenho alcançável
Consistência: diretrizes ambíguas levam a rótulos inconsistentes
Cobertura: os dados de treinamento devem representar a distribuição de entradas do mundo real

Rotular pode ser caro (especialistas médicos), lento (anotação manual) ou enviesado (decisões históricas). Quando os rótulos são escassos ou ruidosos, considere alternativas como Supervisão Fraca ou Aprendizado Semi/Self-Supervisionado.

Suposição i.i.d. e mudança de distribuição

Muitos resultados teóricos assumem que os exemplos são i.i.d. (independentes e identicamente distribuídos (independent and identically distributed)): dados de treinamento e teste vêm da mesma distribuição. Na prática, isso frequentemente se quebra devido a:

Deriva temporal (temporal drift) (o comportamento do usuário muda)
Mudanças de política (policy changes) (novas regras afetam resultados)
Viés de seleção (selection bias) (dados coletados sob um processo não aleatório)

Lidar com isso pode envolver monitoramento, retreinamento ou Aprendizado Online (Online Learning).

Famílias de modelos usadas no aprendizado supervisionado

Aprendizado supervisionado não é um algoritmo — é um cenário. Muitas classes de modelos podem ser usadas.

Modelos lineares (rápidos, fortes linhas de base)

Regressão linear (linear regression), regressão logística (logistic regression)
Muitas vezes eficazes com boas características; muito interpretáveis
Tipicamente treinados com otimização convexa (convex optimization)

Regularização (regularization) é crucial:

L2 (ridge): reduz os pesos de forma suave
L1 (lasso): incentiva esparsidade (seleção de características)

Conceito relacionado: Descida do Gradiente (Gradient Descent) para otimização iterativa em cenários de grande escala.

Modelos baseados em árvores (campeões em dados tabulares)

Árvores de decisão
Florestas aleatórias (random forests)
Árvores com boosting de gradiente (gradient-boosted trees) (por exemplo, XGBoost/LightGBM/CatBoost)

Pontos fortes:

Lidam bem com não linearidade e interações entre características
Frequentemente excelentes em dados estruturados/tabulares com pré-processamento mínimo
Fornecem importância de características (com ressalvas)

Máquinas de Vetores de Suporte (SVMs)

Eficazes em espaços de alta dimensionalidade
O truque do kernel (kernel trick) permite fronteiras de decisão não lineares
Menos comuns em cenários de escala muito grande em comparação com árvores com boosting ou redes profundas

k-Vizinhos Mais Próximos (kNN)

Método “preguiçoso”: prediz com base nos exemplos rotulados mais próximos
Simples e às vezes eficaz, mas caro na inferência e sensível à escala das características

Redes neurais (aproximadores flexíveis de função)

Dominantes em visão, fala e muitas tarefas de processamento de linguagem natural (NLP)
Exigem mais dados e treinamento cuidadoso, mas podem aprender características automaticamente

Mecanismos-chave:

Treinamento via Retropropagação (Backpropagation)
Arquiteturas como Redes Neurais (Neural Networks) e, para modelos modernos de linguagem/visão, Arquitetura Transformer (Transformer Architecture)

Treinamento: objetivos, otimização e regularização

Funções de perda e interpretação probabilística

Para classificação, a entropia cruzada corresponde a maximizar a verossimilhança (likelihood) sob um modelo probabilístico:

O modelo produz probabilidades (por exemplo, via sigmoide (sigmoid)/softmax (softmax))
Minimiza a log-verossimilhança negativa (negative log-likelihood) (entropia cruzada)

Isso torna as probabilidades previstas significativas — importante para pontuação de risco, limiares de decisão e calibração (calibration).

Otimização

O treinamento tipicamente envolve:

Soluções em forma fechada (closed-form solutions) (raras; por exemplo, mínimos quadrados ordinários em problemas pequenos)
Otimização convexa (regressão logística, SVM linear)
Otimização estocástica (stochastic optimization) para modelos/dados grandes (descida do gradiente estocástica (stochastic gradient descent, SGD), Adam), comumente formulada via Descida do Gradiente

Regularização e generalização

Um modelo pode sobreajustar (overfit) ao memorizar os dados de treinamento. Defesas comuns:

Regularização explícita: penalidades L1/L2, decaimento de pesos (weight decay)
Parada antecipada (early stopping): parar o treinamento quando o desempenho de validação parar de melhorar
Aumento de dados (data augmentation): especialmente em visão/áudio (cortes aleatórios, espelhamentos, ruído)
Dropout (dropout): comum em redes neurais
Ensembles (ensembling): fazer a média de múltiplos modelos para reduzir variância

Isso se relaciona ao trade-off viés–variância (bias–variance tradeoff): modelos simples podem subajustar (underfit) (alto viés), modelos complexos podem sobreajustar (alta variância). Uma boa prática é usar curvas de validação e validação cruzada para encontrar a complexidade correta.

Avaliação: medindo o que importa

Divisão treino/validação/teste

Um fluxo de trabalho padrão usa:

Conjunto de treinamento (training set): ajustar o modelo
Conjunto de validação (validation set): ajustar hiperparâmetros (hyperparameters), selecionar limiares
Conjunto de teste (test set): estimativa final não enviesada (usado uma vez, idealmente)

Para conjuntos de dados pequenos, a validação cruzada k-fold (k-fold cross-validation) fornece estimativas mais estáveis.

Métricas de classificação

Escolha métricas alinhadas ao contexto de decisão:

Acurácia (accuracy): pode ser enganosa com desbalanceamento de classes
Precisão / Revocação (precision / recall): úteis quando falsos positivos vs. falsos negativos têm custos diferentes
F1 score (F1 score): equilibra precisão e revocação
ROC-AUC (ROC-AUC): qualidade de ranqueamento independente de limiar
PR-AUC (PR-AUC): mais informativa sob forte desbalanceamento
Perda logarítmica: avalia previsões probabilísticas

Considere também:

Calibração: as probabilidades previstas correspondem às frequências reais?
Matriz de confusão (confusion matrix): onde o modelo erra?

Métricas de regressão

Escolhas comuns:

MAE: erro absoluto médio interpretável
MSE/RMSE: penalizam mais erros grandes
(R^2): variância explicada (pode ser enganoso fora da distribuição de treinamento)

Vazamento de dados e armadilhas de avaliação

Armadilhas comuns:

Usar informação futura nas características (vazamento temporal (temporal leakage))
Pré-processamento (pré-processamento) (escalonamento (scaling), imputação (imputation)) ajustado em todos os dados antes da divisão
Duplicatas ou quase duplicatas entre treino/teste
Ajustar no conjunto de teste (transforma-o em um conjunto de validação)

Exemplo prático: classificação de spam (esboço de ponta a ponta)

Abaixo está um pipeline (pipeline) mínimo de aprendizado supervisionado em Python usando APIs no estilo scikit-learn.

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report

# X: list of email texts, y: 0/1 labels (0=ham, 1=spam)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

model = make_pipeline(
    TfidfVectorizer(ngram_range=(1, 2), min_df=2),
    LogisticRegression(max_iter=200, class_weight="balanced")
)

model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))

O que isso ilustra:

Extração de características: TF-IDF converte texto em características numéricas
Modelo: regressão logística produz probabilidades para classificação
Tratamento de desbalanceamento (imbalance handling): class_weight="balanced" ajusta a perda
Avaliação: o relatório de classificação inclui precisão/revocação/F1

Em produção, você também:

escolheria um limiar com base no custo (por exemplo, evitar falsos positivos),
monitoraria deriva (drift), e
retreinaria periodicamente.

Exemplo prático: regressão de preço de casas (tabular)

Um fluxo de trabalho típico de regressão tabular pode usar árvores com boosting de gradiente:

Engenharia de características mínima (mas com tratamento cuidadoso de valores ausentes)
Avaliação por MAE/RMSE
Validação cruzada para hiperparâmetros

Em muitos conjuntos de dados imobiliários, vazamento é fácil: características como “preço por metro quadrado” podem já embutir o rótulo. Uma prática forte de aprendizado supervisionado é tanto sobre disciplina de dados quanto sobre algoritmos.

Fluxo de trabalho típico de aprendizado supervisionado (na prática)

Definir o alvo de predição
- O que é (y)? Como ele é medido? Quando ele fica disponível?
Coletar e rotular dados
- Garantir diretrizes de rotulagem; medir concordância entre anotadores (inter-annotator agreement) quando aplicável
Dividir os dados adequadamente
- Usar divisões baseadas em tempo para dados temporais
Construir linhas de base
- Heurísticas simples, modelos lineares ou árvores pequenas
Treinar modelos e ajustar hiperparâmetros
- Usar validação ou validação cruzada
Avaliar com as métricas certas
- Alinhar com custos e restrições de negócio/missão
Implantar e monitorar
- Acompanhar desempenho, deriva, viés e calibração
Iterar
- Melhorar qualidade dos dados, adicionar características, refinar rótulos, considerar diferentes classes de modelos

Quando os rótulos são caros, Aprendizado Ativo (Active Learning) pode reduzir o esforço de rotulagem ao escolher quais exemplos rotular em seguida.

Aplicações

O aprendizado supervisionado é amplamente usado sempre que existam resultados históricos rotulados:

Busca e recomendação: previsão de clique, relevância de ranqueamento
Finanças: score de crédito, detecção de fraude, modelagem de risco
Saúde: suporte a diagnóstico, previsão de triagem (com necessidades rigorosas de validação)
Manufatura: detecção de defeitos (visão), manutenção preditiva
Marketing: previsão de churn, pontuação de leads
PLN e visão: classificação de sentimento, reconhecimento de objetos, OCR
Operações: previsão de demanda, otimização de inventário

Muitos sistemas modernos combinam aprendizado supervisionado com pré-treinamento (pretraining) (self-supervised) seguido de ajuste fino (fine-tuning), fazendo a ponte para Aprendizado Semi/Self-Supervisionado e Aprendizado por Transferência (Não Profundo) (Transfer Learning (Non-Deep)).

Desafios comuns e boas práticas

Desbalanceamento de classes e eventos raros

Fraude, doença grave e falhas frequentemente são raras. Técnicas incluem:

Métricas apropriadas (PR-AUC, revocação em precisão fixa)
Reponderação de perdas ou reamostragem (resampling)
Ajuste de limiar (threshold tuning) com base em custos
Coletar mais exemplos positivos (às vezes via amostragem direcionada)

Ruído e ambiguidade nos rótulos

Se os rótulos são inconsistentes, o modelo aprende inconsistência. Mitigações:

Diretrizes claras de anotação
Fluxos de adjudicação
Modelagem de incerteza do rótulo (quando apropriado)
Considerar Supervisão Fraca para rotulagem ruidosa escalável — em conjunto com validação em um conjunto “ouro” (gold) de alta qualidade

Mudança de conjunto de dados e robustez

Mesmo um modelo supervisionado forte pode falhar quando o mundo muda. Boas práticas:

Divisões de avaliação cientes de tempo
Monitoramento de distribuições de características e desempenho
Retreinamento regular ou abordagens de Aprendizado Online para cenários de streaming

Equidade, viés e responsabilização

Modelos supervisionados podem reproduzir vieses históricos porque otimizam para corresponder aos rótulos. Passos importantes:

Avaliar desempenho por subgrupo (não apenas médias gerais)
Entender a proveniência dos rótulos (o que os rótulos representam?)
Usar ferramentas de explicabilidade (explainability) com cuidado (elas explicam o modelo, não a verdade)
Aplicar governança de domínio (domain governance) e supervisão humana (human oversight) em cenários de alto impacto

Como o aprendizado supervisionado se relaciona com outros cenários de aprendizagem

Aprendizado Não Supervisionado encontra estrutura sem rótulos (clusterização, representações). Ele frequentemente dá suporte a tarefas supervisionadas via aprendizado de características.
Aprendizado Semi/Self-Supervisionado usa grandes conjuntos de dados não rotulados para aprender representações e, depois, usa menos rótulos para alcançar maior desempenho.
Supervisão Fraca gera rótulos ruidosos programaticamente ou heurísticamente para escalar dados de treinamento quando rotular manualmente é caro.
Aprendizado Ativo reduz o custo de rotulagem ao selecionar os exemplos mais informativos para rotular.
Aprendizado Online atualiza modelos incrementalmente a partir de fluxos de dados, útil quando as distribuições de dados mudam.

O aprendizado supervisionado permanece central porque fornece um objetivo claro — corresponder a alvos rotulados —, mas muitas vezes é mais poderoso quando combinado com esses paradigmas complementares.

Resumo

O aprendizado supervisionado treina modelos para prever saídas a partir de entradas usando exemplos rotulados. Ele se fundamenta na minimização do risco empírico, em otimização prática (frequentemente via métodos baseados em gradiente) e em avaliação cuidadosa para garantir generalização. O sucesso do aprendizado supervisionado depende tanto de qualidade dos dados, clareza de rotulagem e avaliação sem vazamento quanto da escolha do modelo. Ele impulsiona uma ampla gama de sistemas reais de predição e frequentemente se integra a abordagens relacionadas como pré-treinamento self-supervised, supervisão fraca e aprendizado ativo para reduzir o custo de rotulagem e melhorar a robustez.