Supervisão Fraca

Visão geral

Supervisão fraca (weak supervision) é uma família de técnicas para treinar modelos de aprendizado de máquina (machine learning) usando rótulos ruidosos (noisy labels), heurísticos (heuristic), incompletos ou gerados programaticamente (programmatically generated) em vez de (ou além de) rótulos ouro (gold labels) cuidadosamente curados. A ideia central é substituir a anotação humana cara por fontes de supervisão mais baratas — como regras, sinais distantes, bases de conhecimento ou rótulos de crowdsourcing (crowd labels) — e então modelar ou mitigar o ruído para que ainda seja possível aprender um modelo preditivo de alta qualidade.

A supervisão fraca fica entre o Aprendizado Supervisionado (Supervised Learning) totalmente rotulado e configurações sem rótulos como o Aprendizado Não Supervisionado (Unsupervised Learning), e se sobrepõe na prática ao Aprendizado Semi/Autossupervisionado (Semi/Self-Supervised Learning). Ela é especialmente valiosa quando:

Rótulos são caros (tarefas médicas, jurídicas, específicas de domínio)
A taxonomia (taxonomy) muda com frequência (moderação de conteúdo, catálogos de produtos)
O conjunto de dados (dataset) é enorme (texto em escala web (web-scale), registros (logs), imagens)
Você consegue expressar expertise como regras ou sinais fracos mais rápido do que rotular exemplos

Por que a supervisão fraca funciona (intuição)

Mesmo que cada fonte de rótulo fraco seja pouco confiável, o sinal agregado ao longo de muitos pontos de dados e múltiplas fontes fracas pode ser forte:

Uma regra como “se o texto contém ‘refund’, rotule como billing issue” estará errada às vezes, mas é barata e frequentemente correta na direção.
Um alinhamento com base de conhecimento como “se a frase contém duas entidades que estão ligadas na Wikipedia, rotule como tendo essa relação” introduz ruído sistemático, mas ainda pode fornecer sinal suficiente para fazer bootstrap (bootstrap) de um modelo.
Vários rotuladores fracos podem ser combinados de modo que seus acordos reforcem e seus conflitos revelem incerteza.

Em muitos fluxos de trabalho, você usa supervisão fraca para gerar um grande conjunto de dados rotulado como prata (silver-labeled) e então treina um modelo moderno (por exemplo, um classificador neural (neural classifier)) nele, opcionalmente fazendo ajuste fino (fine-tuning) em um pequeno conjunto ouro.

Fontes comuns de rótulos fracos

Supervisão fraca é um guarda-chuva amplo. Tipos comuns de rótulos fracos incluem:

Regras heurísticas e correspondência de padrões (rotulagem programática)

Conhecimento de domínio é codificado como regras, regexes, listas de palavras-chave ou heurísticas simples baseadas em modelo.

Exemplo (triagem de tickets de suporte):

Se o assunto contém “password reset” → rotule como ACCOUNT_ACCESS
Se a mensagem contém “charged twice” → rotule como BILLING

Esses sinais são rápidos de criar e fáceis de atualizar.

Supervisão distante (distant supervision) (rótulos proxy de recursos externos)

Um banco de dados relacionado fornece rótulos indiretamente.

Exemplo (extração de relações (relation extraction)):

Se uma base de conhecimento afirma (Barack Obama, born_in, Honolulu), então qualquer frase contendo “Barack Obama” e “Honolulu” recebe um rótulo fraco como born_in.

Isso é poderoso, mas muitas vezes ruidoso porque coocorrência não garante que a relação esteja expressa naquela frase.

Feedback implícito do usuário e sinais comportamentais

Cliques, tempo de permanência, compras, tempo de visualização e pulos fornecem proxies fracos de relevância ou satisfação.

Exemplo (ranqueamento de busca (search ranking)):

Resultado clicado ≈ relevante (mas enviesado por posição, atratividade do snippet etc.)

Esses sinais são abundantes, mas exigem cuidadosa remoção de vieses (debiasing).

Crowdsourcing e rótulos de não especialistas

Rótulos de trabalhadores de crowd podem ser ruidosos, inconsistentes ou ambíguos.

Métodos de supervisão fraca podem:

Agregar múltiplos votos
Modelar a confiabilidade individual de cada trabalhador
Identificar padrões sistemáticos de confusão

Sensores ruidosos e rótulos “encontrados”

Rótulos derivados de processos de medição podem ser imperfeitos.

Exemplo (médico):

Códigos ICD em dados de faturamento não são verdade fundamental (ground truth) perfeita para diagnósticos, mas podem supervisionar fracamente o PLN clínico (clinical NLP).

Rótulos parciais, inexatos ou grosseiros

Às vezes os rótulos estão incompletos ou não têm a granularidade adequada.

Rótulos parciais: um conjunto de classes possíveis é fornecido em vez de uma única classe
Rótulos grosseiros: o rótulo existe no nível do documento, mas a tarefa é no nível de frase/trecho (span) (comum em PLN (NLP))
Proporções de rótulos: você pode conhecer a mistura de classes em um lote (por exemplo, em uma região ou janela de tempo)

Isso costuma ser tratado como supervisão fraca porque restringe o aprendizado sem especificar completamente o alvo.

Uma visão mais formal: aprendizado com supervisão ruidosa

Seja o rótulo verdadeiro (desconhecido) (Y) e o rótulo fraco observado (\tilde{Y}). A supervisão fraca tipicamente assume:

Você pode coletar muitas entradas não rotuladas (X)
Você pode gerar (\tilde{Y}) de forma barata, mas (\tilde{Y}) é uma versão ruidosa de (Y)

Um modelo clássico é ruído de rótulo via uma matriz de transição (transition matrix):

[ P(\tilde{Y}=j \mid Y=i) = T_{ij} ]

Se você consegue estimar (T) (ou de alguma forma modelar o ruído), você pode corrigir objetivos de treinamento ou reponderar exemplos para aproximar melhor o aprendizado em (Y).

Na prática, métodos de supervisão fraca diferem principalmente em:

Como representam fontes fracas (regras, heurísticas, trabalhadores de crowd, bases de conhecimento)
Como as combinam (voto majoritário (majority vote), modelos probabilísticos de rótulos, removedores de ruído aprendidos)
Como treinam o modelo final (duas etapas vs ponta a ponta (end-to-end); perdas robustas; refinamento semi-supervisionado)

Programação de dados (data programming): funções de rotulagem e modelos de rótulos

Um framework amplamente usado para supervisão fraca é a programação de dados (data programming) (popularizada pelo Snorkel). Você escreve múltiplas funções de rotulagem (labeling functions, LFs). Cada função de rotulagem pode:

Atribuir um rótulo de classe
Ou abster-se (sem voto)

O sistema então aprende um modelo de rótulos (label model) que estima acurácias e correlações das funções de rotulagem, produzindo um rótulo probabilístico para cada exemplo.

Exemplo prático: detecção de spam com funções de rotulagem

Abaixo está um esboço simplificado de rotulagem fraca no estilo de funções de rotulagem:

from enum import Enum
import re

class Label(Enum):
    SPAM = 1
    HAM = 0
    ABSTAIN = -1

def lf_contains_free(text: str) -> Label:
    return Label.SPAM if "free" in text.lower() else Label.ABSTAIN

def lf_many_exclamations(text: str) -> Label:
    return Label.SPAM if text.count("!") >= 5 else Label.ABSTAIN

def lf_has_unsubscribe(text: str) -> Label:
    # could indicate marketing; not always spam
    return Label.SPAM if "unsubscribe" in text.lower() else Label.ABSTAIN

def lf_personal_reply(text: str) -> Label:
    return Label.HAM if re.search(r"\bthanks\b|\bsee you\b", text.lower()) else Label.ABSTAIN

LFS = [lf_contains_free, lf_many_exclamations, lf_has_unsubscribe, lf_personal_reply]

def apply_lfs(texts):
    # returns matrix: n_examples x n_lfs with {SPAM, HAM, ABSTAIN}
    return [[lf(t).value for lf in LFS] for t in texts]

Uma abordagem ingênua é fazer voto majoritário sobre as funções de rotulagem que não se abstiveram. Uma abordagem mais forte é aprender um modelo de rótulos que:

Dá mais peso a funções de rotulagem confiáveis
Considera dependências (por exemplo, duas regras de palavra-chave são correlacionadas)
Produz probabilidades em vez de rótulos duros

Esses rótulos probabilísticos são então usados para treinar um modelo discriminativo (discriminative model) (por exemplo, um classificador de Redes Neurais (Neural Networks)) que pode generalizar além das heurísticas.

Por que não treinar diretamente nas regras?

Regras frequentemente têm:

Cobertura limitada (muitas abstenções)
Comportamento frágil (não capturam sinônimos, paráfrases)
Vieses ocultos (super-representam certas subpopulações)

Um modelo aprendido pode:

Generalizar para padrões não vistos
Suavizar inconsistências entre regras
Aproveitar atributos que as regras nunca mencionam

Estratégias de treinamento em supervisão fraca

Pipeline em duas etapas (two-stage pipeline) (comum na prática)

Gerar rótulos fracos com heurísticas / funções de rotulagem / supervisão distante
Remover ruído / agregar em rótulos probabilísticos (opcional, mas poderoso)
Treinar um modelo discriminativo sobre os rótulos fracos (probabilísticos)
Opcionalmente fazer ajuste fino em um pequeno conjunto ouro

Isso desacopla a agregação de rótulos do treinamento do modelo, melhorando interpretabilidade e velocidade de iteração.

Objetivos de aprendizado robustos a ruído (noise-robust learning objectives)

Se você suspeita de ruído nos rótulos, pode usar métodos que reduzem o sobreajuste a rótulos incorretos:

Correções de perda usando a transição de ruído estimada (T)
Regularização e parada antecipada (ajuda quando o ruído causa memorização)
Aprendizado confiante (confident learning) / detecção de erro de rótulo (label error detection) (por exemplo, métodos no estilo Cleanlab (Cleanlab-style methods))
Abordagens no estilo co-treinamento (co-training) / co-ensino (co-teaching) (dois modelos filtram exemplos ruidosos)

Essas técnicas frequentemente são combinadas com supervisão fraca em vez de substituí-la.

Combinando supervisão fraca com aprendizado semi/auto-supervisionado

A supervisão fraca frequentemente combina bem com Aprendizado Semi/Autossupervisionado:

Rótulos fracos fornecem uma fronteira de decisão (decision boundary) inicial
Auto-treinamento (self-training) ou regularização por consistência (consistency regularization) aproveita dados não rotulados para refiná-la
Pseudorrotulagem (pseudo-labeling) pode ser restringida pela confiança do rótulo fraco

Isso é comum em visão computacional (computer vision) e classificação de texto em larga escala.

Fluxo de trabalho ponta a ponta: como a supervisão fraca é feita na prática

Um fluxo de trabalho aplicado típico se parece com isto:

Definir a tarefa e o espaço de rótulos
- Definições claras de classe, casos-limite (edge cases) e tratamento de “desconhecido/outros”
Coletar um grande conjunto de dados não rotulado
- Frequentemente ordens de magnitude maior do que o que você conseguiria rotular manualmente
Criar um pequeno conjunto ouro de dev/test
- Mesmo 200–2.000 exemplos podem ser extremamente valiosos para iteração e avaliação honesta
Criar fontes de rótulo fraco
- Regras, dicionários, correspondências com base de conhecimento, modelos baratos, rótulos de crowd, heurísticas de metadados
Medir cobertura de funções de rotulagem e conflito
- Cobertura (coverage): fração de exemplos com pelo menos uma função de rotulagem que não se abstém
- Conflito (conflict): fração de exemplos com funções de rotulagem em desacordo
Agregar rótulos fracos
- Baseline de voto majoritário → modelo de rótulos para rótulos probabilísticos
Treinar o modelo final
- Use rótulos probabilísticos quando possível; calibre (calibration) limiares se necessário
Análise de erros (error analysis) e iteração
- Inspecione falsos positivos/negativos no conjunto ouro
- Refine funções de rotulagem, adicione novas, remova redundantes/correlacionadas
Monitoramento em produção
- Regras de rotulagem fraca e distribuições podem derivar; monitore desempenho e qualidade dos dados

A supervisão fraca se destaca porque as etapas 4–8 podem ser repetidas rapidamente sem re-rotular do zero.

Exemplos práticos em diferentes domínios

Reconhecimento de Entidades Nomeadas (Named Entity Recognition, NER) com dicionários e padrões

Suponha que você queira detectar entidades DRUG em notas clínicas:

Use léxicos de medicamentos (RxNorm) como correspondências de dicionário (trechos fracos)
Use padrões como “started on X mg of ___”
Use cabeçalhos de seção (“Medications:”)

Essas fontes são ruidosas (nomes de medicamentos ambíguos, problemas de formatação), mas podem gerar grandes conjuntos de treinamento para um etiquetador de sequência (sequence tagger), que então aprende pistas contextuais.

Extração de relações com supervisão distante

Dada uma base de conhecimento de aquisições de empresas:

Para cada par conhecido (Acquirer, Acquiree), rotule frases que mencionem ambos como acquired
Muitas dessas frases não expressarão de fato a aquisição (ruído), mas o suficiente para um modelo aprender padrões como “bought”, “acquired”, “purchased”, “merged with”

Sistemas modernos frequentemente adicionam heurísticas de filtragem ou variantes de aprendizado multi-instância (multi-instance learning) para reduzir ruído.

Moderação de conteúdo com regras de política

Você pode ter heurísticas de política:

Dicionários de xingamentos (positivo fraco)
Listas conhecidas como seguras (negativo fraco)
Sinais de reputação de URL
Contagem de denúncias de usuários (positivo fraco com viés)

A supervisão fraca pode rapidamente colocar modelos em funcionamento para novas categorias de política e evoluir conforme as políticas mudam.

Classificação de produtos a partir de metadados de catálogo

Use:

Categorias fornecidas por lojistas (ruidosas)
Mapeamento por palavras-chave a partir de títulos/descrições
Padrões de marca + atributo (“men’s running shoes”)

Em seguida, treine um classificador que generaliza para texto confuso do mundo real e reduz a dependência de listas frágeis de palavras-chave.

Visão computacional a partir de tags de imagem e metadados

Rótulos fracos podem vir de:

Hashtags ou legendas (estilo Instagram)
Alt-text
Contexto da página ao redor

Isso pode treinar classificadores de imagem, embora frequentemente exija remoção de vieses cuidadosa porque as tags refletem intenção do usuário, não presença visual estrita.

Principais desafios e modos de falha

Fontes fracas correlacionadas (problema de dependência)

Se você tem dez funções de rotulagem que são basicamente a mesma lista de palavras-chave, elas vão “vencer no voto” contra as demais e criar falsa confiança. Bons modelos de rótulos tentam levar correlações em conta, mas você ainda deve projetar fontes diversas.

Trade-off entre cobertura e acurácia

Regras de alta precisão podem se abster na maior parte do tempo → baixa cobertura
Heurísticas de alta cobertura podem ser ruidosas demais

Uma configuração forte de supervisão fraca equilibra os dois e usa um modelo aprendido para generalizar.

Vazamento de rótulo (label leakage)

Rótulos fracos às vezes codificam acidentalmente a resposta de um jeito que o modelo consegue explorar, mas que não generaliza (por exemplo, usar metadados pós-evento para rotular desfechos pré-evento). Esse é um erro padrão na construção de conjuntos de dados, especialmente com registros e dados dependentes de tempo.

Amplificação de vieses

Se fontes fracas codificam vieses sociais ou de amostragem, o modelo treinado pode escalar esses vieses. Pipelines de supervisão fraca devem incluir avaliação sensível a equidade (fairness-aware) e um design cuidadoso de atributos e rótulos.

Sobreajuste ao ruído (“memorização”)

Modelos de alta capacidade podem memorizar rótulos incorretos. Mitigações incluem:

Rótulos probabilísticos e calibração adequada
Validação forte em um conjunto ouro
Regularização e parada antecipada
Filtragem ou redução de peso de exemplos com baixa confiança

Quando usar supervisão fraca (e como ela se relaciona com tipos de problema próximos)

Use supervisão fraca quando você consegue escrever regras ou aproveitar sinais externos mais rápido do que rotular, e precisa escalar.
Use Aprendizado Ativo (Active Learning) quando existe orçamento de rotulagem, mas ele deve ser gasto com eficiência; na prática, aprendizado ativo e supervisão fraca combinam bem (use rótulos fracos para iniciar, depois rotule ativamente os casos mais informativos).
Use Aprendizado Semi/Autossupervisionado quando você tem pouco sinal de rotulagem, mas muitos dados não rotulados; a supervisão fraca pode fornecer o sinal inicial de que esses métodos precisam.
Use o Aprendizado Supervisionado clássico quando rótulos de alta qualidade estão disponíveis e são estáveis; a supervisão fraca ainda pode ajudar a expandir dados ou cobrir classes raras.
Em domínios em streaming ou que mudam rapidamente, a supervisão fraca pode complementar o Aprendizado Online (Online Learning) ao permitir atualizações rápidas de regras enquanto o modelo se adapta.

Avaliação: sendo honesto sobre a qualidade

A supervisão fraca não elimina a necessidade de avaliação. A melhor prática é:

Manter um pequeno conjunto de teste ouro, de alta qualidade, que nunca é usado para criar regras
Acompanhar métricas apropriadas à tarefa (acurácia, F1, calibração, custo de falso positivo)
Comparar com baselines fortes:
- Voto majoritário das fontes fracas
- Pequeno modelo supervisionado somente com ouro
- Somente fraco vs fraco+ouro com ajuste fino

Em muitas organizações, o conjunto ouro é a “estrela-guia (north star)”, enquanto a supervisão fraca é o motor que cria escala.

Boas práticas (checklist)

Comece com um esquema de rótulos claro e uma política para casos-limite.
Crie fontes fracas diversas (lexicais, estruturais, metadados, baseadas em modelo).
Acompanhe cobertura, taxa de conflito e concordância entre fontes.
Prefira rótulos probabilísticos a rótulos duros quando possível.
Mantenha um conjunto dev/test limpo para iteração e relatório final.
Faça análise de erros regularmente: inspecione exemplos em que fontes fracas discordam ou em que o modelo está confiantemente errado.
Observe mudança de distribuição (distribution shift): regras que funcionavam no último trimestre podem falhar hoje.

Resumo

A supervisão fraca é um cenário prático de aprendizado em que os rótulos vêm de fontes ruidosas, heurísticas ou programáticas, em vez de uma anotação ouro trabalhosa. Sua promessa central é velocidade e escala: codificar expertise em sinais fracos, combinar e remover ruído desses sinais e então treinar um modelo que generaliza além das heurísticas. Com agregação cuidadosa, avaliação em um pequeno conjunto ouro e refinamento iterativo, a supervisão fraca pode produzir modelos prontos para produção em domínios em que a rotulagem tradicional seria lenta ou cara demais.