IA centrada em dados (Data-Centric AI)

O que é IA Centrada em Dados?

IA Centrada em Dados (Data-Centric AI) é uma abordagem para melhorar sistemas de aprendizado de máquina (machine learning) ao melhorar sistematicamente os dados — em vez de focar principalmente em ajustar arquiteturas de modelo (model architectures) ou hiperparâmetros (hyperparameters). Na prática, isso significa tratar o conjunto de dados (dataset) como um produto de engenharia: você depura rótulos (labels), melhora a cobertura (coverage) de casos do mundo real, reduz ruído (noise) e vazamento (leakage) e projeta o conjunto de dados para refletir a tarefa que você de fato quer que seja resolvida.

Essa mentalidade é especialmente valiosa hoje porque muitas equipes já têm modelos de referência (baseline models) fortes (frequentemente pré-treinados (pretrained) ou baseados em modelos de base (foundation models)). Em cenários assim, o conjunto de dados muitas vezes se torna o principal gargalo de confiabilidade, equidade e desempenho no mundo real.

O trabalho centrado em dados (data-centric) normalmente complementa (não substitui) o trabalho centrado no modelo (model-centric), como experimentar novos algoritmos (algorithms) em Modelos ou ajustar em Seleção de Modelos. A diferença está no ciclo de iteração: melhorar dados → retreinar → avaliar → repetir.

Por que “melhorar os dados” muitas vezes supera “melhorar o modelo”

Um modelo aprende padrões que estão disponíveis nos dados de treinamento. Se o conjunto de dados contém:

  • rótulos incorretos ou inconsistentes,
  • falta de cobertura de casos extremos (edge cases) importantes,
  • correlações espúrias (spurious correlations) (por exemplo, artefatos de fundo),
  • vazamento entre treino e teste (train–test leakage),
  • representação enviesada de grupos,

então um modelo melhor muitas vezes apenas se torna melhor em aprender a coisa errada.

A iteração centrada em dados pode gerar grandes ganhos porque ataca causas-raiz. Resultados típicos incluem:

  • melhor acurácia média e menos falhas catastróficas,
  • melhor calibração (calibration) e confiabilidade (ver Avaliação e o conceito de avaliação (evaluation)),
  • melhor generalização (generalization) sob mudança de distribuição (distribution shift),
  • iteração mais rápida (menos tempo gasto ajustando hiperparâmetros),
  • entendimento mais claro dos requisitos da tarefa e das ambiguidades.

Fundamentos teóricos: por que a qualidade dos dados importa

Sinal de aprendizado e ruído nos rótulos

No aprendizado supervisionado (supervised learning), o treinamento otimiza uma função de perda (loss) como a entropia cruzada (cross-entropy) entre predições e rótulos. Se os rótulos têm ruído, o “verdadeiro” sinal de aprendizado é corrompido.

Uma forma simples de pensar sobre isso:

  • Ruído aleatório nos rótulos (random label noise) aumenta o erro irredutível e frequentemente reduz o máximo desempenho atingível.
  • Ruído sistemático nos rótulos (systematic label noise) (por exemplo, uma classe consistentemente rotulada como outra) pode deslocar fronteiras de decisão (decision boundaries) e criar modos de falha persistentes.
  • Rotulagem ambígua (ambiguous labeling) (onde múltiplos rótulos poderiam ser válidos) torna a tarefa mal definida, a menos que o conjunto de dados codifique a regra pretendida.

Modelos profundos (deep models) às vezes conseguem ajustar ruído nos rótulos (“memorizar”), especialmente com capacidade (capacity) e tempo de treinamento suficientes, o que pode prejudicar a generalização.

Cobertura e a cauda longa

Dados do mundo real frequentemente têm cauda longa (long-tailed): casos comuns são abundantes, casos raros são críticos. Se o seu conjunto de dados sub-representa recortes importantes (por exemplo, eventos adversos raros, dialetos minoritários, condições incomuns de iluminação), o desempenho pode parecer bom no geral enquanto falha em produção.

Isso se conecta de perto com Modelagem de Eventos Raros / Desbalanceados, mas a perspectiva centrada em dados enfatiza coletar e curar os casos faltantes, não apenas reponderar funções de perda.

Conjunto de dados como especificação

Um conjunto de dados não é apenas uma coleção de exemplos — é uma especificação da tarefa:

  • O que conta como positivo vs. negativo?
  • Quais casos extremos estão no escopo vs. fora do escopo?
  • Qual(is) distribuição(ões) o modelo deve lidar?

A IA centrada em dados trata o projeto do conjunto de dados como uma forma de engenharia de requisitos (requirements engineering).

Modos de falha comuns abordados por IA Centrada em Dados

1) Erros e inconsistências de rótulos

Exemplos:

  • Uma imagem rotulada “cachorro” que na verdade contém um lobo.
  • Dois anotadores rotulando o mesmo tweet como “tóxico” vs. “não tóxico” devido a diretrizes pouco claras.
  • Trechos de entidades em reconhecimento de entidades nomeadas (Named Entity Recognition, NER) que incluem pontuação ou títulos de forma inconsistente.

Sintomas:

  • O modelo comete erros “óbvios” que um humano não cometeria.
  • A perda de treino continua diminuindo enquanto a acurácia de validação estagna.
  • Certas classes apresentam confusão incomumente alta.

2) Esquema de rótulos ambíguo (problemas de definição da tarefa)

Às vezes o problema não é “rótulos errados”, mas uma taxonomia de rótulos mal definida:

  • Rótulos de sentimento: “agridoce” é positivo ou neutro?
  • Rótulos médicos: “doença presente” depende de limiar e do protocolo de medição.
  • Moderação de conteúdo: nuances de política não capturadas em um único rótulo.

Corrigir isso frequentemente exige revisitar o esquema de rótulos e as diretrizes de anotação — projeto de conjunto de dados, não ajuste de modelo.

3) Lacunas de cobertura (recortes ausentes)

Lacunas comuns:

  • Padrões de eventos raros (fraude, incidentes de segurança).
  • Novas categorias de produto.
  • Novas regiões/idiomas.
  • Condições extremas: pouca luz, oclusão, sotaques fortes.

Um conceito-chave é a análise por recortes (slice-based analysis): identificar subpopulações onde o modelo tem baixo desempenho e, então, coletar ou curar dados para esses recortes.

4) Correlações espúrias e aprendizado por atalhos

Modelos exploram sinais fáceis:

  • Fundo com “neve” correlaciona com “lobo”.
  • Marcas d’água correlacionam com uma classe.
  • Diferenças de origem/formato correlacionam com rótulos.

Mitigação centrada em dados inclui balanceamento, desconfundimento (deconfounding) via estratégia de coleta e adicionar contraexemplos (counterexamples) que quebrem o atalho.

5) Duplicatas e quase-duplicatas

Duplicatas inflacionam métricas e causam vazamento (o modelo “vê” o conjunto de teste). Quase-duplicatas (near-duplicates) podem tornar a avaliação irrealisticamente fácil.

6) Vazamento entre treino e teste e contaminação da avaliação

Exemplos:

  • O mesmo usuário aparece em treino e teste em tarefas de personalização.
  • Sinais dependentes do tempo vazam informação futura.
  • O pré-processamento (preprocessing) usa estatísticas globais calculadas sobre todas as partições.

Isso impacta diretamente a validade da avaliação.

7) Deriva de dados e mudança do conjunto de dados

Dados em produção evoluem. A IA centrada em dados vai além do treinamento inicial para monitorar deriva, atualizar rótulos e atualizar o conjunto de dados ao longo do tempo.

Técnicas práticas em IA Centrada em Dados

Depuração de rótulos: encontrando e corrigindo problemas de rotulagem

Auditoria de rótulos assistida por modelo (model-assisted label auditing) é um padrão comum:

  1. Treine um modelo de referência.
  2. Encontre exemplos em que o modelo está muito confiante, mas discorda do rótulo.
  3. Envie esses exemplos para revisão humana.

Isso funciona porque algumas discordâncias são casos genuinamente difíceis — mas muitas são erros de rotulagem ou desencontros nas diretrizes.

Outros métodos práticos:

  • Concordância entre anotadores (inter-annotator agreement) (por exemplo, κ de Cohen) para detectar ambiguidade.
  • Conjuntos ouro (golden sets): pequenos conjuntos de referência, de alta qualidade, usados para calibrar anotadores e detectar deriva na qualidade de rotulagem.
  • Auditorias guiadas pela matriz de confusão (confusion-matrix-driven audits): inspecionar exemplos nos pares de classes com maior confusão.

Exemplo: ciclo de auditoria assistida por modelo (pseudo-código)

import numpy as np

# y: dataset labels (0/1)
# p: model predicted probability for class 1
# audit high-confidence disagreements
audit_idx = np.where(((p > 0.95) & (y == 0)) | ((p < 0.05) & (y == 1)))[0]

# prioritize the most confident disagreements
priority = audit_idx[np.argsort(np.abs(p[audit_idx] - 0.5))[::-1]]
to_review = priority[:200]

Mesmo revisar algumas centenas de exemplos direcionados pode revelar problemas sistemáticos de rotulagem.

Melhoria de cobertura via avaliação por recortes

Em vez de apenas reportar uma métrica geral, avalie em recortes (subconjuntos) definidos por:

  • metadados (metadata) (região, tipo de dispositivo, idioma),
  • heurísticas (heuristics) (contém palavras de negação, imagens com pouca luz),
  • clusters orientados pelo modelo (por exemplo, clusters no espaço de vetores de incorporação (embedding)),
  • categorias de risco conhecidas (novos usuários, tipos raros de transação).

Isso é fortemente acoplado a boas práticas de avaliação: as métricas devem refletir o perfil de risco e as condições de implantação.

Exemplo: calcular métricas por recorte

from sklearn.metrics import f1_score

def f1_by_slice(y_true, y_pred, slice_id):
    scores = {}
    for s in sorted(set(slice_id)):
        idx = [i for i, v in enumerate(slice_id) if v == s]
        scores[s] = f1_score([y_true[i] for i in idx], [y_pred[i] for i in idx])
    return scores

Se um recorte é pequeno, mas importante (por exemplo, fraude em um novo mercado), a resposta centrada em dados muitas vezes é: coletar/rotular mais dados para esse recorte, refinar diretrizes e garantir que a partição de treino o inclua adequadamente.

Aprendizado ativo (active learning): rotule os dados mais informativos

Pipelines centrados em dados frequentemente usam aprendizado ativo para escolher o que rotular em seguida:

  • Amostragem por incerteza (uncertainty sampling): rotular exemplos sobre os quais o modelo tem menos certeza.
  • Amostragem por diversidade (diversity sampling): rotular exemplos que expandem a cobertura (por exemplo, clusterização no espaço de vetores de incorporação).
  • Amostragem focada em erros (error-focused sampling): rotular exemplos semelhantes a falhas conhecidas.

O aprendizado ativo pode reduzir custo de rotulagem enquanto melhora a cobertura das fronteiras de decisão.

Supervisão programática (programmatic supervision) e supervisão fraca (weak supervision)

Quando rotulagem manual é cara, equipes usam:

  • regras heurísticas de rotulagem,
  • supervisão distante (distant supervision) (rótulos vindos de outro sistema),
  • múltiplas fontes de rótulos ruidosos combinadas estatisticamente.

Essas abordagens podem inicializar conjuntos de dados rapidamente, seguidas por auditorias humanas direcionadas. (Frequentemente, o objetivo final ainda é ter rótulos de alta qualidade para recortes-chave.)

Projeto de conjunto de dados: tornando a tarefa aprendível e alinhada

A IA centrada em dados trata a construção do conjunto de dados como um projeto intencional.

Decisões-chave de projeto incluem:

  • Taxonomia de rótulos: classes devem ser mutuamente exclusivas se possível e alinhadas com ações posteriores.
  • Diretrizes de anotação: regras concretas + exemplos de casos extremos.
  • Estratégia de particionamento:
    • particionamento por tempo para previsão,
    • particionamento por usuário/grupo para evitar vazamento,
    • particionamento por geografia se houver implantação em regiões não vistas.
  • Representatividade: o conjunto de dados corresponde às condições de produção (iluminação, dispositivos, idiomas)?
  • Contraexemplos: incluir “negativos difíceis (hard negatives)” que quebrem atalhos.

Isso se sobrepõe com Tipos de Problema: classificação, ranqueamento, previsão e predição estruturada têm armadilhas diferentes no projeto de conjuntos de dados.

Validação de dados (data validation) e verificações automatizadas de qualidade

Trate qualidade de dados como algo testável, como código:

  • verificações de esquema (schema checks) (tipos, faixas, categorias permitidas),
  • restrições de dados ausentes (missingness constraints),
  • verificações de unicidade / desduplicação,
  • monitoramento da distribuição de rótulos,
  • detecção de valores atípicos (outlier detection) em atributos numéricos.

Isso se conecta à engenharia de atributos (feature engineering) em Engenharia de Atributos, já que muitos problemas são introduzidos durante pré-processamento e construção de atributos.

Lidando com desbalanceamento e eventos raros (visão centrada em dados)

Além de técnicas algorítmicas, estratégias centradas em dados incluem:

  • coleta direcionada para positivos raros,
  • amostragem estratificada (stratified sampling) com avaliação cuidadosa,
  • melhor amostragem de negativos (negative sampling) (evitar negativos trivialmente fáceis),
  • coletar exemplos de quase acerto (near-miss) (casos no limite).

Para estratégias de modelagem, veja Modelagem de Eventos Raros / Desbalanceados, mas note que melhorias de dados frequentemente dominam na prática.

Fluxo de trabalho prático de ponta a ponta

Um ciclo comum de iteração centrada em dados se parece com isto:

1) Estabeleça uma linha de base e uma avaliação confiável

  • Escolha um modelo de referência razoável (não otimize demais ainda).
  • Garanta que as partições evitem vazamento e reflitam a implantação.
  • Defina métricas e recortes que importam (por exemplo, por região, por tipo de dispositivo).

Essa etapa ancora sua iteração em Avaliação.

2) Faça análise de erros e crie um “backlog de dados”

Faça análise estruturada de erros:

  • Inspecione principais falsos positivos/negativos.
  • Categorize falhas:
    • erro de rótulo,
    • política ambígua,
    • sinal de atributo faltando,
    • entrada fora da distribuição (out-of-distribution),
    • lacuna de cobertura em um recorte.

Transforme cada categoria em ações de dados (um backlog), como:

  • auditar rótulos para o recorte X,
  • adicionar 2.000 exemplos da região Y,
  • refinar diretrizes sobre o caso extremo Z,
  • desduplicar e redividir as partições.

3) Melhore o conjunto de dados (não tudo de uma vez)

Priorize intervenções por:

  • impacto (o quanto o recorte importa),
  • confiança (o quão certo você está de que é um problema de dados),
  • custo (esforço de rotulagem e coleta).

Correções comuns com alto ROI:

  • corrigir problemas sistemáticos de rótulos para pares de classes frequentemente confundidos,
  • remover duplicatas e vazamento,
  • adicionar contraexemplos para quebrar atalhos,
  • aumentar a representatividade de recortes de alto risco.

4) Retreine, reavalie e versione tudo

A IA centrada em dados exige iteração disciplinada:

  • versionar conjuntos de dados (por exemplo, com hashes do conjunto de dados ou ferramentas como DVC),
  • armazenar versões das diretrizes de rotulagem,
  • rastrear o que mudou e por quê,
  • rerodar o mesmo conjunto de avaliações e métricas por recorte.

5) Monitore em produção e atualize o conjunto de dados

Após a implantação:

  • monitore deriva em distribuições de entrada e frequências de recortes,
  • amostre falhas em produção para rotulagem,
  • atualize periodicamente dados de treinamento e rótulos.

Exemplos práticos

Exemplo 1: análise de sentimento com rotulagem inconsistente

Problema: Um classificador rotula incorretamente muitas avaliações que contêm sarcasmo ou sentimento misto.

Diagnóstico centrado em dados:

  • Alta discordância entre anotadores em avaliações “mistas”.
  • Confusão entre “neutro” e “positivo” em reclamações educadas.

Correções centradas em dados:

  • Redesenhar o esquema: adicionar “misto/ambivalente” ou esclarecer que sentimento é “satisfação geral do cliente”.
  • Atualizar diretrizes com exemplos de casos extremos (sarcasmo, “funciona, mas…”).
  • Re-rotular um subconjunto direcionado (auditoria assistida por modelo).
  • Aumentar cobertura: coletar mais exemplos de sentimento misto.

Resultado: A acurácia pode aumentar modestamente, mas o maior ganho é melhor alinhamento com o que os usuários esperam.

Exemplo 2: modelo de visão dependendo de artefatos de fundo

Problema: Um classificador de vida selvagem prevê “lobo” quando há neve, mesmo para cães.

Diagnóstico centrado em dados:

  • Análise por recortes: muitos falsos positivos de “lobo” em imagens de cães na neve.
  • Inspeção mostra lobos de treino majoritariamente na neve; cães majoritariamente em ambientes internos/grama.

Correções centradas em dados:

  • Coletar/rotular cães na neve e lobos sem neve.
  • Adicionar contraexemplos explicitamente projetados para quebrar o atalho.
  • Desduplicar e garantir que treino/teste não compartilhem cenas quase idênticas.

Resultado: A robustez melhora; o modelo aprende características do animal em vez do fundo.

Exemplo 3: detecção de fraude (fraud detection) com eventos raros e padrões em mudança

Problema: Ótima área sob a curva (area under the curve, AUC) offline, baixa taxa de captura em produção para um novo padrão de fraude.

Diagnóstico centrado em dados:

  • O conjunto de treino sub-representa o novo padrão; a avaliação não incluía particionamento por tempo.
  • Rótulos chegam com atraso (chargebacks chegam semanas depois), causando supervisão defasada.

Correções centradas em dados:

  • Usar particionamentos por tempo e monitoramento.
  • Criar um pipeline para preencher rótulos retroativamente e retreinar regularmente.
  • Amostrar ativamente casos borderline para revisão manual e enriquecer positivos.

Resultado: Avaliação mais realista e melhor responsividade à deriva.

Relação com interpretabilidade e ferramentas centradas no modelo

A IA centrada em dados não ignora modelos. Ela frequentemente usa ferramentas baseadas em modelo para melhorar dados:

  • Use importância de atributos (feature importance) e explicações de erro (error explanations) para detectar correlações espúrias (ver Interpretabilidade (Aprendizado de Máquina Clássico)).
  • Teste algumas famílias de modelos razoáveis para garantir que os problemas sejam realmente relacionados a dados (ver Seleção de Modelos).
  • Use vetores de incorporação de modelos pré-treinados para clusterizar dados, encontrar valores atípicos e detectar quase-duplicatas.

Uma regra útil: se múltiplos modelos falham no mesmo recorte, provavelmente é um problema de dados/tarefa. Se apenas um modelo falha, pode ser modelagem.

Riscos, ética e governança

O trabalho centrado em dados deve ser feito de forma responsável:

  • Viés e representatividade: “melhorar cobertura” deve incluir grupos subatendidos, mas também requer avaliação cuidadosa de equidade (fairness evaluation) e participação de stakeholders.
  • Privacidade: coletar mais dados pode aumentar risco de privacidade; prefira minimização, consentimento e controles de acesso fortes.
  • Trabalho de rotulagem: garanta práticas éticas de anotação, políticas claras e compensação adequada.
  • Documentação: mantenha documentação do conjunto de dados (uso pretendido, limitações conhecidas, processo de coleta) para evitar uso indevido.

Principais conclusões

  • IA Centrada em Dados melhora aprendizado de máquina ao melhorar dados: rótulos, cobertura e projeto do conjunto de dados são alavancas de primeira classe.
  • A maioria das falhas no mundo real vem de problemas de rótulo, lacunas de cobertura, vazamento e correlações espúrias, não de falta de capacidade do modelo.
  • O fluxo central é iterativo: linha de base → análise por recortes/erros → melhorias de dados direcionadas → retreinar → avaliação rigorosa.
  • Práticas fortes centradas em dados se combinam naturalmente com Avaliação, Engenharia de Atributos e tratamento robusto de Modelagem de Eventos Raros / Desbalanceados.
  • Quando bem feita, a IA centrada em dados produz sistemas não apenas mais precisos, mas mais confiáveis, sustentáveis e alinhados a requisitos do mundo real.