Métricas de Equidade

O que são métricas de equidade?

Métricas de equidade (fairness metrics) são definições quantitativas usadas para avaliar se um sistema de IA/aprendizado de máquina (AI/ML) trata diferentes pessoas ou grupos de forma “justa”. Elas são mais frequentemente aplicadas a sistemas de classificação (classification) que tomam decisões como:

  • aprovar/negar um empréstimo
  • convidar/não convidar um candidato para entrevista
  • sinalizar/não sinalizar uma transação como fraude
  • recomendar/não recomendar uma intervenção na área da saúde

Equidade não é uma propriedade única: ela depende de contexto, valores, exigências legais e a fonte de dano que você quer evitar. Como resultado, existem muitas métricas — e, de forma importante, algumas das definições mais comuns não podem ser satisfeitas todas ao mesmo tempo.

Este artigo foca em métricas de equidade amplamente usadas e explica por que definições de equidade podem entrar em conflito em sistemas reais.

Relacionado: vieses podem entrar em múltiplos pontos do pipeline (pipeline) — veja Viés em Dados vs Viés em Modelos.

Preliminares: o cenário que a maioria das métricas de equidade assume

A maioria das métricas de equidade é definida para um cenário como este:

  • Cada exemplo tem características (X), um atributo protegido (protected attribute) (A) (por exemplo, raça, gênero) e um rótulo verdadeiro (true label) (Y \in {0,1}) (por exemplo, se irá pagar o empréstimo).
  • Um modelo produz como saída:
    • um escore (score) (S \in [0,1]) (probabilidade estimada), ou
    • uma decisão (decision) (\hat{Y} \in {0,1}) por limiarização (thresholding) do escore.

Muitas métricas de equidade comparam taxas de erro ou resultados entre grupos definidos por (A), como (A=\text{Grupo 0}) e (A=\text{Grupo 1}).

Quantidades da matriz de confusão por grupo

Para cada grupo (g), você pode calcular:

  • TPR (taxa de verdadeiros positivos (true positive rate) / revocação (recall)): (P(\hat{Y}=1 \mid Y=1, A=g))
  • FPR (taxa de falsos positivos (false positive rate)): (P(\hat{Y}=1 \mid Y=0, A=g))
  • FNR (taxa de falsos negativos (false negative rate)): (P(\hat{Y}=0 \mid Y=1, A=g))
  • TNR (taxa de verdadeiros negativos (true negative rate)): (P(\hat{Y}=0 \mid Y=0, A=g))
  • PPV (valor preditivo positivo (positive predictive value) / precisão (precision)): (P(Y=1 \mid \hat{Y}=1, A=g))
  • NPV: (P(Y=0 \mid \hat{Y}=0, A=g))
  • Taxa de seleção (selection rate) (taxa de positivos previstos): (P(\hat{Y}=1 \mid A=g))
  • Taxa base (base rate) (prevalência (prevalence)): (P(Y=1 \mid A=g))

Um fato-chave que impulsiona muitos conflitos: se as taxas base diferirem entre grupos, então igualar certas taxas entre grupos se torna matematicamente incompatível, exceto em casos especiais (por exemplo, predição perfeita).

Um mapa de noções de equidade (visão geral)

Métricas de equidade tipicamente se encaixam em três famílias:

  1. Equidade de grupo (group fairness): compara resultados/erros agregados entre grupos (a mais comum na prática).
  2. Equidade individual (individual fairness): “indivíduos semelhantes devem ser tratados de forma semelhante”, exigindo uma noção de similaridade.
  3. Equidade causal/contrafactual (causal / counterfactual fairness): compara resultados em mundos hipotéticos onde o atributo protegido de uma pessoa fosse diferente, mas todo o resto relevante permanecesse o mesmo.

A maioria dos painéis de equidade em produção começa com métricas de equidade de grupo porque elas são relativamente fáceis de computar e auditar, mas não são suficientes por si só.

Métricas comuns de equidade de grupo

Paridade demográfica (paridade estatística)

Definição: um modelo satisfaz paridade demográfica (demographic parity) se as taxas de seleção forem iguais entre grupos:

[ P(\hat{Y}=1 \mid A=g_1) = P(\hat{Y}=1 \mid A=g_2) ]

Interpretação: os grupos recebem decisões positivas na mesma taxa.

Onde é usada: etapas de funil de contratação, elegibilidade para bolsas, direcionamento de outreach, ou qualquer cenário onde a própria decisão é o principal recurso sendo alocado.

Limitações:

  • Pode forçar seleção igual mesmo quando os grupos diferem na distribuição do rótulo verdadeiro devido a fatores estruturais.
  • Pode aumentar erros para alguns grupos se as taxas base diferirem.
  • Não restringe diretamente tipos de erro (falsos positivos/falsos negativos).

Impacto díspar (a “regra dos 80%”)

Uma variante comum voltada à conformidade reporta a razão:

[ \frac{P(\hat{Y}=1 \mid A=\text{minoria})}{P(\hat{Y}=1 \mid A=\text{maioria})} ]

Um limiar heurístico como 0,8 às vezes é usado em contextos de emprego (dependente da jurisdição; não é um padrão universal).

Chances equalizadas

Definição: um classificador satisfaz chances equalizadas (equalized odds) se tanto a TPR quanto a FPR forem iguais entre grupos:

[ P(\hat{Y}=1 \mid Y=y, A=g_1) = P(\hat{Y}=1 \mid Y=y, A=g_2) \quad \text{para } y \in {0,1} ]

Equivalentemente:

  • paridade de TPR (revocação igual) e
  • paridade de FPR

Interpretação: condicionado ao resultado verdadeiro, o modelo erra na mesma taxa entre grupos.

Onde é usada: decisões de alto impacto onde erros são danos e você quer paridade nas taxas de erro, por exemplo, avaliação de risco na justiça criminal, sinalizações de detecção de fraude, ou triagem médica.

Limitações:

  • Pode exigir limiares específicos por grupo ou decisões aleatorizadas, o que pode ser sensível do ponto de vista operacional ou legal.
  • Não garante taxas de seleção iguais.
  • Depende de rótulos (Y) confiáveis; se (Y) for enviesado, equalizar taxas de erro em relação a (Y) pode reproduzir esse viés.

Igualdade de oportunidades

Definição: uma versão relaxada de chances equalizadas que equaliza apenas a TPR:

[ P(\hat{Y}=1 \mid Y=1, A=g_1) = P(\hat{Y}=1 \mid Y=1, A=g_2) ]

Interpretação: entre aqueles que realmente se qualificam (por exemplo, irão pagar), os grupos têm a mesma probabilidade de receber a decisão positiva.

Onde é usada: contextos de crédito/contratação onde falsos negativos (negar candidatos qualificados) são considerados particularmente danosos.

Limitações: não restringe a FPR, então um grupo pode receber mais falsos positivos (o que pode importar se falsos positivos forem custosos para outras pessoas).

Paridade preditiva (paridade de precisão)

Definição: a PPV é igual entre grupos:

[ P(Y=1 \mid \hat{Y}=1, A=g_1) = P(Y=1 \mid \hat{Y}=1, A=g_2) ]

Interpretação: uma decisão positiva tem o mesmo “significado” entre grupos — por exemplo, se você aprova um empréstimo, o risco de inadimplência entre os aprovados é igual entre grupos.

Onde é usada: cenários em que a alocação de recursos depende do risco de falha e as partes interessadas se importam com a confiabilidade de decisões positivas (crédito, seguros, alguns programas de triagem médica).

Limitações: pode entrar em forte conflito com chances equalizadas quando as taxas base diferem (explicado abaixo).

Calibração dentro dos grupos

Definição: um escore probabilístico (S) é calibrado dentro dos grupos (calibration within groups) se, para cada grupo (g):

[ P(Y=1 \mid S=s, A=g) = s \quad \text{(aproximadamente)} ]

Interpretação: se o modelo produz 0,7 para um grupo, então cerca de 70% desses indivíduos naquele grupo realmente têm (Y=1).

Por que importa: calibração é crucial para tomada de decisão baseada em limiares de risco, análise de custo-benefício e interpretação humana a jusante.

Limitações:

  • Calibração trata de probabilidades, não de decisões; você pode estar perfeitamente calibrado e ainda ter grandes disparidades em seleção ou taxas de erro.
  • Calibração mais taxas base diferentes frequentemente implica que você não consegue também equalizar certas taxas de erro com uma política de limiar único.

Conceito relacionado: Calibração de Modelos.

Balanceamento de taxas de erro (paridade de acurácia, paridade de erro balanceado)

Algumas equipes reportam:

  • Paridade de acurácia: (P(\hat{Y}=Y \mid A=g)) igual entre grupos
  • Paridade de taxa de erro balanceada: média de FPR e FNR igual entre grupos

Essas métricas podem ser úteis como diagnósticos, mas muitas vezes são insuficientes: você pode ter acurácia igual enquanto um grupo sofre principalmente falsos negativos e outro sofre principalmente falsos positivos.

Igualdade de tratamento

Uma métrica menos comum, mas às vezes citada, exige que razões como FNR/FPR coincidam entre grupos. Em geral, é mais difícil justificar diretamente em termos de produto do que paridade de TPR/FPR.

Paridade demográfica condicional

Às vezes, a paridade demográfica é imposta após condicionar em fatores “legítimos” (L) (por exemplo, nível do cargo, geografia, experiência prévia):

[ P(\hat{Y}=1 \mid A, L) \text{ é independente de } A ]

Isso tenta evitar forçar paridade entre grupos quando diferenças são atribuíveis a fatores relacionados ao trabalho acordados como relevantes. A dificuldade é decidir quais fatores são “legítimos”, porque muitas características podem ser proxies para atributos protegidos.

Métricas de equidade individual e causal (breves, mas importantes)

Equidade individual

Ideia: indivíduos semelhantes devem receber resultados semelhantes.

Uma formalização comum exige uma métrica de distância (distance metric) (d(x_i, x_j)) tal que:

[ |\hat{f}(x_i) - \hat{f}(x_j)| \leq K \cdot d(x_i, x_j) ]

Desafio: definir uma métrica de similaridade que seja eticamente e socialmente defensável costuma ser a parte mais difícil.

Equidade contrafactual (causal)

Ideia: uma decisão é justa se ela seria a mesma em um mundo contrafactual onde o atributo protegido da pessoa fosse diferente, mantendo fatores latentes apropriados constantes.

Isso requer um modelo causal (causal model) e suposições sobre o que significa “mudar” um atributo protegido sem mudar tudo a jusante. É poderoso, mas complexo e carregado de suposições.

Relacionado: Inferência Causal.

Por que definições de equidade podem entrar em conflito

A razão central pela qual muitas métricas entram em conflito é que elas condicionam em variáveis diferentes:

  • Paridade demográfica condiciona em (A)
  • Chances equalizadas condicionam em ((Y, A))
  • Paridade preditiva condiciona em ((\hat{Y}, A))
  • Calibração condiciona em ((S, A))

Quando grupos têm taxas base diferentes (P(Y=1 \mid A=g)), essas relações condicionais geralmente não podem todas valer simultaneamente.

A impossibilidade clássica: calibração vs chances equalizadas (com taxas base diferentes)

Se:

  • os grupos têm prevalências diferentes (P(Y=1 \mid A=g)), e
  • o modelo não é perfeito (há alguma sobreposição nas distribuições de escores para (Y=0) e (Y=1)),

então, tipicamente, você não consegue ter ao mesmo tempo:

  • calibração dentro dos grupos, e
  • chances equalizadas (TPR e FPR iguais)

para um classificador determinístico baseado em limiar.

Intuição:

  • Calibração insiste que um dado escore signifique a mesma probabilidade dentro de cada grupo.
  • Chances equalizadas insistem que, dado o rótulo verdadeiro, o comportamento de decisão seja o mesmo entre grupos.
  • Com taxas base diferentes, essas restrições “puxam” as distribuições de escores em direções incompatíveis, a menos que o modelo separe as classes perfeitamente.

Um exemplo prático: aprovação de empréstimo com taxas base diferentes

Suponha que (Y=1) signifique “vai pagar”. Dois grupos têm prevalências de pagamento diferentes devido a fatores históricos e estruturais:

  • Grupo A: (P(Y=1 \mid A)=0.8)
  • Grupo B: (P(Y=1 \mid B)=0.6)

Você treina um modelo calibrado que produz escores de risco (probabilidade de pagamento). Você escolhe um único limiar de aprovação (t=0.7).

O que tende a acontecer:

  • Taxas de seleção diferem porque as distribuições de escores diferem.
  • FPR e FNR diferem porque o mesmo limiar corta a distribuição de escores de cada grupo de forma diferente.
  • Se você tentar “consertar” isso ajustando limiares por grupo para equalizar a TPR (igualdade de oportunidades), você frequentemente mudará PPV e taxas de seleção.

Então você enfrenta trade-offs (tradeoffs):

  • Se você impõe igualdade de oportunidades (TPR igual), pode precisar de um limiar mais baixo para o grupo em desvantagem para evitar negar candidatos qualificados — isso pode aumentar a FPR ou mudar a PPV.
  • Se você impõe paridade preditiva (PPV igual), pode acabar negando mais candidatos do grupo com menor taxa base para manter o risco de inadimplência entre aprovados igual — isso pode aumentar a FNR para esse grupo.
  • Se você impõe paridade demográfica, pode aprovar frações iguais, mas com composições de erro diferentes, dependendo das taxas base e da qualidade do modelo.

Outro conflito: paridade demográfica vs “usar toda a informação preditiva”

Se um atributo protegido (ou seus proxies) estiver estatisticamente relacionado a (Y), então exigir paridade demográfica pode forçar o modelo a ignorar alguns sinais preditivos ou a compensá-los. Isso pode ser desejável (para prevenir discriminação) ou indesejável (se aumentar o dano por decisões piores). Por isso, muitas equipes evitam tratar paridade demográfica como um objetivo universal e, em vez disso, vinculam a escolha da métrica a um modelo de dano e a restrições de política.

A limiarização torna os conflitos mais visíveis

Muitos objetivos de equidade são alcançáveis no nível de escore mas falham no nível de decisão (ou vice-versa). Por exemplo:

  • Um modelo pode ser bem calibrado como escore.
  • Mas, ao impor um único limiar, você induz disparidades entre grupos em TPR/FPR se as distribuições de escores diferirem.

Isso também explica por que técnicas de pós-processamento (post-processing) (por exemplo, limiares específicos por grupo) podem mover você ao longo de uma “fronteira de equidade (fairness frontier)”, melhorando uma métrica ao custo de outra.

Relacionado conceitualmente: Curva ROC.

Como escolher métricas de equidade na prática

Escolher métricas é uma decisão de produto e política, não apenas de modelagem. Um fluxo de trabalho prático:

  1. Defina danos e partes interessadas

    • Quem é prejudicado por falsos positivos vs falsos negativos?
    • Há danos de transbordamento para terceiros?
  2. Entenda o contexto da decisão

    • A decisão está alocando um benefício escasso (empréstimos, entrevistas)?
    • Está disparando investigação/punição (sinalizações de fraude, policiamento)?
    • Está priorizando cuidado (triagem)?
  3. Mapeie para métricas candidatas

    • Se negar pessoas qualificadas é o dano central: considere igualdade de oportunidades (paridade de TPR).
    • Se intervenções desnecessárias são o dano central: considere paridade de FPR ou chances equalizadas completas.
    • Se o significado de um escore deve ser consistente: considere calibração.
    • Se acesso igual é exigido: considere paridade demográfica / paridade de taxa de seleção.
  4. Decida quais trade-offs são aceitáveis

    • Muitas equipes reportam múltiplas métricas e documentam explicitamente quais são priorizadas e por quê.
  5. Valide contra restrições do mundo real

    • Exigências legais variam por jurisdição e domínio.
    • Restrições operacionais: limiares específicos por grupo são permitidos ou aceitáveis?

Não esqueça dados e rótulos

Métricas de equidade assumem que (Y) é a verdade de referência, mas rótulos podem codificar viés (por exemplo, registros de prisão como proxy para crime). Nesses casos:

  • Equalizar taxas de erro em relação a (Y) pode equalizar erros em relação a um alvo enviesado.
  • Você pode precisar de melhor mensuração, alvos alternativos ou abordagens causais.

Veja Viés em Dados vs Viés em Modelos.

Computando métricas de equidade (exemplo)

Abaixo está um snippet mínimo ilustrativo para métricas de classificação binária por grupo. Em auditorias reais, você também quer intervalos de confiança, grupos interseccionais e tratamento cuidadoso de atributos protegidos ausentes.

import numpy as np

def group_metrics(y_true, y_pred, group):
    metrics = {}
    for g in np.unique(group):
        idx = (group == g)
        yt, yp = y_true[idx], y_pred[idx]

        tp = np.sum((yp == 1) & (yt == 1))
        fp = np.sum((yp == 1) & (yt == 0))
        tn = np.sum((yp == 0) & (yt == 0))
        fn = np.sum((yp == 0) & (yt == 1))

        tpr = tp / (tp + fn) if (tp + fn) else np.nan
        fpr = fp / (fp + tn) if (fp + tn) else np.nan
        ppv = tp / (tp + fp) if (tp + fp) else np.nan
        sel = np.mean(yp == 1)

        metrics[g] = {"TPR": tpr, "FPR": fpr, "PPV": ppv, "SelectionRate": sel}
    return metrics

Na prática, também compute:

  • diferenças (por exemplo, gap de TPR) e razões (por exemplo, razão de impacto díspar)
  • incerteza (intervalos de confiança por bootstrap (bootstrap confidence intervals))
  • métricas ao longo do tempo (monitoramento de deriva (drift))

Armadilhas práticas e modos de falha

“Gerrymandering de equidade” e interseccionalidade

Um modelo pode parecer justo em grupos amplos (por exemplo, homens vs mulheres), mas ser injusto em interseções (por exemplo, mulheres negras). Sempre avalie em recortes interseccionais quando os dados permitirem, gerenciando variância e risco de privacidade.

Paradoxo de Simpson e efeitos de agregação

Uma métrica pode melhorar no geral enquanto piora dentro de subgrupos (ou vice-versa). Estratifique por covariáveis relevantes (região, tipo de produto, severidade) quando apropriado.

Métricas podem ser satisfeitas de formas prejudiciais

Um sistema pode satisfazer paridade demográfica reduzindo resultados para todos (por exemplo, diminuindo aprovações em geral), o que pode não ser socialmente benéfico. Métricas devem ser acompanhadas de análise de utilidade e dano.

Mudança de distribuição quebra garantias de equidade

Equidade medida nos dados do último trimestre pode não se manter após mudanças de política, mudanças econômicas ou atualizações do produto. Monitoramento contínuo importa.

Disponibilidade do atributo protegido e restrições de privacidade

Frequentemente você precisa de atributos protegidos para medir equidade, mas coletá-los pode levantar preocupações de privacidade, segurança e legais. Algumas organizações usam autodeclaração voluntária, enclaves seguros ou abordagens de mensuração com preservação de privacidade.

Relacionado: Privacidade Diferencial.

Juntando tudo: um padrão pragmático de reporte

Uma abordagem comum e defensável é reportar um pequeno painel de métricas em vez de um único número:

  • Taxa de seleção + razão de impacto díspar (acesso)
  • Gaps de TPR e FPR (danos por erro)
  • Gap de PPV (significado de decisões positivas)
  • Curvas de calibração por grupo (interpretabilidade de risco)
  • Detalhamento por grupos interseccionais quando possível

Depois documente explicitamente:

  • quais métricas são objetivos vs diagnósticos
  • quais trade-offs foram feitos e por quê
  • como limiares/políticas foram escolhidos
  • limitações conhecidas (viés de rótulo, ausência de dados, tamanhos de amostra pequenos)

Resumo

  • Métricas de equidade formalizam diferentes ideias de equidade: resultados iguais, igualdade de oportunidades, taxas de erro iguais, significado igual das predições, ou invariância contrafactual.
  • As métricas de grupo mais comuns incluem paridade demográfica, chances equalizadas, igualdade de oportunidades, paridade preditiva e calibração.
  • Definições de equidade podem entrar em conflito, especialmente quando grupos têm taxas base diferentes e o modelo é imperfeito — tornando impossível satisfazer simultaneamente todas as propriedades desejáveis.
  • Na prática, a seleção de métricas deve ser guiada por danos, partes interessadas e restrições de política, e sustentada por análise transparente de trade-offs, atenção cuidadosa a dados/rótulos e monitoramento contínuo.