Explicabilidade/Interpretabilidade

O que significam “Explicabilidade (Explainability)” e “Interpretabilidade (Interpretability)”

Interpretabilidade e explicabilidade são ideias sobrepostas sobre entender e comunicar como um sistema de IA (AI) se comporta.

Interpretabilidade normalmente se refere a quão diretamente uma pessoa consegue compreender a lógica interna ou o processo de decisão de um modelo. Uma regressão linear (linear regression) com poucos atributos (features) costuma ser considerada interpretável porque seus parâmetros têm um significado claro.
Explicabilidade frequentemente se refere a métodos (muitas vezes pós-hoc (post-hoc)) que produzem explicações de comportamento para modelos que não são inerentemente interpretáveis (por exemplo, redes neurais profundas (deep neural networks)). Essas explicações podem ser textuais, visuais ou resumos baseados em atributos.

Em IA Responsável (Responsible AI), o objetivo não é “explicações por si mesmas”, mas interpretar o comportamento do modelo e comunicar limites de forma responsável — para que as partes interessadas entendam:

o que o modelo provavelmente está fazendo,
quando e por que ele falha,
que evidências sustentam suas saídas,
e o que ele não pode garantir.

A interpretabilidade está fortemente conectada ao trabalho em (mas não substitui) Governança, Risco e Conformidade, Equidade e Viés, Robustez e Segurança e Alinhamento e Segurança.

Por que a Explicabilidade importa na prática

A explicabilidade é útil para múltiplos propósitos, às vezes conflitantes:

Depuração e desenvolvimento
- Detectar vazamento de dados (data leakage) (por exemplo, um atributo “CEP” atuando como um rótulo substituto (proxy label)).
- Capturar correlações espúrias (spurious correlations) (por exemplo, pixels de “neve” correlacionando com “lobo”).
- Identificar atributos frágeis que quebram sob mudança de distribuição (distribution shift).
Gestão de risco e accountability
- Apoiar auditorias e investigações de incidentes.
- Fornecer evidências de conformidade em contextos regulados (crédito, saúde, emprego).
- Melhorar a documentação (por exemplo, cartões de modelo (model cards), relatórios de avaliação (evaluation reports)).
Transparência voltada ao usuário
- Ajudar usuários finais a formar uma confiança calibrada (calibrated trust) (não confiança cega).
- Oferecer recurso acionável (actionable) em decisões (por exemplo, por que um empréstimo foi negado e o que poderia mudar).
Entendimento científico
- Entender quais representações um modelo aprende, especialmente em redes profundas e em modelos de linguagem grandes (large language models, LLMs). Isso se conecta a Interpretabilidade Mecanística (Introdução).

Um ponto-chave de IA Responsável: uma explicação não é, por si só, uma garantia de segurança. Um modelo pode gerar uma explicação convincente que está errada, incompleta ou estrategicamente enganosa.

Conceitos e distinções centrais

Modelos inerentemente interpretáveis vs explicações pós-hoc

Modelos inerentemente interpretáveis restringem a forma para que as pessoas os entendam diretamente:

Regressão linear/regressão logística (logistic regression) (com engenharia de atributos (feature engineering) cuidadosa)
Árvores de decisão (decision trees) pequenas
Listas de regras / sistemas de pontuação
Modelos aditivos generalizados (generalized additive models, GAMs), incluindo variantes modernas como Máquinas de Boosting Explicáveis (Explainable Boosting Machines, EBMs)

Métodos pós-hoc explicam o comportamento de um modelo treinado sem alterar o modelo:

Atribuições de atributos (feature attributions) (por exemplo, SHAP, Integrated Gradients)
Modelos substitutos (surrogate models) (treinar um modelo mais simples para imitar predições)
Explicações contrafactuais (counterfactual explanations) (mudanças mínimas para inverter uma decisão)
Explicações baseadas em exemplos (example-based explanations) (protótipos, vizinhos mais próximos (nearest neighbors))

Trade-off: métodos pós-hoc frequentemente oferecem cobertura mais ampla para modelos complexos, mas podem ser menos confiáveis e mais fáceis de interpretar incorretamente.

Explicações globais vs locais

Uma explicação global descreve como o modelo se comporta no geral (por exemplo, “renda e razão dívida/renda são os atributos mais influentes ao longo do conjunto de dados”).

Uma explicação local descreve por que o modelo fez uma predição específica (por exemplo, “esta solicitação foi negada principalmente por causa de alta razão dívida/renda”).

Essa distinção importa porque um método pode ser localmente persuasivo, mas globalmente enganoso (ou vice-versa). Veja Explicações Globais vs Locais para modos de falha comuns e considerações de avaliação.

Fidelidade vs plausibilidade

Fidelidade (faithfulness): a explicação reflete com precisão as verdadeiras razões pelas quais o modelo produziu a saída.
Plausibilidade (plausibility): a explicação soa razoável para humanos.

Elas podem divergir. Em IA Responsável, a fidelidade é a prioridade para segurança e auditoria, enquanto a plausibilidade importa para comunicação — desde que não mascare incerteza ou limitações.

Correlação vs causalidade

A maioria dos métodos de explicabilidade é associativa (associational): descreve padrões na relação entrada-saída do modelo, não efeitos causais no mundo.

Por exemplo: “CEP contribuiu fortemente para a predição” não prova que mudar o CEP de alguém mudaria legitimamente sua capacidade de crédito — especialmente se o CEP for um proxy para atributos protegidos (protected attributes). Conectar explicações a intervenções reais requer raciocínio causal (causal reasoning) e governança cuidadosos.

Métodos comuns de explicação (com notas práticas)

1) Atribuição de atributos (tabular e geral)

Esses métodos atribuem “crédito” a atributos de entrada para uma predição.

Importância por permutação (permutation importance) (global): mede quanto o desempenho cai quando um atributo é embaralhado.
- Prós: simples, agnóstico ao modelo (model-agnostic).
- Contras: quebra em cenários com atributos correlacionados; pode subestimar a importância se atributos forem redundantes.
SHAP (SHapley Additive exPlanations): atribui contribuições com base em valores de Shapley da teoria dos jogos cooperativos.
- Prós: bases teóricas fortes; atribuições aditivas; amplamente usado.
- Contras: custo computacional; depende de suposições sobre independência/coalizões de atributos; pode ser instável com entradas correlacionadas.
LIME: ajusta um modelo substituto simples na vizinhança de um ponto.
- Prós: agnóstico ao modelo; intuitivo.
- Contras: explicações podem variar com escolhas de amostragem; a vizinhança local pode não refletir dados realistas.

Exemplo prático: SHAP para um modelo de árvore (tabular)

import xgboost as xgb
import shap
import pandas as pd

# X_train, X_test are pandas DataFrames; y_train is labels
model = xgb.XGBClassifier(
    n_estimators=300, max_depth=4, learning_rate=0.05, subsample=0.9, colsample_bytree=0.9
)
model.fit(X_train, y_train)

explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# Global view: which features matter overall?
shap.summary_plot(shap_values, X_test)  # beeswarm plot

# Local view: why this single prediction?
i = 0
shap.waterfall_plot(shap.Explanation(values=shap_values[i],
                                     base_values=explainer.expected_value,
                                     data=X_test.iloc[i],
                                     feature_names=X_test.columns))

Dicas para interpretação responsável:

Se os atributos forem correlacionados (por exemplo, “renda” e “faixa de imposto”), as atribuições do SHAP podem ser sensíveis a escolhas de modelagem e à distribuição de referência (background).
Valide explicações com testes de estresse: perturbe atributos, avalie estabilidade e verifique se a atribuição muda de maneiras esperadas.

2) Dependência Parcial (Partial Dependence, PD) e Expectativa Condicional Individual (Individual Conditional Expectation, ICE)

Gráficos de dependência parcial (partial dependence plots, PDPs) mostram como as predições mudam conforme um atributo varia, fazendo a média sobre o conjunto de dados.
Gráficos ICE (ICE plots) mostram isso por exemplo individual.

Prós:

Visualização intuitiva de “e se variarmos X”.

Contras:

Enganoso com atributos correlacionados (variar um atributo mantendo os outros fixos pode criar combinações irreais).
Médias de PDP podem esconder efeitos por subgrupo (importante para Equidade e Viés).

3) Explicações contrafactuais (estilo recurso)

Um contrafactual pergunta: “Qual é a menor mudança na entrada que mudaria a decisão do modelo?”

Exemplo em crédito:

Atual: Negado
Contrafactual: Aprovado se a razão dívida/renda fosse 0,31 em vez de 0,42

Benefícios:

Muitas vezes se alinha a como as pessoas naturalmente pedem explicações (“O que precisaria mudar?”).
Pode apoiar processos de recurso (recourse).

Riscos e ressalvas:

“Menor mudança” depende de uma métrica de distância (distance metric) que pode não corresponder à realidade.
Contrafactuais podem propor ações impossíveis ou antiéticas (por exemplo, “mudar idade”).
Se o modelo for enviesado, contrafactuais podem incorporar ônus injustos entre grupos.

Contrafactuais devem ser acompanhados por política: quais atributos são acionáveis, quais mudanças são viáveis e como explicações são comunicadas.

4) Explicações baseadas em exemplos

Elas explicam apontando para casos similares:

exemplares de k-vizinhos mais próximos
protótipos e críticas
raciocínio baseado em casos em triagem médica (“pacientes passados semelhantes tiveram o desfecho X”)

Prós:

Amigável para humanos, especialmente em domínios em que analogias importam.
Ajuda a detectar lacunas de cobertura dos dados (“não temos exemplos similares”).

Contras:

Métricas de similaridade (similarity metrics) podem ser arbitrárias.
Pode vazar informações sensíveis se exemplos forem específicos demais (risco de privacidade).

5) Explicações para imagens e texto

Abordagens comuns:

Mapas de saliência (saliency maps) (gradientes em relação à entrada)
Gradientes Integrados (Integrated Gradients)
Grad-CAM (para redes neurais convolucionais (CNNs))
Métodos baseados em conceitos (concept-based methods) como TCAV (Testing with Concept Activation Vectors)
Justificativas (rationales) (tokens/segmentos destacados) em processamento de linguagem natural (NLP)

Cuidado principal: muitos métodos de saliência podem produzir mapas visualmente atraentes que não são estáveis nem fiéis. Verificações de sanidade (sanity checks) (por exemplo, aleatorizar pesos do modelo deveria destruir saliência significativa) são importantes.

Para modelos de linguagem grandes, “explicações” são especialmente difíceis:

Um modelo pode gerar uma justificativa fluente que não é a razão causal de sua saída.
Para usos de alto risco, confie em artefatos verificáveis (documentos recuperados, logs de ferramentas, checagens determinísticas) em vez de justificativas livres.

Avaliando a qualidade das explicações

Não existe uma única métrica melhor, mas uma prática robusta usa múltiplas verificações alinhadas ao caso de uso.

Testes de fidelidade e perturbação

A explicação acompanha mudanças na predição?

Testes de remoção/inserção (deletion/insertion) (comuns em visão): remova os atributos mais “importantes” e veja se a confiança cai.
Testes de ablação (ablation): mascarar tokens, embaralhar atributos ou substituí-los por valores plausíveis e medir a mudança.
Medidas de infidelidade/sensibilidade (infidelity/sensitivity): quantificam se atribuições predizem mudanças de saída sob perturbações.

Estabilidade e consistência

Se duas entradas são muito semelhantes, explicações não deveriam diferir drasticamente (a menos que a fronteira de decisão (decision boundary) seja genuinamente aguda).

Verifique a variância da explicação ao longo de sementes (seeds), escolhas de amostragem (LIME) ou conjuntos de referência (SHAP).
Avalie robustez a pequeno ruído e transformações benignas.

Ground truth (quando disponível)

Em algumas tarefas, é possível construir conjuntos de dados com justificativas conhecidas (por exemplo, tarefas sintéticas) ou usar anotações de domínio. Tenha cautela: justificativas humanas podem refletir o que deveria importar, não o que o modelo de fato usou.

Fatores humanos

Se explicações são usadas por pessoas:

teste se elas melhoram a qualidade das decisões,
meça excesso de confiança ou falta de confiança,
avalie se elas causam viés de automação (automation bias) (“o modelo disse, então eu concordo”).

Comunicando limites de forma responsável

Explicabilidade é tanto sobre comunicação quanto sobre algoritmos. Comunicação responsável normalmente inclui:

1) Escopo e uso pretendido

Declare:

em quais populações e cenários o modelo foi avaliado,
para o que ele não deve ser usado,
quais entradas ele espera.

Isso se alinha a práticas mais amplas de documentação em Governança, Risco e Conformidade.

2) Incerteza e calibração

Uma “explicação confiante” é perigosa se o modelo for mal calibrado.

Forneça estimativas de confiança/incerteza quando possível.
Comunique quando o modelo está extrapolando ou fora da distribuição (out-of-distribution).
Considere adiar para humanos ou sistemas de contingência (fallback systems) em casos de baixa confiança (um padrão comum de Alinhamento e Segurança).

3) Modos de falha conhecidos e resultados de testes de estresse

Não apresente apenas explicações em cenários ideais. Inclua:

desempenho por subgrupo e contexto (Equidade e Viés),
checagens de robustez contra perturbações/condições adversariais (Robustez e Segurança),
exemplos de erros sistemáticos.

4) “Explicação não é igual a justificativa”

Especialmente em contextos de alto risco, deixe claro:

Uma explicação descreve o comportamento do modelo; ela não implica que a decisão é justa, ética ou juridicamente defensável.
Se o modelo usa proxies para atributos sensíveis, isso deve ser tratado diretamente via controles de equidade e governança, não apenas explicado.

5) Considerações de privacidade e segurança

Explicações podem vazar informações:

Atribuições de atributos podem revelar correlações sensíveis.
Explicações baseadas em exemplos podem vazar exemplos de treinamento.
Artefatos de depuração de modelo podem expor lógica proprietária.

Considere a modelagem de ameaças (threat modeling) das explicações como parte da superfície de ataque (attack surface) do sistema (Robustez e Segurança).

Padrões práticos para usar explicabilidade em sistemas reais

Padrão A: Pipeline de depuração para aprendizado de máquina tabular (tabular ML)

Comece com importância global de atributos (permutação + resumo SHAP).
Use PDP/ICE para os principais atributos e interações suspeitas.
Inspecione explicações locais para uma amostra estratificada (incluindo erros).
Execute checagens de estabilidade (sementes diferentes, conjuntos de referência, divisões treino-teste).
Faça auditorias de dados direcionadas (vazamento de rótulo, proxies, padrões de ausência).

Padrão B: Suporte a decisões de alto risco

Prefira modelos inerentemente interpretáveis se o desempenho for suficiente.
Se usar modelos complexos, combine com:
- monitoramento forte,
- supervisão humana,
- políticas de recurso/contrafactuais,
- limites claros de “não usar” (do not use).
Forneça explicações voltadas ao usuário que sejam:
- contrastivas (contrastive) (“Negado por causa de X; precisaria de Y”),
- acionáveis quando apropriado,
- cuidadosas quanto à incerteza e limitações.

Padrão C: Aplicações de LLMs (chatbots, assistentes)

Para modelos de linguagem grandes, explicações de “por quê” frequentemente não são confiáveis. Abordagens mais responsáveis incluem:

Ancoragem (grounding): mostrar fontes recuperadas em sistemas de geração aumentada por recuperação (retrieval-augmented generation, RAG) e citá-las.
Transparência de ferramentas (tool transparency): mostrar chamadas de ferramenta (tool calls), parâmetros e saídas.
Avaliações comportamentais (behavioral evals): medir comportamento de recusa (refusal behavior), taxas de alucinação (hallucination rates) e conformidade com políticas de segurança (safety policy compliance) em vez de confiar em justificativas verbais.
Pesquisa mecanística (mechanistic research) (quando necessário): conecte com Interpretabilidade Mecanística (Introdução) para investigação mais profunda de representações internas.

Armadilhas comuns e anti-padrões

Tratar importância de atributos como causalidade: “O atributo X é importante” não significa que mudar X muda o resultado no mundo real.
Confiar demais em um único método: diferentes explicadores podem discordar; triangule.
Explicar o objeto errado: explicar uma pontuação de probabilidade quando o sistema na verdade aplica um limiar (thresholds) e regras de negócio (business rules).
Ignorar interações: listas de “principais atributos” podem não captar que o modelo depende de combinações de atributos.
Selecionar explicações convenientemente (cherry-picking): mostrar apenas exemplos “bonitos” mina a transparência.
Assumir que atenção é explicação: pesos de atenção (attention weights) podem ser informativos, mas não são garantidos como explicações fiéis do raciocínio do modelo em modelos de Arquitetura Transformer.

Relação com Interpretabilidade Mecanística

A explicabilidade tradicional frequentemente trata o modelo como uma caixa-preta (black box) e explica o comportamento entrada-saída. Interpretabilidade mecanística (mechanistic interpretability) busca entender redes neurais analisando computações internas (atributos, circuitos, representações). Isso é promissor para entendimento profundo e segurança, mas ainda é uma área em desenvolvimento com questões de pesquisa em aberto. Para um ponto de entrada, veja Interpretabilidade Mecanística (Introdução).

Desafios em aberto e fronteiras de pesquisa

Explicações confiáveis sob correlação entre atributos: tornar atribuições robustas e significativas quando atributos estão emaranhados.
Padrões de avaliação: desenvolver benchmarks de explicação que meçam fidelidade e resultados humanos sem simplificar demais.
“Explicações” de LLMs vs confabulações: distinguir causas internas reais de narrativas pós-hoc.
Sistemas multimodais (multimodal systems): explicar modelos que combinam texto, imagens, áudio e ferramentas.
Alinhamento regulatório (regulatory alignment): mapear explicabilidade técnica a requisitos legais (que podem exigir formas específicas de transparência e recurso).
Interpretabilidade escalável (scalable interpretability): explicações que permanecem úteis à medida que modelos crescem em tamanho e complexidade.

Resumo

Explicabilidade/interpretabilidade em IA Responsável trata de entender o comportamento do modelo e comunicar limites de forma responsável, não de produzir histórias convincentes. Uma prática eficaz combina:

escolhas apropriadas de modelo (interpretável quando viável),
métodos pós-hoc robustos (usados com cuidado),
validação empírica de explicações (fidelidade, estabilidade, testes de estresse),
e comunicação clara de incerteza, escopo e modos de falha.

Quando bem usada, a interpretabilidade apoia depuração, governança, equidade, robustez e implantação mais segura. Quando mal usada, pode criar falsa confiança — portanto, métodos de explicação devem ser tratados como evidência a ser testada, não verdade a ser presumida.