Pesquisa em Interpretabilidade

A pesquisa em interpretabilidade estuda como e por que modelos de aprendizado de máquina (machine learning) produzem determinados comportamentos, com o objetivo de tornar os modelos mais transparentes, previsíveis e controláveis. À medida que sistemas modernos — especialmente grandes Redes Neurais e modelos fundacionais — crescem em escala e complexidade, a interpretabilidade tornou-se uma fronteira central de pesquisa para depuração, confiabilidade, compreensão científica e segurança em IA (intimamente ligada à Pesquisa de Alinhamento).

A interpretabilidade não é uma única técnica, mas uma família de metodologias que abrange (1) ferramentas de explicação para predições individuais, (2) análise de representações aprendidas e (3) abordagens mecanicistas que visam fazer engenharia reversa dos componentes internos do modelo em partes compreensíveis por humanos.

O que “interpretabilidade” significa (e por que é difícil)

Uma forma útil de enquadrar interpretabilidade é como um mapeamento:

Objeto: um modelo treinado (ou subsistema: camada, neurônio, cabeça de atenção, atributo, módulo)
Pergunta: “O que isso computa?” “Por que ele gerou isso?” “Quando ele falha?”
Explicação: um artefato compreensível por humanos (texto, regras, atributos, grafo causal, exemplos)
Garantia: alguma noção de fidelidade (a explicação reflete a estrutura causal real)

A dificuldade é que modelos modernos são:

Distribuídos: a informação é codificada em muitos parâmetros/ativações, e não em “neurônios” únicos
Não lineares e composicionais: pequenas interações podem importar, e os efeitos podem depender fortemente do contexto
Subespecificados: muitas implementações internas podem ajustar os mesmos dados de treinamento
Super-humanos em algumas sub-habilidades: humanos não têm priors intuitivos para as computações latentes do modelo

Pesquisadores de interpretabilidade frequentemente distinguem:

Transparência / compreensão mecanicista: abrir o modelo e entender as computações internas
Explicação pós-hoc (post-hoc explanation): produzir uma explicação após o fato sem entender completamente os internos
Interpretabilidade funcional (functional interpretability): descrever comportamentos no nível entrada-saída (por exemplo, com testes), mesmo que o mecanismo seja incerto

Objetivos centrais e motivações

Métodos de interpretabilidade são usados para:

Depurar modelos
Encontrar correlações espúrias (por exemplo, fundo “neve” → “lobo”) e heurísticas frágeis.
Avaliar segurança e alinhamento
Detectar engano, objetivos ocultos, suscetibilidade a jailbreak e representações internas problemáticas — importante em research-frontiers/alignment-research e em debates relacionados sobre supervisão escalável.
Apoiar requisitos de implantação
Em domínios regulados, partes interessadas podem exigir explicações (mesmo que imperfeitas), auditorias de modelo e evidências de robustez/justiça.
Avançar a compreensão científica
Tratar redes neurais como objetos de estudo: como as representações se formam, quais primitivas computacionais surgem e como elas escalam (ligado a Leis de Escala e Habilidades Emergentes)?

Uma taxonomia de metodologias de interpretabilidade

Métodos de interpretabilidade são frequentemente agrupados por o que explicam e como explicam:

Local vs. global: explicações para uma predição vs. comportamento geral
Agnóstico ao modelo vs. específico do modelo: funciona para qualquer preditor vs. usa internos (gradientes, ativações)
Pós-hoc vs. intrinsecamente interpretável: explicar após o treinamento vs. projetar modelos para serem interpretáveis por construção
Correlacional vs. causal: isso se correlaciona com a saída, ou a causa?

O restante deste artigo explora direções principais.

Explicações locais pós-hoc (atribuição de atributos e saliência)

Esses métodos respondem: Quais partes da entrada contribuíram mais para esta predição?

Saliência baseada em gradiente

Para modelos diferenciáveis, uma ideia simples é: como a saída mudaria se ajustássemos levemente a entrada? Isso produz mapas de saliência para imagens ou escores de importância de tokens para texto.

Variantes comuns:

Gradientes brutos
Gradiente × entrada
Gradientes Integrados (Integrated Gradients) (reduz problemas de saturação ao integrar gradientes ao longo de um caminho a partir de uma linha de base)
SmoothGrad (média de gradientes sob ruído)

Exemplo prático (PyTorch + Captum, Integrated Gradients):

import torch
from captum.attr import IntegratedGradients

model.eval()
ig = IntegratedGradients(model)

# x: input tensor with requires_grad=True
# target: class index (for classification)
attributions = ig.attribute(x, target=target, baselines=torch.zeros_like(x))

Pontos fortes

Rápido, usa internos do modelo
Pode ser aplicado a muitas arquiteturas (CNNs, Transformers)

Limitações

A saliência pode ser visualmente convincente, mas infiel (sensível a reparametrizações)
A atribuição pode não capturar bem interações entre atributos
Para texto, escores no nível de token podem ser enganosos devido a embeddings contextuais

Atribuição baseada em perturbação

Métodos de perturbação medem como a saída muda quando a entrada é modificada:

Oclusão (mascarar partes de uma imagem)
Leave-one-out para atributos tabulares
Exclusão / substituição de tokens para texto

Eles estão mais diretamente ligados ao comportamento, mas podem ser caros e podem criar entradas fora da distribuição (out-of-distribution) (artefatos de mascaramento).

Métodos de valor de Shapley (SHAP)

SHAP aproxima valores de Shapley da teoria dos jogos cooperativos: atribui “crédito” de forma justa aos atributos com base em contribuições marginais ao longo de subconjuntos.

Prós: base teórica mais forte para atribuições aditivas de atributos
Contras: caro em geral; aproximações dependem de suposições sobre a distribuição de fundo

Modelos substitutos locais e explicações baseadas em exemplos

Substitutos locais no estilo LIME

Explicações Locais Interpretáveis Agnósticas ao Modelo (LIME, Local Interpretable Model-agnostic Explanations) ajusta um modelo interpretável simples (como um modelo linear esparso) em torno de uma vizinhança de um exemplo.

Ideia-chave: aproximar a fronteira de decisão perto do ponto de interesse.

Armadilhas:

A “vizinhança” é escolhida por um processo de perturbação que pode não corresponder aos dados reais
Substitutos podem ser instáveis: pequenas mudanças geram explicações diferentes

Explicações contrafactuais

Contrafactuais respondem: Qual mudança mínima inverteria a decisão?
Exemplo: “Se a renda fosse $5.000 maior (e todo o resto inalterado), o empréstimo seria aprovado.”

São acionáveis e intuitivos, mas exigem restrições cuidadosas:

“Mínimo” depende de uma métrica de distância
Alguns atributos não podem mudar (idade), e algumas mudanças são correlacionadas (renda ↔ emprego)

Contrafactuais se conectam naturalmente à inferência causal: sem um modelo causal, mudanças sugeridas podem ser inviáveis ou enganosas.

Interpretabilidade global e análise de comportamento do modelo

Métodos globais visam entender regras ou estrutura gerais.

Dependência parcial, gráficos ICE e verificações de monotonicidade

São amplamente usados para modelos tabulares:

Gráfico de Dependência Parcial (PDP, Partial Dependence Plot): efeito médio de um atributo
Expectativa Condicional Individual (ICE, Individual Conditional Expectation): efeito por exemplo

Ajudam a encontrar comportamentos indesejáveis (por exemplo, dependência não monotônica quando se espera monotonicidade), mas podem induzir ao erro quando atributos são correlacionados.

Extração de regras e destilação

Você pode tentar destilar um modelo complexo em:

árvores de decisão
listas de regras
modelos lineares esparsos

Isso pode produzir uma aproximação compreensível, mas geralmente troca fidelidade (correspondência ao modelo) por interpretabilidade (simplicidade). A destilação é mais útil quando o modelo destilado é auditado e usado como auxílio de depuração, e não como prova de segurança.

Interpretabilidade baseada em conceitos

Atribuições de atributos dizem “quais pixels/tokens”, mas praticantes frequentemente querem: quais conceitos humanos (listras, rodas, negação, toxicidade, achados médicos) conduziram a decisão?

TCAV e vetores de ativação de conceito

Teste com Vetores de Ativação de Conceito (TCAV, Testing with Concept Activation Vectors) pergunta se ativações internas se alinham com um conjunto de conceitos definido pelo usuário. Você fornece exemplos representando um conceito (por exemplo, “textura listrada”) e contraexemplos aleatórios, treina um separador linear no espaço de ativações e mede a sensibilidade das saídas a essa direção de conceito.

Pontos fortes:

Passa de atributos brutos para conceitos humanos
Pode ser aplicado pós-hoc a redes existentes

Limitações:

Depende da qualidade do conjunto de dados de conceitos
Conceitos podem não ser linearmente separáveis ou podem estar emaranhados
Um escore TCAV positivo é correlacional, a menos que seja combinado com testes causais

Classificadores de sondagem (sondas lineares)

Sondas testam se a informação está presente em representações: treina-se um classificador simples sobre estados ocultos para prever rótulos (tags de POS, profundidade sintática, toxicidade etc.).

Ressalva importante: uma sonda mostrar decodificabilidade não prova que o modelo usa essa informação. Sondagem é melhor quando combinada com intervenções (veja interpretabilidade mecanicista abaixo).

Interpretabilidade mecanicista (engenharia reversa da computação neural)

A interpretabilidade mecanicista visa explicações mais próximas de como o modelo realmente computa, e não apenas do que se correlaciona com as saídas. Essa direção é especialmente proeminente para Transformers e modelos de linguagem grandes (LLMs, large language models), ligada a Arquitetura Transformer.

Circuitos, atributos e superposição

Uma hipótese comum: modelos implementam computações por meio de circuitos — unidades interagentes (cabeças, neurônios de MLP, atributos) que realizam algoritmos específicos (por exemplo, indução, cópia, correspondência de parênteses).

No entanto, um grande obstáculo é a superposição (superposition): modelos frequentemente representam muitos atributos nos mesmos neurônios/dimensões para usar a capacidade limitada de forma eficiente. Isso significa:

Um “neurônio” pode não corresponder a um único conceito
A interpretabilidade pode exigir descobrir uma base de atributos (feature basis) (e não a base original de neurônios)

Uma abordagem popular é aprendizado de dicionário / autoencoders esparsos (dictionary learning / sparse autoencoders) treinados em ativações para recuperar atributos esparsos que sejam mais fáceis de interpretar. A expectativa é que esses atributos correspondam a unidades de computação mais “atômicas” do que dimensões brutas.

Intervenções causais e patching de ativação

Afirmações mecanicistas exigem testes causais: se mudarmos o estado interno X, o comportamento muda como previsto?

O patching de ativação (activation patching) (também chamado de rastreamento causal, causal tracing) normalmente:

Executa o modelo em uma entrada limpa (comportamento correto) e registra ativações
Executa em uma entrada corrompida (comportamento incorreto)
Substitui (“aplica patch”) ativações selecionadas da execução limpa na corrompida e observa se a saída se recupera

Pseudocódigo de alto nível:

def run_with_patch(model, clean_x, corrupt_x, layer, hook_name):
    clean_cache = model.run_and_cache(clean_x)
    def hook_fn(act, context):
        # replace activation at specific site
        act = act.clone()
        act[:, :, :] = clean_cache[hook_name]
        return act

    return model.run_with_hooks(corrupt_x, hooks=[(hook_name, hook_fn)])

Isso sustenta afirmações como: “Esta cabeça de atenção na camada 10 é causalmente responsável por copiar o substantivo sujeito para a decisão de concordância verbal.”

Interpretabilidade de atenção (e seus limites)

Pesos de atenção às vezes são tratados como explicações (“o modelo prestou atenção nestes tokens”). Mas atenção nem sempre é fiel:

Múltiplas cabeças interagem; MLPs posteriores podem dominar
Há transformações após a atenção que podem mudar contribuições

Análise baseada em atenção é útil quando combinada com ablação (zerar uma cabeça) e patching (restaurá-la), transformando mapas de atenção em evidência causal em vez de mera visualização.

Logit lens e leitura de representações em LLMs

Para modelos de linguagem, pesquisadores frequentemente “decodificam” estados intermediários do fluxo residual em distribuições de tokens (uma “logit lens”), revelando como predições evoluem ao longo das camadas.

Casos de uso:

Detectar onde o modelo se compromete com uma resposta
Identificar camadas responsáveis por recordação factual vs. passos semelhantes a raciocínio (relacionado a Raciocínio)

Ressalva: a decodificação intermediária depende da matriz de unembedding e pode não refletir o caminho final de computação do modelo.

Treinar modelos para serem mais interpretáveis (interpretabilidade intrínseca)

Ferramentas pós-hoc explicam um dado modelo; outra direção é projetar modelos que sejam mais fáceis de interpretar.

Abordagens incluem:

Restrições de esparsidade (incentivam ativações/pesos esparsos)
Arquiteturas modulares (mistura de especialistas, mixture-of-experts, com sinais de roteamento interpretáveis)
Redes monotônicas para domínios com relações monotônicas conhecidas
Objetivos de desentrelaçamento (tentam separar fatores de variação)

Na prática, frequentemente há uma troca: restrições podem reduzir desempenho, e “interpretável por design” não garante interpretabilidade sob mudança de distribuição ou pressão adversarial.

Avaliação: como sabemos que uma explicação é boa?

Interpretabilidade precisa de critérios de avaliação, mas “boa” depende do objetivo.

Fidelidade vs. plausibilidade

Plausível: soa bem para humanos
Fiel: corresponde à computação causal real do modelo

Muitos métodos de explicação são plausíveis, mas não fiéis. Em contextos críticos de segurança, fidelidade é a prioridade.

Propriedades quantitativas comuns

Fidelidade: quão bem uma explicação aproxima o comportamento do modelo
Completude: se a explicação responde pela maior parte do poder preditivo
Estabilidade: pequenas mudanças na entrada não deveriam alterar drasticamente explicações (a menos que o comportamento mude)
Sensibilidade: atributos importantes deveriam importar sob intervenção
Suficiência/necessidade: apenas os atributos da explicação deveriam preservar a predição (suficiência); removê-los deveria quebrá-la (necessidade)

Nenhuma métrica única é definitiva; avaliações fortes normalmente combinam múltiplos testes, além de inspeção qualitativa.

Fatores humanos

Mesmo explicações fiéis podem falhar se forem:

complexas demais
enganadoramente confiantes
desalinhadas com modelos mentais do usuário

A pesquisa em interpretabilidade se sobrepõe à IHC (HCI): explicações devem ser calibradas ao público e ao contexto de decisão.

Aplicações práticas

Depuração de correlações espúrias

Exemplo: um classificador prediz “risco de pneumonia”, mas aprende “estilo do rótulo do hospital” como atalho. Mapas de atribuição destacam pixels em cantos ou padrões de metadados, levando a correções no conjunto de dados.

Fluxo de trabalho:

Treinar o modelo
Usar testes de atribuição/perturbação em erros e predições de alta confiança
Formular hipótese de atributo espúrio
Confirmar via edições direcionadas de dados ou aumento contrafactual
Retreinar e reavaliar

Edição de modelo e mitigação direcionada

Se um circuito ou atributo é identificado como responsável por comportamento indesejável (por exemplo, produzir dados privados ou continuações tóxicas), intervenções podem incluir:

ajuste fino (fine-tuning) com dados direcionados
cirurgia de pesos/ativações (experimental)
adicionar filtros em tempo de inferência ou vetores de direcionamento (steering vectors)

Insights mecanicistas podem ajudar a tornar mitigações mais direcionadas, mas isso ainda é uma área de pesquisa em aberto.

Auditorias de segurança para modelos fundacionais

Para modelos de linguagem grandes e Modelos Fundacionais Multimodais, interpretabilidade pode apoiar auditorias ao:

localizar representações internas ligadas a conteúdo que viola políticas
analisar caminhos de jailbreak (quais estados internos se correlacionam com quebra de regras)
monitorar padrões semelhantes a engano (altamente especulativo e difícil)

Como modelos são grandes e comportamentos dependem do contexto, auditorias geralmente combinam interpretabilidade com suítes de avaliação comportamental.

Principais problemas em aberto e fronteiras de pesquisa

Escalar interpretabilidade para modelos de fronteira

Interpretabilidade mecanicista pode demandar muito trabalho mesmo para modelos pequenos. Escalar para LLMs modernos requer:

descoberta automatizada de atributos (por exemplo, dicionários de atributos esparsos)
ferramentas robustas para intervenções em escala
benchmarks que recompensem progresso mecanicista fiel

Superposição e geometria de atributos

Se modelos armazenam muitos atributos em direções compartilhadas, a questão central passa a ser:

Qual é a base de atributos “certa”?
Podemos recuperá-la de forma confiável em diferentes conjuntos de dados, checkpoints e arquiteturas?

Isso se conecta à teoria de aprendizado de representações e pode afetar como a interpretabilidade muda com escala (Leis de Escala).

Interpretabilidade para raciocínio e planejamento

Quando modelos exibem comportamento complexo em múltiplas etapas (ligado a Raciocínio), não está claro se:

o modelo está implementando internamente um procedimento do tipo algorítmico,
ou produzindo saídas via completamento de padrões que apenas parece raciocínio.

Entender mecanismos internos para planejamento, uso de ferramentas e coerência em horizontes longos permanece uma fronteira.

Fundamentação causal e “explicações que generalizam”

Uma explicação que se ajusta à distribuição de hoje pode falhar sob mudança de distribuição. Um grande objetivo é produzir explicações que:

permaneçam válidas sob intervenções,
prevejam falhas,
e apoiem controle robusto.

Isso empurra a interpretabilidade em direção à causalidade, invariâncias e generalização mecanicista.

Conectar interpretabilidade e alinhamento

Interpretabilidade é frequentemente proposta como um caminho para IA mais segura — por exemplo, detectar objetivos desalinhados antes da implantação. Desafios-chave:

representações enganosas ou robustas adversarialmente poderiam evadir ferramentas ingênuas de interpretabilidade
“entender o suficiente para confiar” pode exigir garantias mecanicistas profundas que ainda não sabemos produzir

Por isso, interpretabilidade é frequentemente discutida junto a Pesquisa de Alinhamento e avaliações mais amplas de segurança.

Orientação prática: escolhendo um método

Uma heurística útil:

Se você precisa de depuração rápida: comece com atribuições por gradiente/perturbação e testes contrafactuais.
Se você precisa de explicações voltadas a stakeholders: considere métodos baseados em conceitos (com ressalvas fortes), explicações baseadas em exemplos e comunicação clara de incerteza.
Se você precisa de confiança causal sobre mecanismos internos: use ablações, patching de ativação e análises mecanicistas.
Se você quer compreensão escalável de longo prazo: invista em descoberta de atributos (dicionários esparsos), ferramentas para análise de circuitos e benchmarks projetados em torno de fidelidade.

Na prática, trabalho forte de interpretabilidade raramente é um único método — é um pipeline de investigação que combina hipóteses, medições e testes causais.

Resumo

A pesquisa em interpretabilidade abrange um espectro que vai de explicações pós-hoc (saliência, SHAP, LIME, contrafactuais) a análise de representações (sondas, conceitos) e interpretabilidade mecanicista (circuitos, superposição, patching de ativação). A tensão central do campo é entre explicações que são fáceis de produzir e explicações que são fiéis e causais. À medida que os modelos escalam e ganham capacidades mais amplas — especialmente em LLMs e sistemas multimodais — a interpretabilidade permanece uma fronteira central de pesquisa para confiabilidade, governança e segurança em IA, intimamente entrelaçada com o trabalho em andamento em Pesquisa de Alinhamento, Habilidades Emergentes e Modelos de Mundo.