Interpretabilidade Mecanicista (Introdução)

O que significa “interpretabilidade mecanicista”

Interpretabilidade mecanicista (mechanistic interpretability) é o programa de pesquisa de compreender uma rede neural por meio de engenharia reversa de como ela computa — identificando as representações internas que ela aprende (características) e os circuitos (conjuntos de componentes que interagem) que implementam algoritmos ou comportamentos específicos.

Enquanto muitos métodos de interpretabilidade tratam um modelo como uma caixa-preta e explicam saídas a posteriori, a interpretabilidade mecanicista tenta abrir a caixa e responder a perguntas como:

Quais componentes internos representam um conceito (por exemplo, “negação”, “um colchete de fechamento”, “o nome de uma pessoa”)?
Como esses componentes são combinados em circuitos que implementam comportamentos (por exemplo, “acompanhar concordância de número entre sujeito e verbo”, “copiar um token de antes no prompt”)?
Quais computações são causais para um comportamento, em vez de meramente correlacionadas?

A interpretabilidade mecanicista é mais desenvolvida para modelos de aprendizado profundo (deep learning), como Redes Neurais, especialmente modelos de linguagem baseados na Arquitetura Transformer, porque sua estrutura modular (cabeças de atenção, camadas MLP, fluxo residual) torna intervenções direcionadas e análise de circuitos mais tratáveis.

Como ela se encaixa em explicabilidade e IA responsável

Na família “Explicabilidade/Interpretabilidade”, a interpretabilidade mecanicista complementa abordagens mais comuns como mapas de saliência, aproximações ao estilo LIME/SHAP e explicações contrafactuais. Uma forma útil de posicioná-la é:

Explicações locais: Por que o modelo fez isto em esta entrada?
Explicações globais: Que padrões o modelo geralmente usa e quais são seus modos gerais de falha?

A interpretabilidade mecanicista pode apoiar ambas, mas frequentemente busca compreensão global e mecanicista: identificar circuitos reutilizáveis que generalizam por muitas entradas e tarefas. Isso se conecta diretamente a preocupações de segurança e responsabilização em IA Responsável: se você consegue identificar circuitos responsáveis por engano, uso inseguro de ferramentas ou heurísticas enviesadas, potencialmente consegue medir, monitorar e intervir com mais confiabilidade do que com verificações baseadas apenas nas saídas.

Para enquadramento conceitual, veja Explicações Globais vs Locais.

Ideias centrais e vocabulário

Características (representações)

Uma característica é uma direção no espaço de ativações que corresponde a alguma propriedade da entrada ou a uma computação intermediária. Na prática, características podem representar:

Um conceito semântico (“é nome de cidade”)
Um papel sintático (“este token está dentro de parênteses”)
Uma variável latente útil para predição (“tópico: esportes”)
Um estado de computação (“estamos atualmente copiando o token i”)

A interpretabilidade mecanicista frequentemente tenta encontrar características que sejam:

Interpretáveis por humanos (podemos descrevê-las)
Causalmente relevantes (alterá-las altera o comportamento)
Componíveis (características interagem para construir comportamentos de nível mais alto)

Circuitos

Um circuito é um conjunto de componentes do modelo (por exemplo, cabeças de atenção específicas, neurônios de MLP e direções no fluxo residual) que coletivamente implementam uma função.

A análise de circuitos normalmente envolve:

Identificar componentes candidatos correlacionados com um comportamento
Testar necessidade/suficiência causal via intervenções (ablação, patching)
Interpretar os papéis de cada parte (por exemplo, “a cabeça A escreve um sinal, a cabeça B o lê”)

Polissemia e superposição

Redes neurais frequentemente reutilizam os mesmos parâmetros para representar muitas características ao mesmo tempo. Dois conceitos importantes:

Neurônios polissemânticos: um único neurônio pode responder a múltiplos padrões não relacionados dependendo do contexto.
Superposição (superposition): muitas características podem ser “empacotadas” em um número menor de dimensões, tornando enganoso interpretar neurônios individuais como conceitos únicos.

Esta é uma razão pela qual a interpretabilidade mecanicista moderna frequentemente se concentra em direções de características (subespaços) descobertas por métodos como autoencoders esparsos, em vez de “neurônio = conceito”.

Intervenções causais vs análise correlacional

Um princípio central é: correlação não é explicação. Se uma cabeça “acende” para negação, isso não significa que ela cause o tratamento correto de negação.

A interpretabilidade mecanicista se apoia fortemente em testes causais, inspirados por ideias de Inferência Causal:

Ablação (ablation): remover ou randomizar um componente e ver o que quebra.
Patching de ativação (activation patching): substituir ativações de uma execução “limpa” em uma execução “corrompida” (ou vice-versa) para localizar onde a informação é usada.
Direcionamento por características (feature steering): adicionar uma direção de característica para ver se o comportamento muda de forma previsível.

Por que as pessoas fazem interpretabilidade mecanicista

1) Depuração e confiabilidade

Se você consegue localizar o circuito responsável por um modo de falha, você pode:

Verificar se uma correção de fato mudou a computação (e não apenas as saídas em um conjunto de teste)
Detectar quando um modelo depende de pistas espúrias
Criar avaliações direcionadas (testes unitários para circuitos)

2) Segurança e alinhamento

A compreensão mecanicista poderia apoiar:

Detectar circuitos de manipulação, engano ou planejamento inseguro
Construir monitores que acompanhem sinais internos “semelhantes à intenção” (com ceticismo apropriado)
Desenvolver intervenções mais robustas do que controles apenas via prompt

3) Entendimento científico

A interpretabilidade mecanicista é, em parte, um esforço de ciência da IA: revelar se redes redescobrem algoritmos conhecidos (por exemplo, padrões de autômato finito, recordação associativa) ou inventam novos.

4) Governança e responsabilização (com ressalvas)

Para implantações de alto impacto, evidências mecanicistas podem fortalecer auditorias — mas também podem criar falsa confiança se forem mal compreendidas. Resultados de interpretabilidade precisam ser comunicados com incerteza e escopo.

Fundamentos teóricos (informais, mas úteis)

A interpretabilidade mecanicista não tem uma teoria unificadora, mas várias ideias se repetem.

Hipótese de representação linear (versão prática)

Muitas propriedades importantes podem ser acessadas por sondas lineares (linear probes): funções lineares simples das ativações. Isso motiva buscar direções significativas no espaço de ativações (características) e, então, estudar como camadas escrevem/leem essas direções.

Isso se conecta a:

Sondagem (probing): conseguimos decodificar informação a partir de ativações?
Testes causais: essa informação é usada ou apenas está presente?

Computação distribuída e composição

Redes profundas implementam funções via composição em camadas. Mesmo que componentes individuais não sejam interpretáveis, circuitos podem ser: uma parte escreve um sinal, outra o controla (gating), outra o usa para influenciar a predição do próximo token.

Transformers tornam isso especialmente concreto por meio de:

Um fluxo residual que acumula informação
Cabeças de atenção que leem e escrevem nesse fluxo
MLPs que implementam transformações não lineares e síntese de características

Veja também Mecanismo de Atenção e Retropropagação para como esses componentes são treinados de ponta a ponta.

Identificabilidade é difícil

Mesmo que um modelo compute uma função, pode haver muitas implementações internas equivalentes devido a:

Simetrias (rotações de espaços ocultos)
Representações redundantes
Superposição

Assim, a interpretabilidade mecanicista frequentemente busca entendimento parcial útil, em vez de uma única decomposição “verdadeira”.

Kit prático: métodos comuns

1) Inspeção de ativações e atribuição (pontos de partida)

Etapas básicas incluem:

Registrar ativações (fluxo residual, padrões de atenção, saídas de MLP)
Encontrar componentes mais correlacionados com um comportamento
Usar métodos de atribuição (por exemplo, baseados em gradiente) para ranquear contribuições

Eles são úteis para hipóteses, mas raramente são decisivos sem acompanhamento causal.

Relacionado: Visualização de Características (em sentido amplo, incluindo maximização de ativação e interpretação baseada em ativação).

2) Sondagem (decodificando informação interna)

Uma sonda (probe) é um modelo simples (frequentemente linear) treinado para prever alguma propriedade a partir de ativações internas.

Exemplos de perguntas:

Conseguimos decodificar linearmente classe gramatical (part-of-speech) da camada 6?
A profundidade atual de colchetes está representada na camada 10?
Onde o sentimento está representado?

Cuidado: sondas podem revelar disponibilidade de informação, não uso. Um modelo pode codificar uma propriedade sem depender dela.

3) Ablação e estudos de lesão

Intervenções como:

Zerar a saída de um neurônio/cabeça
Randomizar pesos de atenção
Remover uma camada

E então medir mudanças de comportamento. Isso ajuda a testar necessidade:

Se remover o componente X quebra o comportamento Y, X provavelmente é parte do circuito.

Armadilha: ablações podem causar mudança de distribuição dentro da rede, às vezes superestimando a importância.

4) Patching de ativação (rastreamento causal)

Um método poderoso em transformers:

Execute uma entrada limpa em que o modelo se comporta corretamente.
Execute uma entrada corrompida em que um fato específico é alterado e o modelo falha (ou muda a predição).
Faça “patch” de ativações internas da execução limpa na execução corrompida em uma camada/componente escolhido.
Se o patch restaurar o comportamento correto, aquele local está causalmente envolvido em carregar a informação relevante.

Isso ajuda a localizar onde a informação é computada e onde ela é usada.

5) Patching de caminhos e descoberta de circuitos

Depois que você sabe quais componentes importam, pode testar caminhos específicos:

A cabeça A escreve um sinal que a cabeça B lê?
A camada MLP L cria uma característica que cabeças posteriores usam?

Ao fazer patch apenas ao longo de arestas hipotetizadas, você pode validar a estrutura do circuito.

6) Autoencoders esparsos (SAEs) e aprendizado de dicionário para características

Para lidar com superposição, pesquisadores treinam autoencoders esparsos (sparse autoencoders, SAEs) em ativações para aprender um dicionário de características esparsas que reconstroem os vetores de ativação.

Ideia de alto nível:

Ativações são representadas como uma combinação esparsa de vetores de características aprendidos.
Cada característica pode, às vezes, ser mais monossemântica (interpretável de forma limpa) do que neurônios brutos.

SAEs não são mágicos — eles introduzem seus próprios artefatos — mas são uma abordagem líder para descoberta escalável de características.

7) Direcionamento e edição

Uma vez que você tem uma direção de característica ou circuito:

Direcionamento (steering): adicionar/remover essa característica durante a inferência para mudar o comportamento (por exemplo, aumentar recusa, reduzir continuações tóxicas).
Edição (editing): modificar pesos para que um comportamento mude de forma mais permanente.

Essas abordagens se sobrepõem à pesquisa de edição de modelos; a interpretabilidade mecanicista tenta garantir que edições atinjam o mecanismo certo.

Um exemplo concreto: encontrando um circuito simples em um transformer

Considere um comportamento de brinquedo em modelos de linguagem: prever o próximo token em um padrão repetido, como:

“A B A B A …” → prever “B”

Uma hipótese mecanicista poderia ser:

Uma cabeça de atenção detecta o padrão alternado e copia o token de duas posições atrás.
Uma camada posterior usa esse token copiado para aumentar seu logit.

Esboço de um fluxo de trabalho (pseudocódigo ilustrativo no estilo PyTorch)

# Pseudocode: hook and patch activations in a transformer-like model
import torch

def run_with_hooks(model, tokens, hooks):
    cache = {}
    def make_hook(name):
        def hook(module, inp, out):
            cache[name] = out.detach()
            return hooks.get(name, lambda x: x)(out)
        return hook

    handles = []
    for name, module in model.named_modules():
        if name in hooks or name.endswith("attn_out"):
            handles.append(module.register_forward_hook(make_hook(name)))

    logits = model(tokens)
    for h in handles:
        h.remove()
    return logits, cache

# 1) Clean vs corrupted inputs
tokens_clean = tokenize("A B A B A")
tokens_corr  = tokenize("A B A C A")  # break the pattern at one position

logits_clean, cache_clean = run_with_hooks(model, tokens_clean, hooks={})
logits_corr,  cache_corr  = run_with_hooks(model, tokens_corr,  hooks={})

# 2) Patch a candidate component: e.g., attention head output at layer L
target_name = "blocks.3.attn_out"  # illustrative name
def patch_with_clean(out):
    return cache_clean[target_name]

logits_patched, _ = run_with_hooks(
    model, tokens_corr, hooks={target_name: patch_with_clean}
)

# 3) Compare whether patching restores the correct prediction
print("clean next token:", top1(logits_clean[-1]))
print("corr  next token:", top1(logits_corr[-1]))
print("patch next token:", top1(logits_patched[-1]))

Se o patch restaurar a predição limpa (“B”), isso sugere que o componente em que foi feito patch carrega informação crucial. Você então refinaria a localização:

fazer patch em apenas uma cabeça, não na saída de atenção inteira
testar camadas mais cedo vs mais tarde
fazer patching de caminhos para identificar relações de escritor/leitor

Esse estilo de análise é comum em trabalhos de circuitos em transformers e tem sido apoiado por ecossistemas de ferramentas (por exemplo, bibliotecas baseadas em hooks), embora detalhes variem entre implementações.

Aplicações práticas (e como elas são usadas)

Depuração de correlações espúrias

Suponha que um classificador preveja “tóxico” quando vê certos termos de identidade. Uma abordagem mecanicista poderia:

Identificar características que ativam nesses termos
Testar se essas características impulsionam causalmente o logit de toxicidade
Remover ou reduzir o peso do circuito (com cuidado, para evitar danos não intencionais)

Isso pode complementar balanceamento de dados e trabalho padrão de justiça, mas não deve substituir uma avaliação mais ampla.

Entender e mitigar comportamentos do tipo jailbreak

Para modelos que seguem instruções, você pode estudar:

Características que representam “intenção do usuário vs restrições do sistema”
Circuitos que disparam respostas de recusa
Circuitos de falha que dão peso excessivo a truques de formatação fornecidos pelo usuário

Evidências mecanicistas podem ajudar a distinguir:

“O modelo não sabia melhor” vs “o modelo sabia, mas não aplicou a restrição”
Robustez de comportamentos de segurança sob mudança de distribuição

Auditoria de uso de ferramentas e planejamento

Em sistemas agentivos, a interpretabilidade mecanicista pode ajudar a localizar:

Representações internas de objetivos/subobjetivos
Características que indicam incerteza ou gatilhos de uso de ferramentas
Circuitos que implementam padrões de raciocínio passo a passo (quando presentes)

Cuidado: sinais internos não são necessariamente “intenção” estável. Afirmações de interpretabilidade devem ser delimitadas e testadas.

Edição de modelos e mudança direcionada de comportamento

Em vez de retreinar um modelo inteiro, às vezes você pode:

Identificar onde um fato ou comportamento está armazenado/implementado
Realizar uma edição direcionada
Verificar mecanicisticamente que a edição não quebrou circuitos não relacionados

Isso é especialmente relevante quando correções rápidas são necessárias, mas levanta questões de governança (quais mudanças são aceitáveis e como validamos?).

Como avaliar afirmações de interpretabilidade mecanicista

A interpretabilidade mecanicista busca ser mais rigorosa do que “este mapa de calor parece plausível”. Evidência mais forte normalmente inclui:

Poder preditivo: um circuito proposto prediz o comportamento em muitos exemplos, não apenas em um caso escolhido a dedo.
Validação causal: intervir no circuito muda o comportamento da forma prevista (necessidade e/ou suficiência).
Especificidade: intervenções afetam mais o comportamento-alvo do que comportamentos não relacionados.
Robustez: resultados se mantêm em paráfrases, diferentes prompts e pequenas mudanças de distribuição.
Replicabilidade: reimplementações independentes chegam a conclusões semelhantes.

Um modelo mental útil: trate hipóteses de circuitos como hipóteses científicas — testar, falsificar, refinar.

Armadilhas comuns e limitações

Escalar para modelos de fronteira é difícil

Modelos grandes têm:

Muitas camadas/cabeças/características
Computações complexas e emaranhadas
Forte superposição

Ferramentas como SAEs ajudam, mas “entendimento completo” atualmente não é realista.

Interpretabilidade pode criar falsa confiança

Uma explicação parcial de um circuito pode estar correta e ainda assim ser incompleta. Riscos incluem:

Perder caminhos alternativos que o modelo pode usar
Generalizar demais a partir de tarefas estreitas
Confundir uma história conveniente com um mecanismo completo

Isso é especialmente importante em contextos de IA Responsável, onde partes interessadas podem tratar achados de interpretabilidade como definitivos.

Componentes nem sempre são “módulos” estáveis

Cabeças podem mudar de função conforme o contexto. Características podem depender do contexto. Circuitos podem ser distribuídos e redundantes.

Intervenções podem ser enganosas

Ablação pode quebrar coisas por muitos motivos (mudança de distribuição, mecanismos de compensação). Métodos baseados em patch são mais fortes, mas ainda exigem controles cuidadosos.

Relação com outras abordagens de interpretabilidade

A interpretabilidade mecanicista não é a única abordagem útil; frequentemente funciona melhor em combinação:

Com avaliações comportamentais: interpretabilidade ajuda a explicar por que avaliações passam/falham.
Com explicabilidade pós-hoc: saliência/atribuição pode gerar hipóteses para testes em nível de circuito.
Com análise de dados de treinamento: circuitos podem refletir artefatos do conjunto de dados; interpretabilidade pode identificar o mecanismo, mas não a causa raiz.
Com incerteza e calibração: representações internas podem se correlacionar com confiança, mas exigem validação cuidadosa.

Como começar (conselhos práticos)

Se você quer começar a fazer trabalho de interpretabilidade mecanicista:

Comece com modelos pequenos ou médios (transformers de brinquedo, LLMs pequenos) onde experimentos são baratos.
Escolha um comportamento bem definido para estudar (cópia, casamento de colchetes, recordação factual simples) para que critérios de sucesso sejam claros.
Use um fluxo de trabalho:
1. Defina o comportamento e a métrica
2. Gere pares limpo/corrompido
3. Localize com patching
4. Identifique características/cabeças candidatas
5. Valide causalmente (necessidade/suficiência)
6. Teste generalização e explicações alternativas
Mantenha uma separação forte entre:
- Geração de hipóteses (correlação/visualização)
- Teste de hipóteses (intervenções causais controladas)

Resumo

A interpretabilidade mecanicista busca entender redes neurais identificando representações internas (características) e circuitos que implementam comportamentos de forma causal. Ela enfatiza engenharia reversa em vez de narrativas pós-hoc: formular hipóteses sobre como a computação acontece dentro dos modelos e testá-las com intervenções como ablação e patching de ativação. Embora o campo tenha produzido insights convincentes — especialmente em transformers —, grandes desafios permanecem, incluindo superposição, escalabilidade e o risco de excesso de confiança. Usada com cuidado, a interpretabilidade mecanicista pode fortalecer a prática de IA Responsável ao permitir depuração mais rigorosa, análise de segurança e mitigações direcionadas fundamentadas em como modelos realmente computam.