Visualização de Características

Visão geral

Visualização de características (feature visualization) é uma família de métodos de interpretabilidade (interpretability) que busca tornar os elementos internos de redes neurais legíveis ao produzir visões interpretáveis por humanos do que:

um neurônio (neuron) (unidade única),
um canal (channel) (mapa de características em CNNs),
uma direção (direction) no espaço de representações,
ou uma cabeça de atenção (attention head) (em Transformers)

está respondendo.

A ideia central é conectar ativações internas a padrões no espaço de entrada (imagens, tokens, áudio) que produzem essas ativações de forma confiável. A visualização de características é amplamente usada em modelos de visão (interpretabilidade clássica de CNNs), mas os mesmos princípios se aplicam a modelos de linguagem e a sistemas multimodais.

A visualização de características se situa dentro de Pesquisa em Interpretabilidade e complementa abordagens como Métodos de Atribuição, Interpretabilidade Mecanística e auditoria baseada em conjuntos de dados.

Que “características” estamos visualizando?

Em Redes Neurais modernas, computações intermediárias não são explicitamente rotuladas com conceitos como “roda” ou “negação”. Uma “característica” pode se referir a várias coisas:

Neurônio: uma ativação escalar (a_{i}(x)) em uma dada camada.
Canal: um mapa de características 2D em uma Rede Neural Convolucional (Convolutional Neural Network) (frequentemente interpretado como um detector compartilhado entre localizações espaciais).
Posição de token / cabeça de atenção: em uma Arquitetura Transformer (Transformer Architecture), os pesos de atenção e a mistura de valores podem ser inspecionados por cabeça e por camada.
Direção linear: um vetor (v) no espaço de ativações; às vezes é mais significativo do que um neurônio único porque as representações são distribuídas.

Uma complicação importante é a polissemia (polysemanticity): uma única unidade pode responder a múltiplos padrões não relacionados dependendo do contexto. Isso é comum em modelos grandes e é um dos principais motivos pelos quais a visualização de características pode ser enganosa se for tratada como “o conceito que este neurônio representa”.

Por que a visualização de características funciona (e por que às vezes não funciona)

Muitos métodos dependem de gradientes computados via Retropropagação (Backpropagation). Se você define um objetivo como “tornar o neurônio (i) grande”, você pode computar:

[ \nabla_x a_i(x) ]

e então ajustar a entrada (x) para aumentar a ativação (usando variantes de Descida de Gradiente (Gradient Descent)).

No entanto, a otimização bruta frequentemente encontra padrões não robustos ou adversariais — texturas de alta frequência que exploram idiossincrasias do modelo em vez de refletirem conceitos humanos (fortemente relacionado a Exemplos Adversariais (Adversarial Examples)). Uma boa visualização de características geralmente requer priores (priors) ou regularização (regularization) para enviesar as soluções em direção a entradas naturalistas.

Técnica central 1: Maximização de ativação (activation maximization) (visualização baseada em otimização)

Ideia

Dado um modelo (f) e uma unidade/canal/cabeça interna alvo (u), encontre uma entrada (x) que maximize sua ativação:

[ x^* = \arg\max_x ; a_u(x) - \lambda R(x) ]

onde (R(x)) é um regularizador que penaliza imagens não naturais (ou distribuições de tokens não naturais).

O que você obtém

Para camadas iniciais de CNN: bordas, cores, filtros do tipo Gabor.
Camadas intermediárias: texturas e partes (pelos, rodas, olhos).
Camadas finais: composições “tipo objeto”, muitas vezes enviesadas por textura, a menos que haja restrições.

Regularizadores e truques comuns (especialmente em visão)

Para reduzir artefatos e melhorar a interpretabilidade:

Penalidade de variação total (total variation, TV): desencoraja ruído de alta frequência.
Norma L2 (L2 norm): mantém pixels limitados.
Jitter / recortes aleatórios (jitter / random crops): otimiza sob translações aleatórias para evitar “truques de um único pixel”.
Penalização de frequência (frequency penalization): reduz o peso de altas frequências espaciais.
Robustez a transformações (transformation robustness): maximiza a ativação esperada sob transformações aleatórias (rotação/escala/jitter de cor).
Priores de imagens naturais (natural image priors):
- Otimizar no espaço latente de um gerador (prior de GAN (GAN prior)).
- Usar orientação de modelo de difusão como prior (diffusion model guidance) (cada vez mais popular).

Esses métodos não tornam a visualização “verdadeira” em um sentido filosófico — eles impõem suposições — mas frequentemente tornam os resultados mais úteis para diagnóstico.

Exemplo prático (PyTorch): maximizar um canal de CNN

Abaixo está um esboço mínimo de visualização de canal em um modelo pré-treinado. Na prática, você adicionará regularização mais forte, otimização multiescala e melhores parametrizações, mas isso mostra o loop básico.

import torch
import torchvision.models as models
import torchvision.transforms as T

device = "cuda" if torch.cuda.is_available() else "cpu"
model = models.resnet50(weights=models.ResNet50_Weights.DEFAULT).to(device).eval()

# Choose a layer to hook (example: layer3)
target_layer = model.layer3

act = None
def hook_fn(m, inp, out):
    global act
    act = out  # shape: [B, C, H, W]

h = target_layer.register_forward_hook(hook_fn)

# Start from noise image (in "model input space")
x = torch.randn(1, 3, 224, 224, device=device, requires_grad=True)
opt = torch.optim.Adam([x], lr=0.05)

# Simple regularizer: total variation
def tv_loss(img):
    return (img[:, :, :, 1:] - img[:, :, :, :-1]).abs().mean() + \
           (img[:, :, 1:, :] - img[:, :, :-1, :]).abs().mean()

channel_idx = 42

for step in range(200):
    opt.zero_grad()

    # Clamp-ish: keep values from blowing up
    x_clamped = x.tanh()

    model(x_clamped)
    # maximize mean activation of a channel across spatial positions
    loss_act = -act[:, channel_idx].mean()
    loss_reg = 0.02 * tv_loss(x_clamped) + 0.001 * (x_clamped ** 2).mean()
    loss = loss_act + loss_reg
    loss.backward()
    opt.step()

h.remove()

img = x.detach().cpu().tanh()[0]  # visualize with your preferred utility

Como interpretar: a imagem resultante é “uma entrada que a rede acredita ativar fortemente este canal”, sob os regularizadores escolhidos. Mudar os regularizadores frequentemente muda a história.

Variantes

Estilo DeepDream (DeepDream-style): maximiza ativações de muitas unidades em uma camada, criando padrões alucinatórios.
Maximização do logit de classe (class logit maximization): maximiza a pontuação de classe de saída em vez de unidades internas; útil, mas frequentemente mais confundido por viés do conjunto de dados.
Maximização de ativação com restrições (activation maximization with constraints): por exemplo, “maximizar o neurônio (u) mantendo o neurônio (v) pequeno” para isolar seletividade.

Técnica central 2: Inversão de características (feature inversion) (reconstruindo entradas a partir de ativações)

Ideia

Em vez de maximizar uma ativação, a inversão de características pergunta:

Se eu só conhecesse as ativações na camada (L), que entrada poderia tê-las produzido?

Formalmente, dada uma ativação-alvo (h_L(x_0)) de uma imagem real (x_0), encontre:

[ \hat{x} = \arg\min_x ; |h_L(x) - h_L(x_0)|^2 + \lambda R(x) ]

O que isso revela

Retenção de informação: camadas iniciais são invertidas quase perfeitamente; camadas posteriores perdem detalhes exatos de pixels, mas retêm estrutura semântica.
Invariâncias (invariances): se muitas entradas diferentes invertem para reconstruções similares, a representação é invariante a essas diferenças.
Preocupações de privacidade: inversão surpreendentemente boa pode indicar que uma representação vaza detalhes sensíveis da entrada.

Aplicação prática

Comparar diferentes checkpoints do modelo: “Este modelo auto-supervisionado retém mais informação de textura em camadas intermediárias do que este supervisionado?”
Auditar modelos de embeddings: “Conseguimos reconstruir rostos a partir de embeddings intermediários?”

Técnica central 3: Visualizações baseadas em atribuição (attribution-based visualizations) (saliência e mapas de calor)

A maximização de ativação é “que entrada excitariam esta unidade?”. A atribuição geralmente é “que partes desta entrada específica importaram para a predição?”.

Esses métodos se sobrepõem a Mapas de Saliência e a Métodos de Atribuição mais amplos, mas são frequentemente usados como visualizações de características para unidades, canais e cabeças.

Métodos comuns (visão)

Saliência por gradiente (gradient saliency): visualiza (|\nabla_x y|) para uma saída-alvo (y). Rápido, mas ruidoso e sensível à saturação.
Gradientes Integrados (Integrated Gradients): integra gradientes ao longo de um caminho de uma linha de base até a entrada; comporta-se melhor sob algumas condições.
Grad-CAM / Grad-CAM++: usa gradientes em relação a mapas de características para criar mapas de calor de localização grosseira. Muitas vezes mais interpretável para CNNs.
Oclusão / perturbação (occlusion / perturbation): mascara partes da entrada e mede a mudança na saída. Mais fiel em alguns casos, mas mais lento e sensível à estratégia de mascaramento.

Como interpretar mapas de atribuição

Eles são explicações locais (local explanations): valem apenas para esta entrada e contrafactuais próximos.
Regiões brilhantes indicam sensibilidade, não necessariamente “presença de conceito”.
Muitos métodos destacam bordas ou características de alta frequência porque gradientes naturalmente ficam grandes nessas regiões.
A atribuição pode mudar drasticamente com pequenas mudanças na entrada (uma preocupação de estabilidade).

Exemplo prático (conceitual): sensibilidade a oclusão

Para um classificador de visão:

Deslize um patch cinza sobre a imagem.
Acompanhe a mudança no logit da classe.
Plote um mapa de calor das quedas de pontuação.

Isso pode ser mais intuitivo do que gradientes, mas a conclusão depende fortemente do tamanho do patch e da escolha da linha de base.

Visualização de características para cabeças de atenção (Transformers)

Transformers introduzem novas “características” que valem a pena visualizar:

Pesos de atenção (attention weights): onde um token atende.
Padrões de cabeça (head patterns): por exemplo, “token anterior”, “parênteses correspondentes”, “atender ao sujeito”.
Mistura de valores (value mixing): pesos de atenção sozinhos não mostram que informação está sendo carregada.

Abordagens comuns de visualização

Mapas de atenção (attention maps): mostram a matriz de atenção para uma cabeça/camada. Fácil, mas pode ser enganoso.
Propagação de atenção (attention rollout): multiplica matrizes de atenção ao longo das camadas para estimar fluxo de informação. Útil, mas baseado em suposições simplificadoras.
Atribuição através da atenção (attributing through attention): gradientes através da atenção ou gradientes integrados nos pesos de atenção (ainda sem garantia de importância causal).
Patching de ativação / intervenções causais (activation patching / causal interventions): substitui ativações internas de uma execução em outra e mede o efeito; mais próximo de afirmações causais (frequentemente tratado em Interpretabilidade Mecanística).

Armadilha-chave: “Atenção é explicação” não é, em geral, válido

Pesos de atenção mostram um mecanismo de roteamento, não necessariamente importância de características. Uma cabeça pode ter atenção “afiada” mas efeito mínimo se seus valores não carregarem informação útil ou se camadas posteriores a ignorarem. Por outro lado, atenção difusa ainda pode importar.

Um fluxo de trabalho mais confiável é combinar visualização de atenção com ablação (ablation):

zerar uma cabeça,
ou substituir sua saída por ruído, e medir a mudança nas saídas ou na perda.

Interpretando resultados: o que as visualizações de características podem e não podem dizer

Bons usos

Geração de hipóteses: “Este canal parece seletivo a textura; talvez o modelo esteja usando pistas de textura para esta classe.”
Depuração:
- detectar correlações espúrias (por exemplo, “detector de marca d’água”),
- revelar unidades mortas,
- encontrar unidades que respondem a artefatos (bordas, blocos de compressão).
Comparar modelos: ver diferenças qualitativas em representações aprendidas entre arquiteturas ou regimes de treinamento.
Comunicar comportamento: explicar tendências do modelo a profissionais (com ressalvas).

O que não reivindicar em excesso

Uma única visualização raramente prova “este neurônio representa o conceito X”.
Visualizações são condicionais a priores (regularização, parametrização, prompts, linhas de base).
Características podem ser distribuídas por muitas unidades; visões de unidade única podem perder o mecanismo real.
Muitos neurônios são polissêmicos; uma visualização com aparência “limpa” pode esconder múltiplas funções.

Fluxo de trabalho prático: como fazer visualização de características com responsabilidade

Comece com exemplos do conjunto de dados
- Colete entradas reais (ou patches) de maior ativação para um neurônio/canal.
- Compare entre classes e contextos.
- Isso te ancora em “o que realmente ocorre nos dados”, e não apenas em “o que a otimização pode inventar”.
Depois faça maximização de ativação
- Tente múltiplas sementes e regularizadores.
- Verifique estabilidade: você obtém motivos consistentes?
- Use robustez a transformações para evitar artefatos frágeis.
Valide com intervenções
- Faça ablação da unidade/canal/cabeça e meça mudanças de comportamento.
- Para canais de CNN: zere o canal e observe mudanças nos logits.
- Para Transformers: ablação de cabeça ou patching de ativação.
Triangule com atribuição
- Para entradas em que a característica dispara, gere mapas Grad-CAM/IG.
- Veja se a sensibilidade da rede se alinha à sua narrativa.
Relate incerteza
- Trate o resultado como evidência com suposições, não como um rótulo definitivo.

Artefatos e armadilhas comuns

1) Artefatos de otimização (“ruído psicodélico”)

Sem priores, a subida de gradiente tende a explorar idiossincrasias do modelo:

padrões de alta frequência,
texturas repetidas,
combinações de cores não naturais.

Isso pode refletir sensibilidades reais aprendidas, mas raramente é o “conceito” significativo para humanos que você esperava.

Mitigação: priores mais fortes (TV, penalizações de frequência), otimizar em um espaço latente gerativo, ou exigir robustez sob transformações.

2) A armadilha da “leitura de conceito”

Humanos são extremamente bons em pareidolia (pareidolia) (ver faces e objetos no ruído). A visualização de características pode incentivar superinterpretação.

Mitigação:

inclua exemplos do conjunto de dados com maior ativação junto das imagens sintéticas,
quantifique seletividade (por exemplo, com que frequência a unidade dispara em conjuntos rotulados por conceito?),
teste contraexemplos (“ela dispara sem o conceito?”).

3) Efeitos de polissemia e superposição (superposition)

Um neurônio pode detectar “textura de pelo” e “couro marrom”, dependendo do contexto. A visualização pode fazer uma média disso e produzir um composto enganoso.

Isso se conecta ao problema mais amplo de superposição no aprendizado de representações: muitas características podem compartilhar parâmetros.

Mitigação:

visualize direções lineares (por exemplo, via probing esparso ou decomposições tipo ICA),
agrupe contextos de ativação e visualize por cluster,
use métodos causais para isolar papéis funcionais.

4) Viés do conjunto de dados vaza para as visualizações

Maximizar “classe: ônibus escolar” pode produzir um ônibus na estrada sob céu azul porque é isso que o conjunto de dados contém — não necessariamente aquilo de que o modelo precisa depender.

Mitigação:

compare contra conjuntos de dados contrafactuais,
use prompts / fundos controlados (para priores gerativos),
meça dependência via oclusão/perturbações.

5) Visualizações de atenção enganosas

Pesos de atenção podem parecer interpretáveis (listras diagonais, tokens correspondentes), mas podem não ser causalmente importantes.

Mitigação: verifique com ablações ou patching de ativação; inspecione as saídas das cabeças, não apenas os pesos.

6) Falhas de “sanidade” em atribuições

Alguns métodos de saliência podem produzir mapas plausíveis mesmo quando o modelo é aleatorizado (isso já foi demonstrado na literatura).

Mitigação: execute verificações de sanidade (aleatorize pesos; verifique se os mapas mudam), prefira métodos com propriedades mais bem conhecidas e combine com intervenções.

Aplicações na prática

Depuração de modelos em sistemas de visão em produção
- Detectar dependência de marcas d’água, bordas ou assinaturas de compressão.
- Encontrar unidades que ativam em atributos sensíveis (potenciais problemas de justiça).
Insight científico
- Estudar detectores emergentes (por exemplo, “partes de face” em modelos auto-supervisionados).
- Comparar geometria representacional entre objetivos de treinamento (Aprendizado de Representações (Representation Learning)).
Segurança e proteção
- Identificar características correlacionadas com conteúdo nocivo ou gatilhos de jailbreak (mais comum em modelos de linguagem).
- Entender vulnerabilidades relacionadas a Exemplos Adversariais.
Ensino e comunicação
- Visualizar hierarquias de camadas: bordas → texturas → partes → objetos.
- Demonstrar diferenças entre atribuição e maximização de ativação.

Problemas em aberto e direções atuais

Priores mais fiéis: priores baseados em difusão podem criar imagens altamente interpretáveis, mas correm o risco de injetar os próprios vieses do modelo de difusão na visualização.
Melhor decomposição da superposição: tornar características suficientemente desentrelaçadas para que “visualização de unidade” corresponda a conceitos coerentes.
Escalar para internos de LLMs (Large Language Models): avançar de “mapas de atenção” para visualizações de características confiáveis e causais de circuitos e direções em fluxos residuais (residual streams).
Avaliação quantitativa: desenvolver métricas para quando uma visualização é fiel vs. apenas convincente.

Resumo

A visualização de características é melhor entendida como uma caixa de ferramentas:

Maximização de ativação: “Que entrada excitariam esta unidade?” (poderosa, mas dependente de priores)
Inversão de características: “Que informação é preservada nesta camada?” (revela invariâncias e vazamento)
Visualizações por atribuição: “Que partes desta entrada importaram?” (local, dependente do método)
Visualização de cabeças de atenção: útil para descoberta de padrões, mas deve ser acompanhada de verificações causais

Quando usada com cuidado — ancorada em exemplos reais, validada por intervenções e reportada com incerteza — a visualização de características pode ser uma das formas mais produtivas de construir intuição e depurar redes neurais modernas.