LIME (Explicações Locais Interpretáveis Agnósticas ao Modelo — Local Interpretable Model-Agnostic Explanations)

Visão geral

LIME (Local Interpretable Model-Agnostic Explanations) é um método de explicabilidade (explainability) pós-hoc (post-hoc) que produz explicações por instância (locais) (per-example (local) explanations) para qualquer modelo de caixa-preta (black-box model). Dada uma entrada específica (x) (por exemplo, uma solicitação de empréstimo, um e-mail, uma imagem), o LIME explica a predição do modelo ao:

Amostrar versões perturbadas de (x) em torno de uma vizinhança local
Consultar o modelo original nessas amostras perturbadas
Ajustar um modelo substituto (surrogate model) simples e interpretável (frequentemente um modelo linear esparso (sparse linear model)) que aproxima o modelo de caixa-preta perto de (x)
Retornar as características mais importantes do substituto como a explicação

O LIME é “agnóstico ao modelo (model-agnostic)” porque ele só requer uma forma de chamar o modelo (por exemplo, predict_proba). Ele não precisa de gradientes nem de acesso a pesos internos.

O LIME é melhor compreendido dentro da distinção mais ampla entre Explicações Globais vs Locais: ele fornece aproximações locais e não deve ser interpretado como descrevendo o comportamento do modelo em todos os lugares.

Quando o LIME é útil

O LIME é comumente usado para:

Depuração: “Por que o modelo previu fraude para esta transação?”
Validação do modelo: “O modelo está usando sinais sensatos ou correlações espúrias?”
Fluxos de trabalho de revisão humana: fornecer uma justificativa a um analista para uma única decisão
Comparação de modelos em casos específicos (por exemplo, dois modelos discordam em um exemplo)

Ele é especialmente atraente quando o modelo é realmente uma caixa-preta (por exemplo, um modelo via API, um modelo proprietário ou um pipeline não diferenciável).

Ideia central: modelagem local com substituto

O LIME assume que, embora um modelo (f(\cdot)) possa ser altamente não linear globalmente, ele pode ser aproximado localmente em torno da entrada (x) por um modelo mais simples (g(\cdot)) escolhido de uma família interpretável (G) (como modelos lineares esparsos ou pequenas árvores de decisão).

Uma formulação comum é:

[ \underset{g \in G}{\arg\min}\ \sum_{z \in \mathcal{Z}} \pi_x(z),\big(f(z) - g(z')\big)^2\ +\ \Omega(g) ]

Onde:

(f(z)) é a saída do modelo de caixa-preta em uma amostra perturbada (z)
(z') é a representação interpretável (interpretable representation) de (z) (frequentemente indicadores binários)
(\pi_x(z)) é um núcleo de proximidade (proximity kernel) que pondera amostras pela proximidade de (x)
(\Omega(g)) penaliza a complexidade (por exemplo, incentiva esparsidade)

A explicação é então derivada de (g): para um substituto linear esparso, ela é o conjunto das características com maiores pesos e suas contribuições.

Como o LIME funciona passo a passo

1. Escolher uma representação interpretável

Uma decisão de projeto fundamental no LIME é que a explicação é expressa em uma representação que humanos conseguem entender. Muitas vezes, esta não é a mesma representação de características usada pelo modelo.

Escolhas comuns:

Dados tabulares

Representação interpretável: indicadores binarizados, como:
- age > 45
- income in [50k, 80k]
- has_prior_default = true
Características contínuas são frequentemente discretizadas em intervalos (bins) para que o substituto use características simples, no estilo de regras.

Texto

Representação interpretável: tipicamente um “saco de palavras (bag of words)” binário indicando se uma palavra (ou token) está presente.
- Exemplo: {"refund": 1, "urgent": 1, "meeting": 0, ...}

Imagens

Representação interpretável: indicadores binários sobre superpixels (superpixels) (regiões contíguas).
- “Superpixel 12 presente” vs “superpixel 12 mascarado/cinza”

Essa escolha de representação influencia fortemente o que a explicação pode dizer — e o que ela não pode.

2. Perturbar a entrada para criar uma vizinhança local

O LIME gera um conjunto de dados de amostras perturbadas em torno da instância (x). Conceitualmente:

Amostrar (z'_i) no espaço interpretável (frequentemente ligando/desligando características)
Mapear (z'_i \rightarrow z_i) de volta para uma entrada válida para o modelo
Consultar o modelo de caixa-preta para obter (f(z_i))

Estratégias de perturbação variam por modalidade:

Tabular: amostrar aleatoriamente valores para características, frequentemente usando estatísticas de treino; características discretizadas podem ser alternadas entre intervalos.
Texto: remover palavras aleatoriamente (definir alguns indicadores de palavras como 0) e formar novas strings de texto com subconjuntos de palavras.
Imagem: mascarar aleatoriamente subconjuntos de superpixels e executar o classificador na imagem modificada.

Um detalhe prático: essas perturbações podem facilmente criar amostras irreais ou fora da distribuição (out-of-distribution), o que é uma das fontes das fraquezas do LIME (discutidas abaixo).

3. Ponderar amostras pela proximidade à instância original

Nem todas as perturbações são igualmente “locais”. O LIME atribui pesos usando um kernel como:

[ \pi_x(z) = \exp\left(-\frac{D(x, z)^2}{\sigma^2}\right) ]

(D(\cdot,\cdot)) é uma métrica de distância (por exemplo, Euclidiana para tabular, cosseno para texto)
(\sigma) (largura do kernel (kernel width)) controla quão rapidamente o peso decai com a distância

Isso é o que torna o modelo substituto local: perturbações distantes têm baixa influência.

4. Ajustar um modelo substituto interpretável

O LIME ajusta um modelo simples (g) (comumente):

Regressão linear esparsa (por exemplo, Lasso) para saídas contínuas
Classificação linear esparsa para probabilidades/logits
Às vezes pequenas árvores de decisão para explicações no estilo de regras

A restrição de esparsidade (\Omega(g)) frequentemente incentiva o uso de apenas (K) características, produzindo explicações curtas como “Top 10 características que contribuem”.

5. Retornar a explicação

Para um substituto linear, o LIME tipicamente reporta:

Principais contribuições positivas e negativas de características
Pesos das características (às vezes interpretados como importância local)
Uma medida de qualidade do ajuste local (frequentemente aproximada)

Exemplo (tabular):

Aumenta o risco: prior_default = true, debt_to_income > 0.4
Reduz o risco: income > 80k, employment_years > 5

Exemplo (texto):

Empurra para “spam”: “free”, “winner”, “urgent”
Empurra para “não spam”: “agenda”, “meeting”, “project”

Exemplos práticos

Abaixo estão exemplos representativos usando o popular pacote Python lime. Em sistemas reais, trate essas explicações como sinais diagnósticos, não como verdade fundamental.

Exemplo 1: Classificação tabular (scikit-learn)

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

from lime.lime_tabular import LimeTabularExplainer

# Data and model
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    data.data, data.target, test_size=0.2, random_state=0, stratify=data.target
)

clf = RandomForestClassifier(n_estimators=300, random_state=0)
clf.fit(X_train, y_train)

# LIME explainer
explainer = LimeTabularExplainer(
    training_data=X_train,
    feature_names=data.feature_names,
    class_names=data.target_names,
    mode="classification",
    discretize_continuous=True
)

# Explain one prediction
i = 3
exp = explainer.explain_instance(
    X_test[i],
    clf.predict_proba,
    num_features=10,
    num_samples=5000
)

print("True label:", data.target_names[y_test[i]])
print(exp.as_list())  # list of (feature rule, weight)

O que você obterá é uma lista ranqueada de regras de características com pesos. Interprete esses pesos como descrevendo o comportamento local do substituto, e não o modelo verdadeiro globalmente.

Dica prática: tente aumentar num_samples e repetir a execução para checar estabilidade.

Exemplo 2: Classificação de texto

O LIME para texto comumente perturba removendo palavras e observando como a predição muda.

from lime.lime_text import LimeTextExplainer
from sklearn.pipeline import make_pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

texts = [
    "urgent winner claim free prize now",
    "meeting agenda for next week project status",
    "free money offer limited time urgent",
    "please review the attached report for the meeting"
]
labels = [1, 0, 1, 0]  # 1=spam, 0=ham

model = make_pipeline(TfidfVectorizer(), LogisticRegression(max_iter=2000))
model.fit(texts, labels)

explainer = LimeTextExplainer(class_names=["ham", "spam"])

x = "urgent free offer please respond now"
exp = explainer.explain_instance(
    x,
    model.predict_proba,
    num_features=6,
    num_samples=4000
)

print(exp.as_list())

Uma saída típica pode destacar palavras como “urgent”, “free”, “offer” como empurrando para spam.

Nuance importante: se seu modelo real de produção for uma Arquitetura Transformer (Transformer Architecture), o LIME ainda pode ser usado (ele só precisa de predict_proba), mas a perturbação de “remover palavras” pode criar entradas que se comportam de maneira muito diferente de um texto realista — elevando preocupações de fidelidade.

Exemplo 3: Classificação de imagens (conceitual)

Para imagens, o LIME geralmente:

Segmenta a imagem em superpixels
Mascara aleatoriamente subconjuntos de superpixels
Ajusta um modelo linear esparso para prever a pontuação da classe a partir da presença de superpixels

Em código (de forma esquemática):

from lime import lime_image

explainer = lime_image.LimeImageExplainer()

explanation = explainer.explain_instance(
    image,                  # HxWxC numpy array
    classifier_fn,          # function returning class probabilities
    top_labels=5,
    hide_color=0,
    num_samples=2000
)

# visualization typically highlights influential superpixels

A explicação costuma ser visualizada como regiões destacadas que dão suporte a um rótulo de classe. O algoritmo de segmentação e a estratégia de mascaramento podem mudar os resultados drasticamente — uma razão pela qual o LIME para imagens pode ser instável.

Como ler explicações do LIME corretamente

Local, não global

Uma explicação do LIME responde:

“Que regra simples aproxima o modelo ao redor deste exemplo?”

Ela não responde:

“Em quais características o modelo geralmente se apoia ao longo do conjunto de dados?”

Para entendimento global, considere agregar explicações locais com cuidado ou usar métodos globais (com as devidas ressalvas). Veja Explicações Globais vs Locais.

Associação, não causalidade

O LIME mostra quais características são preditivas sob o esquema de perturbação usado. Ele não estabelece relações causais. Se você precisa de “o que teria que mudar para inverter a decisão”, uma abordagem de Explicações Contrafactuais (Counterfactual Explanations) costuma se adequar melhor.

Principais limitações e modos de falha

O LIME é amplamente usado, mas tem limitações importantes — especialmente em cenários de alto risco.

1. Instabilidade (explicações com alta variância)

O LIME depende de amostragem aleatória. Executá-lo duas vezes pode produzir explicações diferentes devido a:

Diferentes perturbações aleatórias
Diferentes coeficientes do substituto ajustado (especialmente sob restrições de esparsidade)
Diferentes segmentações de imagem (para o LIME em imagens)

Sintoma: as “principais características” mudam entre execuções mesmo quando a predição é a mesma.

Por que isso importa: explicações instáveis são difíceis de confiar e difíceis de comunicar de forma responsável.

2. Sensibilidade à amostragem e à largura do kernel

Dois hiperparâmetros (hyperparameters) cruciais são:

Número de amostras (num_samples)
Largura do kernel (o quão local “local” é)

Se a vizinhança for pequena demais, o substituto pode ficar ruidoso; grande demais, e ele pode fazer uma média sobre comportamento não linear e se tornar enganoso.

3. Riscos de fidelidade (fidelidade (faithfulness): substituto ≠ modelo original)

O LIME ajusta um modelo simples (g) para aproximar (f) localmente. Mas se (f) tiver:

Interações fortes entre características
Fronteiras de decisão abruptas perto de (x)
Descontinuidades (por exemplo, regras, limiares, pipelines complexos)

…então um substituto linear esparso pode ser uma aproximação ruim, mesmo localmente.

Resultado: a explicação reflete mais o comportamento do substituto do que o raciocínio verdadeiro do modelo original.

4. Perturbações fora da distribuição

Muitas perturbações do LIME criam amostras que não se parecem com dados reais:

Tabular: amostrar características de forma independente pode quebrar correlações (por exemplo, “idade=5 com PhD”)
Texto: remover palavras pode produzir frases não naturais que mudam o significado de maneiras irreais
Imagens: mascarar superpixels pode criar artefatos diferentes de imagens reais

Se o modelo se comporta de forma imprevisível com tais entradas, o ajuste do substituto pode se tornar não confiável.

5. Dependência da representação interpretável

Explicações do LIME só são tão significativas quanto a representação escolhida:

Agrupar características contínuas em intervalos pode esconder nuances ou inventar limiares
Saco de palavras ignora ordem das palavras e sintaxe
Superpixels podem não corresponder a objetos semânticos (por exemplo, “o rosto do cachorro”)

Isso pode induzir usuários a acreditar que o modelo presta atenção a conceitos humanos quando, na realidade, ele está respondendo a artefatos de baixo nível.

6. Características correlacionadas e ambiguidade na atribuição de “crédito”

Quando características são correlacionadas (comum em dados reais), múltiplas explicações podem se ajustar igualmente bem. A seleção esparsa do LIME pode escolher arbitrariamente uma característica em vez de outra.

Exemplo: se income e job_title são correlacionadas, o LIME pode atribuir importância a uma dependendo das perturbações amostradas — mesmo que o modelo use ambas.

7. Potencial de manipulação e confiança excessiva

Como o LIME é pós-hoc, ele pode ser enganado por modelos que se comportam normalmente em dados naturais, mas se comportam estrategicamente em entradas perturbadas (ou vice-versa). De forma mais geral, explicações podem criar transparência ilusória, fazendo com que pessoas confiem demais em um modelo falho.

Orientação prática e boas práticas

Se você usar o LIME na prática, os hábitos a seguir melhoram significativamente a confiabilidade:

Repetir explicações múltiplas vezes com diferentes sementes aleatórias; verificar se as principais características são estáveis.
Aumentar num_samples (frequentemente milhares a dezenas de milhares para tabular/texto).
Ajustar a largura do kernel e verificar se as explicações não mudam radicalmente com pequenos ajustes.
Inspecionar a fidelidade local (local fidelity): quão bem o substituto prediz as saídas da caixa-preta na vizinhança perturbada?
Usar perturbações conscientes do domínio quando possível:
- Amostragem condicional para dados tabulares (preservar correlações)
- Perturbações de texto mais realistas (por exemplo, mascarar tokens de formas alinhadas ao modelo)
- Perturbações de imagem que evitem artefatos óbvios
Comunicar limitações explicitamente em contextos voltados ao usuário (localidade, instabilidade, não causalidade).
Conferir com outro método como SHAP (SHapley Additive exPlanations) ou contrafactuais para ver se as conclusões concordam.

Relação com outros métodos de explicabilidade

LIME vs SHAP

Ambos são agnósticos ao modelo e comumente usados para atribuição de características (feature attribution), mas diferem em fundamentos:

LIME: ajusta um substituto local usando perturbações amostradas e ponderação por localidade.
SHAP: baseado em valores de Shapley (Shapley values) da teoria dos jogos cooperativos; fornece atribuições aditivas com propriedades teóricas mais fortes (embora implementações práticas ainda façam suposições).

Na prática, ambos podem sofrer com problemas como perturbações irreais e sensibilidade a dados de referência, mas o SHAP frequentemente é preferido quando você precisa de atribuição mais fundamentada — veja SHAP (SHapley Additive exPlanations).

LIME vs explicações contrafactuais

LIME: “Quais características foram importantes perto desta predição?”
Contrafactuais: “Quais mudanças mínimas inverteriam a predição?”
Veja Explicações Contrafactuais.

LIME vs interpretabilidade mecanicista

O LIME é pós-hoc e não inspeciona representações internas. Em contraste, Interpretabilidade Mecanicista (Introdução) tenta entender os internos do modelo (principalmente para redes neurais (neural networks)), oferecendo um tipo diferente de evidência.

Resumo

O LIME é um método amplamente usado para gerar explicações locais, por instância ao aproximar um modelo de caixa-preta com um substituto interpretável ajustado em perturbações da entrada. Seus maiores pontos fortes são sua simplicidade, flexibilidade e natureza agnóstica ao modelo.

Seus maiores riscos também são centrais à forma como ele funciona: instabilidade, sensibilidade à amostragem e às configurações do kernel, perturbações fora da distribuição, e lacunas de fidelidade entre o substituto e o modelo verdadeiro. Quando usado com cuidado — juntamente com checagens de estabilidade, perturbações conscientes do domínio e métodos complementares — o LIME pode ser uma ferramenta valiosa para depuração e supervisão humana, mas não deve ser tratado como uma explicação definitiva do raciocínio real do modelo.