Variáveis Instrumentais

Visão geral

Variáveis Instrumentais (Instrumental Variables, VI) são uma família de técnicas para estimar efeitos causais (causal effects) quando uma regressão simples (simple regression) é viesada devido a confundimento não observado (unobserved confounding), causalidade reversa (reverse causality) ou erro de mensuração (measurement error). A ideia central é encontrar uma variável — um instrumento (instrument) — que altere o tratamento/exposição (treatment/exposure) de interesse de uma forma “praticamente aleatória” e que afete o desfecho (outcome) apenas por meio desse tratamento.

Métodos de VI são amplamente usados em econometria (econometrics) e são cada vez mais relevantes em contextos de aprendizado de máquina (machine learning) / I.A. (AI), em que intervenções (interventions) são caras ou impossíveis e registros observacionais (observational logs) sofrem com vieses ocultos (por exemplo, sistemas de recomendação (recommendation systems), segmentação de anúncios (ad targeting), precificação (pricing)).

Este artigo se concentra em quando instrumentos ajudam a identificar efeitos causais e nas premissas necessárias. Para fundamentos sobre confundimento e ajuste, veja Confundimento e Ajuste. Para diagramas causais e raciocínio estrutural, veja Grafos Causais.

O problema causal que VI foi concebida para resolver

Suponha que queremos o efeito causal de um tratamento (T) sobre um desfecho (Y). Um modelo ingênuo poderia ser:

[ Y = \beta T + \epsilon ]

Se (T) estiver correlacionado com (\epsilon), então regredir (Y) em (T) não recupera (\beta). Essa correlação frequentemente surge por causa de um confundidor não observado (U) que afeta tanto (T) quanto (Y):

  • (U \rightarrow T)
  • (U \rightarrow Y)

Mesmo que você inclua covariáveis observadas (X), o (U) não observado ainda pode enviesar as estimativas.

VI introduz uma variável (Z) (o instrumento) que desloca (T), mas que, fora isso, não se relaciona com o desfecho exceto por meio de (T).

O que é um instrumento?

Um instrumento (Z) é uma variável usada para identificar o efeito causal de (T) sobre (Y) sob (aproximadamente) as seguintes condições:

  1. Relevância (relevance): (Z) afeta (T)
    [ \text{Cov}(Z, T) \neq 0 ]

  2. Restrição de exclusão (exclusion restriction): (Z) afeta (Y) apenas por meio de (T) (sem caminho direto (Z \rightarrow Y) e sem outros caminhos mediados que contornem (T)).

  3. Independência (independence) (como se aleatório / as-if random): (Z) é independente de determinantes não observados de (Y) (frequentemente expresso como (Z \perp!!!\perp U)).

Um grafo causal útil é:

  • (Z \rightarrow T \rightarrow Y)
  • (U \rightarrow T)
  • (U \rightarrow Y)
  • Sem seta (Z \rightarrow Y)
  • Sem seta (U \rightarrow Z)

Nos termos de Grafos Causais, o instrumento “abre” variação em (T) que não é confundida.

Exemplos práticos de instrumentos

Exemplo 1: Educação → Rendimentos, instrumentada pela distância até a faculdade

Objetivo: efeito dos anos de escolaridade (T) sobre rendimentos (Y).
Problema: habilidade/motivação (U) afeta tanto escolaridade quanto rendimentos.

Ideia de instrumento: distância até a faculdade mais próxima (Z). Pessoas que moram mais perto têm maior probabilidade de frequentar (relevância). Se a distância afeta rendimentos apenas via educação (exclusão) e não se relaciona com habilidade não observada (independência), VI pode identificar um efeito causal.

Na prática, as premissas de exclusão e independência são controversas: distância pode se correlacionar com riqueza do bairro, mercados de trabalho locais ou qualidade das escolas.

Exemplo 2: Anúncios online e conversões usando “aleatoriedade do servidor de anúncios”

Objetivo: efeito causal de exibir um anúncio (T) sobre conversão (Y).
Confundimento: a segmentação usa intenção do usuário (U), que também afeta conversão.

Ideia de instrumento: aleatorização na entrega de anúncios (por exemplo, desempates em leilões, algoritmos de pacing ou elegibilidade randomizada). Se (Z) altera a exposição ao anúncio, mas não altera diretamente a conversão a não ser via exposição, pode servir como instrumento.

Isso é comum na indústria porque sistemas frequentemente contêm componentes quase aleatórios — mas documentar a exclusão é difícil (por exemplo, usuários em leilões diferentes podem ver anúncios concorrentes diferentes).

Exemplo 3: Efeitos de preço usando choques de custo

Objetivo: efeito do preço (T) sobre demanda (Y).
Confundimento: firmas definem preços com base na demanda esperada (U).

Ideia de instrumento: choques de custo (Z) (por exemplo, custos de insumos, custos de frete) que afetam o preço, mas são plausivelmente não relacionados a choques de demanda local.

Novamente, a exclusão pode falhar se custos também afetam disponibilidade/qualidade do produto ou marketing.

O estimador linear canônico de VI: Wald / 2SLS

Estimador de Wald (Wald estimator) (instrumento binário, tratamento binário)

Se tanto o instrumento quanto o tratamento forem binários, um estimando básico de VI é:

[ \beta_{\text{Wald}} = \frac{\mathbb{E}[Y \mid Z=1] - \mathbb{E}[Y \mid Z=0]} {\mathbb{E}[T \mid Z=1] - \mathbb{E}[T \mid Z=0]} ]

Interpretação: quanto o desfecho muda por unidade de mudança no tratamento induzida pelo instrumento.

Essa razão é intuitiva e forma a base de métodos de VI mais gerais.

Mínimos Quadrados em Dois Estágios (Two-Stage Least Squares, 2SLS)

Para variáveis contínuas e modelos lineares, a abordagem padrão é 2SLS:

Estágio 1: prever o tratamento a partir do(s) instrumento(s) e covariáveis: [ T = \pi Z + \gamma^\top X + \nu ] Calcule os valores ajustados (\hat{T}).

Estágio 2: regredir o desfecho no tratamento previsto: [ Y = \beta \hat{T} + \delta^\top X + \eta ]

Sob as premissas de VI, (\beta) pode ser interpretado causalmente (com ressalvas importantes descritas abaixo).

Por que isso funciona (intuição)

O Estágio 1 extrai a parte de (T) que é impulsionada por (Z). Se (Z) for independente do confundidor não observado (U), então a variação em (T) induzida por (Z) é “limpa”. O Estágio 2 usa apenas essa variação limpa para estimar como mudar (T) muda (Y).

O que exatamente é identificado? ATE vs LATE

Um equívoco comum é achar que VI sempre identifica o efeito médio do tratamento (average treatment effect, ATE). Em muitos cenários realistas — especialmente quando os efeitos do tratamento variam entre indivíduos — VI padrão identifica um Efeito Médio Local do Tratamento (Local Average Treatment Effect, LATE).

Tipos de adesão e LATE (arcabouço de Imbens–Angrist)

Com um instrumento binário (Z) e tratamento binário (T), indivíduos podem ser agrupados conceitualmente por como respondem ao instrumento:

  • Aderentes (compliers): recebem o tratamento se encorajados ((Z=1)), não recebem se não ((Z=0))
  • Sempre-tomadores (always-takers): recebem o tratamento independentemente de (Z)
  • Nunca-tomadores (never-takers): nunca recebem o tratamento
  • Contrários (defiers): fazem o oposto (geralmente assumidos como inexistentes)

Sob premissas adicionais (notadamente monotonicidade (monotonicity), isto é, ausência de contrários), o estimando de Wald identifica o efeito causal médio entre aderentes.

Isso é crucial na prática: sua estimativa por VI pode se aplicar ao subgrupo cujo comportamento é alterado pelo instrumento (por exemplo, estudantes que frequentam a faculdade apenas porque ela é próxima).

Premissas adicionais-chave para LATE

Além de relevância e independência/exclusão, LATE tipicamente usa:

  • Monotonicidade: (T(1) \ge T(0)) para todos (o instrumento não afasta algumas pessoas do tratamento enquanto aproxima outras).
  • SUTVA / sem interferência (SUTVA / no interference): o instrumento/tratamento de uma pessoa não afeta o desfecho de outra (frequentemente violado em redes/marketplaces).

Premissas em detalhe (e como podem falhar)

1) Relevância (força do primeiro estágio)

Requisito: o instrumento deve deslocar o tratamento de maneira significativa.

Modos comuns de falha:

  • O instrumento é fraco (pequeno efeito sobre (T)); as estimativas ficam ruidosas e viesadas em amostras finitas (finite samples).
  • O instrumento afeta uma “versão” diferente do tratamento daquela que você quer (por exemplo, altera elegibilidade do anúncio mas não a exposição real).

Checagens práticas:

  • Estatística (F) do primeiro estágio (regra prática: (F > 10) em cenários simples; não é garantia).
  • Reportar coeficientes do primeiro estágio e (R^2) parcial.

2) Restrição de exclusão (sem efeito direto no desfecho)

Requisito: (Z) afeta (Y) apenas por meio de (T).

Modos comuns de falha:

  • (Z) altera outros comportamentos que afetam (Y) (por exemplo, o encorajamento muda a motivação, não apenas a adesão ao tratamento).
  • (Z) altera mensuração/seleção (por exemplo, o instrumento afeta se os desfechos são observados).

A exclusão frequentemente não é testável a partir dos dados sem premissas extras. Em geral, exige conhecimento do domínio e desenho cuidadoso.

3) Independência / atribuição como se aleatória

Requisito: (Z) não é correlacionado com determinantes não observados de (Y).

Modos comuns de falha:

  • (Z) é escolhido por agentes que antecipam desfechos (comportamento estratégico).
  • (Z) se correlaciona com geografia, sazonalidade, status socioeconômico ou estado da plataforma (platform state).
  • Causas comuns ocultas de (Z) e (Y).

Às vezes, você pode aumentar a credibilidade controlando covariáveis (X) e argumentando independência condicional (conditional independence): [ Z \perp!!!\perp U \mid X ]

4) Monotonicidade (para interpretação LATE)

Frequentemente plausível para instrumentos de “encorajamento”, mas pode falhar quando:

  • O instrumento altera incentivos em direções opostas para diferentes subgrupos.
  • O instrumento é multidimensional ou interage com regras de política.

Instrumentos em grafos causais

VI é mais fácil de analisar com grafos acíclicos direcionados (directed acyclic graphs, DAGs), como discutido em Grafos Causais. O DAG “clássico” de VI:

  • (Z \rightarrow T \rightarrow Y)
  • (U \rightarrow T), (U \rightarrow Y)

A restrição de exclusão é equivalente a dizer não existe aresta (Z \rightarrow Y) e não existe caminho direcionado alternativo de (Z) para (Y) que contorne (T). A independência corresponde a não haver um caminho backdoor (backdoor path) (Z \leftarrow U \rightarrow Y) (isto é, (Z) não compartilha causas com (Y)).

Esse enquadramento ajuda a auditar premissas: se você consegue desenhar uma seta plausível de (Z) para (Y) que não passe por (T), a exclusão está ameaçada.

Fluxo de trabalho prático com VI

Passo 1: Definir tratamento, desfecho e estimando

  • O que exatamente é (T)? (Exposição binária, dosagem, preço, posição no ranking, etc.)
  • Que efeito causal você quer? ATE, LATE ou um efeito relevante para política?
  • Sobre qual população?

Passo 2: Propor e defender um instrumento

Escreva a história causal:

  • Por que (Z) afeta (T)? (mecanismo para relevância)
  • Por que (Z) não deveria afetar (Y) exceto por meio de (T)? (exclusão)
  • Por que (Z) é independente de não observáveis que afetam (Y)? (independência)

Seja explícito sobre ameaças e mitigações.

Passo 3: Estimar com método apropriado

  • Desfechos contínuos lineares: 2SLS
  • Heterocedasticidade (heteroskedasticity): erros-padrão robustos (robust standard errors)
  • Cenários com agrupamentos: erros-padrão agrupados (clustered standard errors, clustered SEs) (por exemplo, por geografia, usuário, campanha)

Passo 4: Diagnosticar força do instrumento e sensibilidade

  • Força do primeiro estágio (por exemplo, estatística (F))
  • Comparar MQO (Ordinary Least Squares, OLS) vs VI para entender a direção do confundimento
  • Se houver múltiplos instrumentos, usar testes de sobreidentificação (overidentification tests) com cautela (eles testam consistência conjunta, não a veracidade da exclusão)

Passo 5: Interpretar como LATE quando apropriado

Se os efeitos do tratamento forem heterogêneos, interprete VI como um efeito para aderentes — descreva quem eles podem ser.

Exemplo: 2SLS em Python

Abaixo está um exemplo mínimo usando linearmodels (comum para VI econométrica em Python). Suponha:

  • y: outcome (e.g., earnings)
  • t: treatment (e.g., schooling)
  • z: instrument (e.g., distance to college)
  • x1, x2: controls
import pandas as pd
from linearmodels.iv import IV2SLS

# df columns: y, t, z, x1, x2
formula = "y ~ 1 + x1 + x2 + [t ~ z]"
model = IV2SLS.from_formula(formula, data=df)
res = model.fit(cov_type="robust")
print(res.summary)

Notas:

  • y ~ 1 + x1 + x2 especifica os controles da equação estrutural.
  • [t ~ z] especifica o primeiro estágio: instrumentar t com z.
  • Use cov_type="clustered" com um argumento clusters= quando apropriado.

Múltiplos instrumentos e sobreidentificação

Quando você tem mais instrumentos do que variáveis endógenas (endogenous variables) (por exemplo, dois instrumentos para um tratamento), o modelo é sobreidentificado (overidentified). Isso pode melhorar a precisão, mas introduz novas questões:

  • Cada instrumento deve satisfazer exclusão e independência.
  • Instrumentos podem identificar LATEs diferentes se deslocarem subpopulações diferentes.
  • Testes de sobreidentificação (por exemplo, Sargan/Hansen J) às vezes são usados, mas:
    • Eles não provam validade.
    • Podem ter baixo poder ou ser enganosos com instrumentos fracos.

Instrumentos fracos: por que são perigosos

Instrumentos fracos (pouco relevantes) causam:

  • Variância grande (intervalos de confiança (confidence intervals) muito amplos)
  • Viés em amostras finitas em direção a MQO
  • Distribuições amostrais não normais (inferência (inference) padrão se torna pouco confiável)

Mitigações práticas:

  • Buscar instrumentos mais fortes por desenho (melhor variação quase aleatória).
  • Usar inferência robusta a instrumentos fracos (por exemplo, testes de Anderson–Rubin (Anderson–Rubin tests), LIML (Limited Information Maximum Likelihood, LIML) em cenários lineares).
  • Reportar sensibilidade e comunicar claramente a incerteza.

Além de VI linear: não linearidade e VI baseadas em aprendizado de máquina

Sistemas modernos de aprendizado de máquina frequentemente envolvem relações não lineares, covariáveis de alta dimensionalidade e aproximação flexível de funções. O 2SLS clássico pode ser insuficiente.

Abordagens de função de controle (control function)

Uma abordagem comum para modelos não lineares do desfecho é:

  1. modelar o tratamento com instrumentos para obter um resíduo (\hat{\nu})
  2. incluir (\hat{\nu}) no modelo do desfecho para corrigir endogeneidade (endogeneity)

Isso exige premissas de modelagem mais fortes, mas pode funcionar bem na prática.

GMM e estimação baseada em momentos

O Método dos Momentos Generalizado (Generalized Method of Moments, GMM) generaliza VI ao usar condições de momento (moment conditions) como: [ \mathbb{E}\left[ Z \cdot (Y - \beta T) \right] = 0 ] GMM é útil com heterocedasticidade, múltiplos instrumentos e momentos customizados.

“VI com aprendizado de máquina” (“IV with ML”) (DML, DeepIV, etc.)

Em inferência causal orientada por aprendizado de máquina, você pode estimar componentes auxiliares (nuisance components) (como (\mathbb{E}[T \mid Z, X])) usando modelos flexíveis e então inseri-los em um estimador ortogonalizado (orthogonalized estimator) para reduzir viés.

Temas comuns:

  • Ajuste cruzado (cross-fitting) para evitar viés por sobreajuste
  • Momentos ortogonais (Orthogonal) (duplamente robustos (doubly robust) / Neyman-ortogonais (Neyman-orthogonal)) para estabilizar a estimação
  • Predição flexível de primeiro estágio (florestas aleatórias (random forests), reforço por gradiente (gradient boosting), redes neurais (neural nets))

Esses métodos podem ser poderosos em problemas de alta dimensionalidade, mas não eliminam a necessidade de instrumentos válidos. Eles lidam com a dificuldade de estimação, não de identificação.

Aplicações na prática de IA/ML

Sistemas de recomendação e ranqueamento

Dados registrados frequentemente sofrem de viés de exposição (exposure bias): itens exibidos com maior frequência recebem mais cliques, mas a exposição não é aleatória. Se a plataforma tiver aleatorização no ranking (por exemplo, buckets de exploração), essa aleatoriedade pode servir como instrumento para exposição ou posição.

VI pode estimar o efeito causal da exposição sobre engajamento, ajudando a corrigir sinais viesados de aprendizado para ranqueamento (learning-to-rank).

Avaliação causal de intervenções sem testes A/B completos

Quando você não consegue randomizar o tratamento diretamente (por exemplo, um lançamento gradual de funcionalidade (feature rollout) com adesão parcial (partial compliance)), um instrumento de incentivo (encouragement instrument) (elegibilidade, atribuição, cota) pode identificar efeitos causais entre aderentes.

Isso se relaciona à prática de experimentação, mas VI aborda especificamente não adesão (noncompliance) e adoção endógena (endogenous uptake).

Efeitos causais de atributos com erro de mensuração

Se um atributo importante é medido com erro (comum em sensores ou atributos de usuário), coeficientes de MQO são viesados (atenuação (attenuation)). Instrumentos correlacionados com o atributo verdadeiro, mas não correlacionados com o erro de mensuração, podem corrigir isso.

Armadilhas comuns e como evitá-las

  • Escolher instrumentos apenas por correlação: alta correlação com (T) não garante validade.
  • Esquecer o estimando: VI frequentemente estima LATE, não ATE. Declare a qual população o efeito se aplica.
  • Violar exclusão via controles “colisores (collider)”: controlar variáveis afetadas por (Z) ou (T) pode introduzir viés. Use raciocínio causal (veja Confundimento e Ajuste).
  • Múltiplas versões do tratamento: se (Z) muda como o tratamento é entregue, interprete com cuidado.
  • Interferência e efeitos de transbordamento (spillovers): comuns em redes e marketplaces; podem quebrar SUTVA e distorcer a interpretação de VI.

Relação com outras ferramentas de inferência causal

  • Se você consegue medir todos os confundidores, pode preferir métodos de ajuste em Confundimento e Ajuste.
  • VI é útil quando o confundimento é não observado e existe um instrumento crível.
  • VI complementa diagramas causais em Grafos Causais ao oferecer um caminho para identificação mesmo quando o ajuste backdoor (backdoor adjustment) é impossível.
  • Se seu objetivo são efeitos individualizados para direcionamento (targeting), VI não é primordialmente um método de uplift; veja Modelagem de Uplift para abordagens de heterogeneidade de efeito de tratamento (treatment effect heterogeneity) (embora VI possa ser estendida a efeitos heterogêneos com premissas mais fortes e estimadores especializados).

Resumo

Variáveis Instrumentais fornecem uma forma fundamentada de estimar efeitos causais na presença de confundimento não observado ao explorar uma fonte externa de variação — um instrumento — que:

  • desloca o tratamento (relevância),
  • é independente de determinantes não observados do desfecho (independência),
  • e afeta o desfecho apenas por meio do tratamento (exclusão).

Em muitos cenários realistas com efeitos heterogêneos, VI identifica um efeito causal local (LATE) para o subconjunto de unidades cujo tratamento é alterado pelo instrumento. VI é poderosa, mas intensiva em premissas: as partes mais difíceis geralmente não são a matemática, e sim defender a validade do instrumento e interpretar o estimando corretamente.

Se você já tem um instrumento candidato em mente, um bom próximo passo é desenhar o grafo causal, articular as ameaças à exclusão/independência e verificar a força — antes de confiar em estimativas por VI para decisões.