Rao–Blackwellização (Rao–Blackwellization)

Visão geral

Rao–Blackwellização (Rao–Blackwellization) é uma técnica geral de redução de variância (variance-reduction technique) para estimação estatística. Ela melhora um estimador (estimator) ao substituí-lo por sua esperança condicional (conditional expectation) dada alguma quantidade informativa — frequentemente uma estatística suficiente (sufficient statistic) — ou, em termos de modelagem probabilística, ao marginalizar analiticamente (integrating out) variáveis latentes (latent variables) tratáveis analiticamente em vez de amostrá-las.

Na prática de IA/AM (AI/ML), a Rao–Blackwellização aparece sempre que conseguimos fazer parte de um problema de inferência exatamente e só precisamos de aleatoriedade para o restante. Exemplos comuns incluem:

Transformar um estimador de Monte Carlo ruidoso em um menos ruidoso por condicionamento.
“Colapsar” variáveis em Monte Carlo via Cadeias de Markov (por exemplo, amostragem de Gibbs colapsada (collapsed Gibbs sampling)).
Filtros de partículas Rao–Blackwellizados (Rao–Blackwellized particle filters) que amostram apenas a parte difícil (não linear/não gaussiana (nonlinear/non-Gaussian)) de um estado, enquanto filtram analiticamente o restante (frequentemente com um Filtro de Kalman).

A razão central pela qual isso funciona é uma identidade básica: condicionamento reduz variância. A garantia formal é o teorema de Rao–Blackwell (Rao–Blackwell theorem).

A ideia central: substituir um estimador por uma esperança condicional

Suponha que você queira estimar alguma quantidade (\theta) (um parâmetro ou uma função de uma distribuição), e você tem um estimador (T(X)) baseado em dados (X).

A Rao–Blackwellização constrói um novo estimador: [ T_{\text{RB}}(X) ;=; \mathbb{E}[T(X)\mid S(X)], ] onde (S(X)) é alguma estatística (uma função dos dados). Intuitivamente:

(T(X)) pode flutuar devido a uma aleatoriedade “irrelevante” em (X).
Condicionar em (S(X)) faz uma média dessa aleatoriedade extra, preservando a parte que importa.

Se (S(X)) for bem escolhida (especialmente se for suficiente), o novo estimador tende a ser estritamente melhor.

Por que a variância diminui: o teorema de Rao–Blackwell

A lei da variância total (law of total variance) (a intuição-chave)

Uma identidade muito geral é: [ \mathrm{Var}(T) ;=; \mathbb{E}\big[\mathrm{Var}(T \mid S)\big] ;+; \mathrm{Var}\big(\mathbb{E}[T\mid S]\big). ]

Como (\mathbb{E}[\mathrm{Var}(T \mid S)] \ge 0), obtemos imediatamente: [ \mathrm{Var}\big(\mathbb{E}[T\mid S]\big) ;\le; \mathrm{Var}(T). ]

Logo, o estimador por esperança condicional (T_{\text{RB}} = \mathbb{E}[T\mid S]) tem variância não maior do que (T).

Teorema de Rao–Blackwell (enunciado típico)

Seja (T) um estimador de (\theta) com variância finita, e seja (S) uma estatística suficiente para (\theta). Defina [ T_{\text{RB}} = \mathbb{E}[T\mid S]. ] Então:

Se (T) for não viesado (unbiased) para (\theta), então (T_{\text{RB}}) também é não viesado.
(\mathrm{Var}(T_{\text{RB}}) \le \mathrm{Var}(T)).
Sob condições brandas, se (S) adicionalmente for completa (complete), (T_{\text{RB}}) é o estimador não viesado de variância mínima único (este é o teorema de Lehmann–Scheffé (Lehmann–Scheffé theorem), intimamente relacionado à Rao–Blackwellização).

Em muitas aplicações de AM, nos importamos menos com não viesamento e mais com menor erro de Monte Carlo. A mesma ideia de condicionamento ainda se aplica: esperanças condicionais reduzem variância mesmo quando o objetivo é aproximar numericamente uma esperança.

Um exemplo clássico concreto: estimação do parâmetro de Bernoulli

Seja (X_1,\dots,X_n \sim \text{Bernoulli}(p)). Queremos estimar (p).

Um estimador (ruim, mas não viesado) é (T = X_1). Claramente, (\mathbb{E}[X_1] = p), mas ele usa apenas uma amostra.
Uma estatística suficiente para (p) é (S = \sum_{i=1}^n X_i).

Rao–Blackwellize: [ T_{\text{RB}} = \mathbb{E}[X_1 \mid S]. ]

Dado (S=s), a simetria nos diz que cada uma das (n) tentativas de Bernoulli tem a mesma probabilidade de ser um dos (s) sucessos, então: [ \mathbb{E}[X_1 \mid S=s] = \frac{s}{n}. ]

Portanto, [ T_{\text{RB}} = \frac{1}{n}\sum_{i=1}^n X_i, ] que é a média amostral, o estimador padrão — agora derivado como uma melhoria de Rao–Blackwell. Sua variância é: [ \mathrm{Var}\left(\frac{S}{n}\right) = \frac{p(1-p)}{n} ;\le; p(1-p) = \mathrm{Var}(X_1). ]

A Rao–Blackwellização aqui formaliza um princípio simples: use toda a informação que você já tem.

Rao–Blackwellização como “marginalização analítica (analytic marginalization)” na estimação por Monte Carlo

Na IA/AM moderna, a Rao–Blackwellização é frequentemente usada nesta forma:

Se você consegue marginalizar analiticamente algumas variáveis, faça isso — e então amostre apenas o que restar.

Uma configuração genérica de Monte Carlo

Suponha que você queira: [ \mu = \mathbb{E}[f(X,Y)], ] onde ((X,Y)\sim p(x,y)).

Um estimador simples de Monte Carlo amostra ((x^{(i)},y^{(i)})) e faz a média: [ \hat{\mu}{\text{MC}} = \frac{1}{N}\sum{i=1}^N f(x^{(i)},y^{(i)}). ]

Se a esperança condicional [ g(x) = \mathbb{E}[f(X,Y)\mid X=x] ] for tratável, a Rao–Blackwellização produz: [ \hat{\mu}{\text{RB}} = \frac{1}{N}\sum{i=1}^N g(x^{(i)}), \quad \text{with } x^{(i)}\sim p(x). ]

Esse estimador tem a mesma média, mas menor (ou igual) variância porque condiciona em (X) e faz a média da aleatoriedade de (Y).

Exemplo prático: marginalizar uma variável latente gaussiana

Assuma um modelo simples:

(X \sim p(x)) (qualquer distribuição da qual você consiga amostrar)
(Y \mid X=x \sim \mathcal{N}(m(x), \Sigma))
Você precisa de (\mathbb{E}[f(X,Y)])

Se (f) for linear ou quadrática em (Y), ou se tiver uma esperança gaussiana conhecida, então (g(x)=\mathbb{E}[f(x,Y)]) muitas vezes pode ser computada em forma fechada, eliminando a necessidade de amostrar (Y).

Padrão simples de pseudocódigo

# Plain MC: sample (x, y)
mu_hat = 0.0
for i in range(N):
    x = sample_p_x()
    y = sample_p_y_given_x(x)
    mu_hat += f(x, y)
mu_hat /= N

# Rao–Blackwellized MC: sample x, compute E[f | x] analytically
mu_hat = 0.0
for i in range(N):
    x = sample_p_x()
    mu_hat += analytic_expectation_of_f_given_x(x)  # g(x)
mu_hat /= N

Em alta dimensionalidade, substituir amostragem aleatória por esperanças analíticas pode reduzir drasticamente o ruído de Monte Carlo.

Rao–Blackwellização em MCMC: amostradores colapsados

Em Monte Carlo via Cadeias de Markov, você frequentemente amostra de uma posterior (posterior) (p(z,\theta \mid x)) sobre variáveis latentes (z) e parâmetros (\theta). A Rao–Blackwellização aparece como:

Colapso (collapsing): marginalizar (\theta) analiticamente para amostrar apenas (z), [ p(z\mid x) = \int p(z,\theta \mid x),d\theta, ] e então, opcionalmente, recuperar momentos de (\theta) depois.
Estimadores Rao–Blackwellizados de esperanças da posterior: mesmo que você ainda amostre (\theta), você pode estimar quantidades como (\mathbb{E}[h(\theta)\mid x]) com variância reduzida ao condicionar em partes do estado de Markov onde a esperança condicional é tratável.

Um exemplo clássico em AM ocorre em modelos de tópicos (topic models) (por exemplo, LDA): a amostragem de Gibbs colapsada integra parâmetros Dirichlet-multinomial e amostra atribuições discretas. O benefício-chave costuma ser melhor mistura (mixing) e menor variância do estimador — embora o custo computacional por iteração possa aumentar.

Filtros de partículas Rao–Blackwellizados (RBPFs) em modelos em espaço de estados (state-space models)

O problema de filtragem (filtering)

Em filtragem, você tem um estado latente (s_t) evoluindo ao longo do tempo com observações (o_t). O objetivo é estimar a posterior: [ p(s_t \mid o_{1:t}). ]

Um filtro de partículas (particle filter) (um tipo de Monte Carlo Sequencial) aproxima essa posterior com amostras ponderadas (partículas). Filtros de partículas padrão podem ter dificuldades quando a dimensão do estado é grande.

Ideia-chave de RBPF: dividir o estado em partes “difíceis” e “fáceis”

Particione o estado: [ s_t = (x_t, z_t) ] de modo que:

(x_t) seja difícil (por exemplo, não linear ou não gaussiano).
(z_t) seja condicionalmente tratável dado (x_{1:t}) e as observações (frequentemente linear-gaussiano (linear-Gaussian)).

Então: [ p(x_t, z_t \mid o_{1:t}) = p(z_t \mid x_{1:t}, o_{1:t}) , p(x_t \mid o_{1:t}). ]

Um RBPF:

usa partículas para representar (p(x_t \mid o_{1:t})),
e para cada partícula mantém um filtro analítico (analytic filter) para (p(z_t \mid x_{1:t}, o_{1:t})) (comumente um filtro de Kalman).

Isso é Rao–Blackwellização porque estamos substituindo a amostragem sobre (z_t) por um cálculo condicional exato.

Por que isso ajuda

Pesos de menor variância: marginalizar (z_t) torna as estimativas de verossimilhança (likelihood) menos ruidosas.
Menos partículas necessárias: a dimensionalidade efetiva é reduzida (amostrando apenas (x_t)).
Melhor acurácia por computação: especialmente quando a subestrutura tratável é substancial.

Exemplo: modelos condicionalmente lineares-gaussianos

Uma estrutura comum é:

(x_t) segue alguma dinâmica não linear.
Dado (x_t), o subestado (z_t) evolui linearmente e as observações são lineares: [ z_t = A(x_t)z_{t-1} + \epsilon_t,\quad o_t = H(x_t)z_t + \eta_t ] com ruído gaussiano.

Condicionado a uma trajetória de partículas (x_{1:t}), o modelo em (z_t) é linear-gaussiano, então a filtragem de Kalman se aplica.

Esboço do algoritmo de RBPF

Para cada passo de tempo (t):

Propagar partículas: amostrar (x_t^{(i)} \sim q(x_t \mid x_{t-1}^{(i)}, o_t)).
Atualizar o condicional analítico: atualizar o filtro de Kalman para (z_t) dentro de cada partícula, obtendo:
- a média/covariância condicionais de (z_t),
- a contribuição de verossimilhança marginal (marginal likelihood) (p(o_t \mid x_{1:t}^{(i)}, o_{1:t-1})).
Ponderar partículas usando a verossimilhança marginal (e a correção da proposta (proposal correction)).
Reamostrar (resample) se o tamanho efetivo da amostra (effective sample size) cair.

Esse padrão é amplamente usado em robótica (por exemplo, variantes de SLAM), rastreamento e qualquer domínio com componentes discretos/contínuos ou não lineares/lineares.

Quando e como aplicar Rao–Blackwellização na prática

Bons candidatos para Rao–Blackwellização

Você deve buscar estrutura condicional onde:

Algumas variáveis têm priores conjugados (conjugate priors) (integrar parâmetros).
Alguns condicionais são gaussianos e lineares (usar atualizações ao estilo Kalman).
Algumas partes têm suporte finito pequeno (somar exatamente em vez de amostrar).
Você consegue computar (\mathbb{E}[f\mid S]) de forma barata em relação à redução de ruído de amostragem.

Um modelo mental útil é: “Posso substituir sorteios aleatórios por esperanças condicionais exatas?”

Trade-offs e armadilhas

Computação vs variância: Rao–Blackwellização normalmente reduz variância, mas pode aumentar a computação por amostra. O objetivo é melhor erro por unidade de computação.
Complexidade de implementação: RBPFs exigem organização cuidadosa (um filtro analítico por partícula).
Estabilidade numérica: sub-rotinas analíticas (por exemplo, filtragem de Kalman) devem ser estáveis e bem condicionadas.
Nem sempre é um ganho líquido: se a parte tratável analiticamente for minúscula ou cara, a amostragem simples pode ser mais rápida no total.

Relação com outras ferramentas de redução de variância

A Rao–Blackwellização é uma entre várias técnicas de redução de variância de Monte Carlo e combina bem com outras:

Variáveis de Controle: reduzir variância subtraindo termos correlacionados com esperança conhecida.
Amostragem por Importância: mudar a distribuição de amostragem para focar regiões de alta contribuição; a Rao–Blackwellização pode ser aplicada dentro de um amostrador por importância ao marginalizar condicionais.
Monte Carlo Sequencial: métodos de partículas ao longo do tempo; RBPF é uma grande variante especializada.

Uma regra prática: se você já está amostrando um subconjunto de variáveis, pergunte-se se quaisquer variáveis remanescentes podem ser colapsadas (marginalizadas) ou condicionadas para reduzir o ruído do estimador.

Uma “ideia de prova” compacta que você pode reutilizar

Se você precisar justificar Rao–Blackwellização em uma derivação de AM, os dois fatos a seguir geralmente bastam:

O não viesamento é preservado: [ \mathbb{E}[T_{\text{RB}}] = \mathbb{E}[\mathbb{E}[T\mid S]] = \mathbb{E}[T]. ]
A variância não pode aumentar (lei da variância total): [ \mathrm{Var}(T) = \mathbb{E}[\mathrm{Var}(T\mid S)] + \mathrm{Var}(\mathbb{E}[T\mid S]) ;\Rightarrow; \mathrm{Var}(T_{\text{RB}})\le \mathrm{Var}(T). ]

É por isso que a Rao–Blackwellização é frequentemente descrita como uma forma principiada de “fazer a média” de aleatoriedade desnecessária.

Resumo

Rao–Blackwellização melhora um estimador ao substituí-lo por uma esperança condicional dada uma estatística ou um subconjunto de variáveis.
Ela reduz variância porque o condicionamento remove variabilidade devido a componentes não capturadas pela informação de condicionamento (formalizado pelo teorema de Rao–Blackwell / lei da variância total).
Em IA/AM, ela frequentemente aparece como marginalização analítica: marginalizar variáveis latentes ou parâmetros tratáveis em vez de amostrá-los.
Aplicações importantes incluem MCMC colapsado e filtros de partículas Rao–Blackwellizados, que combinam amostragem por partículas com inferência condicional exata (por exemplo, filtragem de Kalman) para escalar a filtragem a modelos mais ricos.

Se você já está usando métodos de Monte Carlo e nota muito ruído no estimador, a Rao–Blackwellização é uma das primeiras técnicas a verificar — especialmente quando seu modelo tem estrutura condicional que admite computações exatas.