Informação de Fisher
Visão geral e intuição
A informação de Fisher (Fisher information) quantifica quanto uma variável aleatória (X) (por meio da sua verossimilhança (likelihood)) informa sobre um parâmetro desconhecido (\theta) de um modelo probabilístico (p(x\mid \theta)). Informalmente:
- Se pequenas mudanças em (\theta) causam mudanças grandes e consistentes na verossimilhança dos dados observados, então (\theta) é fácil de estimar e a informação de Fisher é alta.
- Se a verossimilhança quase não muda com (\theta), então (\theta) é difícil de estimar e a informação de Fisher é baixa.
Em IA/AM (AI/ML), a informação de Fisher aparece em:
- o limite inferior de Cramér–Rao (Cramér–Rao lower bound) (limites fundamentais da estimação não viesada),
- a normalidade assintótica (asymptotic normality) e a variância da Estimação por Máxima Verossimilhança (MLE),
- aproximações de Laplace (Laplace approximations) para posteriores bayesianos (aproximações Gaussianas locais),
- métodos de gradiente natural (natural gradient) (otimização sensível à geometria), usados em partes do aprendizado profundo e em métodos variacionais.
Este artigo foca na definição padrão, formas equivalentes, propriedades-chave e usos práticos.
Configuração: verossimilhança e escore
Seja (X \sim p(x\mid \theta)), onde (\theta) pode ser escalar ou vetorial.
- Log-verossimilhança (log-likelihood): (\ell(\theta; x) = \log p(x\mid \theta))
- Função escore (score function) (o gradiente (gradient) da log-verossimilhança): [ s(\theta; x) = \nabla_\theta \ell(\theta; x) = \nabla_\theta \log p(x\mid \theta) ]
O escore mede como a log-verossimilhança muda localmente conforme (\theta) muda.
Definição (parâmetro escalar)
Para (\theta) escalar, a informação de Fisher em uma observação é: [ \mathcal{I}(\theta) = \mathbb{E}\left[\left(\frac{\partial}{\partial \theta} \log p(X\mid \theta)\right)^2 ,\middle|, \theta \right] ] onde a esperança é sobre (X \sim p(\cdot\mid \theta)).
Isso é o escore ao quadrado em esperança. Grande magnitude do escore (em esperança) significa que os dados são informativos sobre (\theta).
Forma equivalente de “Hessiana esperada”
Sob condições de regularidade (regularity conditions) padrão (diferenciação sob o sinal de integral é válida; o suporte (support) não depende de (\theta); as caudas se comportam bem), a informação de Fisher também é igual a: [ \mathcal{I}(\theta) = -\mathbb{E}\left[\frac{\partial^2}{\partial \theta^2} \log p(X\mid \theta) ,\middle|, \theta \right] ]
Interpretação: a informação de Fisher é a (esperada) curvatura (curvature) da log-verossimilhança; mais curvatura significa um pico mais “afiado” e estimação mais precisa.
Por que as duas formas coincidem (esboço)
Uma identidade-chave é que o escore tem média zero: [ \mathbb{E}[s(\theta; X)] = 0 ] Diferenciando essa esperança com respeito a (\theta) (sob condições de regularidade) obtém-se a equivalência entre o escore quadrático esperado e a Hessiana negativa esperada.
Informação de Fisher multivariada (forma matricial)
Se (\theta \in \mathbb{R}^d), a informação de Fisher é uma matriz (d \times d) semidefinida positiva (positive semidefinite matrix): [ \mathbf{I}(\theta) = \mathbb{E}\left[ s(\theta; X), s(\theta; X)^\top \right] = -\mathbb{E}\left[\nabla_\theta^2 \log p(X\mid \theta)\right] ]
- Entradas diagonais: informação sobre cada dimensão do parâmetro.
- Entradas fora da diagonal: acoplamento (como parâmetros “compensam” uns aos outros).
Informação observada vs esperada
Dado um conjunto de dados observado, também se vê:
- Informação observada (observed information) (dependente dos dados): [ \mathbf{J}(\theta) = -\nabla_\theta^2 \log p(x\mid \theta) ]
- Informação esperada (expected information) (expectativa do modelo): (\mathbf{I}(\theta))
Para amostras grandes e modelos bem especificados, (\mathbf{J}(\hat\theta)) e (\mathbf{I}(\theta)) frequentemente ficam próximas, mas não são idênticas em amostras finitas.
Informação de Fisher para conjuntos de dados i.i.d.
Para dados i.i.d. (independentes e identicamente distribuídos; independent and identically distributed) (D={x_1,\dots,x_n}) com [ \log p(D\mid \theta) = \sum_{i=1}^n \log p(x_i\mid \theta), ] a informação de Fisher se soma: [ \mathbf{I}_n(\theta) = n,\mathbf{I}_1(\theta) ]
Isso captura um fato estatístico central: dobrar os dados tipicamente reduz pela metade a variância do estimador (no regime assintótico).
Exemplos práticos
Exemplo 1: lançamentos de moeda Bernoulli(\(\theta\))
Seja (X\in{0,1}), (p(x\mid \theta)=\theta^x(1-\theta)^{1-x}), com (\theta\in(0,1)).
Log-verossimilhança: [ \ell(\theta;x) = x\log\theta + (1-x)\log(1-\theta) ] Escore: [ \frac{\partial}{\partial\theta}\ell(\theta;x)=\frac{x}{\theta} - \frac{1-x}{1-\theta} ] Informação de Fisher: [ \mathcal{I}(\theta)=\mathbb{E}\left[\left(\frac{X}{\theta} - \frac{1-X}{1-\theta}\right)^2\right] = \frac{1}{\theta(1-\theta)} ]
Pontos principais:
- A informação é menor perto de (\theta=0.5)? Na verdade, (\frac{1}{\theta(1-\theta)}) é maior perto de 0 ou 1 e menor em 0.5 (onde vale 4).
- Intuição: se a moeda é extremamente viciada, um único lançamento é mais “diagnóstico” quanto à direção do viés, embora estimar (\theta) perto das fronteiras tenha outros problemas práticos (restrições, viés em amostras finitas).
Para (n) lançamentos: (\mathcal{I}_n(\theta)=\frac{n}{\theta(1-\theta)}).
Exemplo 2: média normal com variância conhecida
Seja (X\sim \mathcal{N}(\mu,\sigma^2)) com (\sigma^2) conhecida, parâmetro (\theta=\mu).
Log-verossimilhança (até constantes): [ \ell(\mu;x) = -\frac{(x-\mu)^2}{2\sigma^2} ] Escore: [ \frac{\partial}{\partial\mu}\ell(\mu;x)=\frac{x-\mu}{\sigma^2} ] Informação de Fisher: [ \mathcal{I}(\mu)=\mathbb{E}\left[\frac{(X-\mu)^2}{\sigma^4}\right]=\frac{\sigma^2}{\sigma^4}=\frac{1}{\sigma^2} ] Para (n) amostras i.i.d.: (\mathcal{I}_n(\mu)=\frac{n}{\sigma^2}).
Isso coincide com a variância familiar da média amostral: (\mathrm{Var}(\bar X)=\sigma^2/n), que é o inverso da informação de Fisher.
Pequeno trecho de código: checagem numérica da informação de Fisher (Bernoulli)
import numpy as np
def fisher_bernoulli(theta, n=1_000_000):
x = (np.random.rand(n) < theta).astype(float)
score = x/theta - (1-x)/(1-theta)
return np.mean(score**2)
for theta in [0.2, 0.5, 0.8]:
est = fisher_bernoulli(theta)
true = 1/(theta*(1-theta))
print(theta, est, true)
Em execuções de Monte Carlo grandes, est ficará próximo de true.
Propriedades-chave
Não negatividade e curvatura
- (\mathbf{I}(\theta)) é semidefinida positiva porque é a esperança de um produto externo (outer product) (ss^\top).
- Em modelos bem comportados, (\mathbf{I}(\theta)) se relaciona à curvatura típica da superfície de log-verossimilhança.
Aditividade para dados independentes
Se (X) e (Y) são independentes dado (\theta), então a informação se soma: [ \mathbf{I}_{X,Y}(\theta) = \mathbf{I}_X(\theta) + \mathbf{I}_Y(\theta) ]
Reparametrização e a métrica de Fisher–Rao
Se você muda de coordenadas (\phi=g(\theta)), a informação de Fisher se transforma como uma métrica Riemanniana (Riemannian metric): [ \mathbf{I}\phi(\phi)= \left(\frac{\partial \theta}{\partial \phi}\right)^\top \mathbf{I}\theta(\theta) \left(\frac{\partial \theta}{\partial \phi}\right) ]
Esse comportamento sensível a coordenadas é o motivo pelo qual a informação de Fisher sustenta a geometria da informação (information geometry) e o gradiente natural (ver abaixo).
Conexão local com a divergência de KL
Para pequenas mudanças de parâmetro (\delta), a informação de Fisher fornece a expansão de segunda ordem: [ \mathrm{KL}\big(p(\cdot\mid \theta),|,p(\cdot\mid \theta+\delta)\big) \approx \frac{1}{2},\delta^\top \mathbf{I}(\theta),\delta ] Assim, (\mathbf{I}(\theta)) mede quão rapidamente a distribuição muda em distância KL conforme você se move no espaço de parâmetros.
Limite de Cramér–Rao (limites da estimação não viesada)
Para um estimador não viesado (\hat\theta(X)) de (\theta) escalar, o limite inferior de Cramér–Rao (CRLB) diz: [ \mathrm{Var}(\hat\theta) \ge \frac{1}{\mathcal{I}_n(\theta)} ]
Para parâmetros vetoriais, a matriz de covariância satisfaz: [ \mathrm{Cov}(\hat\theta) \succeq \mathbf{I}_n(\theta)^{-1} ] (onde (\succeq) significa que a diferença é semidefinida positiva).
Implicações:
- A informação de Fisher estabelece um piso de variância (sob não viesamento + regularidade).
- Estimadores eficientes (como o MLE em muitos modelos regulares) podem atingir assintoticamente esse limite.
Isso é fundamental para teoria de estimação e se conecta naturalmente a Estimação e Teste de Hipóteses.
Normalidade assintótica e variância do MLE
Sob condições de regularidade padrão e especificação correta do modelo, o MLE (\hat\theta_{MLE}) satisfaz: [ \sqrt{n},(\hat\theta_{MLE}-\theta_0) \xrightarrow{d} \mathcal{N}\left(0,\ \mathbf{I}(\theta_0)^{-1}\right) ]
Equivalentemente, para (n) grande: [ \hat\theta_{MLE} \approx \mathcal{N}\left(\theta_0,\ \frac{1}{n}\mathbf{I}(\theta_0)^{-1}\right) ]
Consequências práticas:
- Erros-padrão (standard errors) em estatística clássica frequentemente são derivados de (\mathbf{I}_n(\hat\theta)^{-1}) ou (\mathbf{J}(\hat\theta)^{-1}).
- Isso sustenta intervalos de confiança e testes de Wald (Wald tests).
- Em AM, isso explica por que a curvatura importa e motiva métodos de segunda ordem (embora redes profundas violem algumas hipóteses).
Para mais sobre MLE, veja Estimação por Máxima Verossimilhança (MLE).
Aproximação de Laplace (posterior Bayesiano como uma Gaussiana local)
Em Inferência Bayesiana (Bayesian Inference), o posterior é: [ p(\theta\mid D) \propto p(D\mid \theta),p(\theta) ] A aproximação de Laplace aproxima o posterior perto do seu modo (mode) (\hat\theta) (estimativa MAP (maximum a posteriori, MAP)) por uma Gaussiana: [ p(\theta\mid D) \approx \mathcal{N}\left(\hat\theta,\ \mathbf{H}^{-1}\right) ] onde [ \mathbf{H} = -\nabla_\theta^2 \log p(\theta\mid D)\big|{\hat\theta} = -\nabla\theta^2 \left[\log p(D\mid \theta)+\log p(\theta)\right]_{\hat\theta} ]
Como a informação de Fisher entra:
- A Hessiana negativa do termo de log-verossimilhança é a informação observada (\mathbf{J}(\theta)).
- Para (n) grande, (\mathbf{J}(\hat\theta)\approx n,\mathbf{I}(\theta_0)), então a covariância posterior frequentemente escala como ((n\mathbf{I})^{-1}) (modulada pela curvatura do prior).
Esta é uma aproximação “coringa” em AM bayesiano, aparecendo em:
- estimativas aproximadas de incerteza para modelos paramétricos,
- aproximações da evidência (comparação de modelos),
- conexões com Critérios de Informação.
Gradiente natural: informação de Fisher como um precondicionador sensível à geometria
A Descida do Gradiente (Gradient Descent) padrão atualiza parâmetros usando a geometria Euclidiana do espaço de parâmetros: [ \theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L}(\theta) ] Mas, em modelos probabilísticos, um passo nos parâmetros não corresponde uniformemente a um passo na distribuição (p(\cdot\mid\theta)).
O gradiente natural usa a informação de Fisher para medir distâncias no espaço de distribuições (via divergência KL). A direção do gradiente natural é: [ \tilde{\nabla}\mathcal{L}(\theta)=\mathbf{I}(\theta)^{-1}\nabla_\theta \mathcal{L}(\theta) ] e a atualização se torna: [ \theta \leftarrow \theta - \eta, \mathbf{I}(\theta)^{-1}\nabla_\theta \mathcal{L}(\theta) ]
Interpretação:
- (\mathbf{I}(\theta)^{-1}) age como um precondicionador adaptativo (adaptive preconditioner).
- Ele é invariante a reparametrizações suaves (uma grande vantagem teórica em relação a gradientes “crus”).
Em aprendizado profundo, matrizes de Fisher exatas são enormes, então são usadas aproximações:
- Fisher diagonal (Diagonal Fisher) (barata, grosseira)
- Aproximações bloco-diagonais / fatoradas por Kronecker (Kronecker-factored) (por exemplo, K-FAC) para Redes Neurais (Neural Networks)
Gradientes naturais também se conectam de perto à otimização em Inferência Variacional (Variational Inference), onde o objetivo (frequentemente envolvendo termos de KL e o Limite Inferior da Evidência (ELBO) (Evidence Lower Bound (ELBO))) tem uma estrutura naturalmente informacional-geométrica.
Informação de Fisher em famílias exponenciais (atalho útil)
Para uma família exponencial (exponential family): [ p(x\mid \theta)=h(x)\exp\left(\eta(\theta)^\top T(x) - A(\eta(\theta))\right) ] a informação de Fisher tem formas elegantes. Em parâmetros naturais (natural parameters) (\eta): [ \mathbf{I}(\eta)=\nabla_\eta^2 A(\eta)=\mathrm{Cov}_\eta[T(X)] ] Assim, ela é igual à covariância das estatísticas suficientes (sufficient statistics) e também à Hessiana da função log-partição (log-partition function). Isso é amplamente usado em modelos lineares generalizados e em AM probabilístico.
Estimando a informação de Fisher na prática
Em pipelines reais de AM, raramente computamos expectativas exatas. Abordagens comuns incluem:
Informação observada (Hessiana da log-verossimilhança nos dados): [ \mathbf{J}(\hat\theta) = -\nabla^2 \log p(D\mid \theta)\big|_{\hat\theta} ] Requer derivadas de segunda ordem; pode ser aproximada com diferenciação automática e produtos Hessiana-vetor (Hessian-vector products).
Fisher empírica (empirical Fisher) (produto externo de gradientes em amostras observadas): [ \widehat{\mathbf{I}}{emp}(\theta) = \frac{1}{n}\sum{i=1}^n \nabla_\theta \log p(x_i\mid \theta), \nabla_\theta \log p(x_i\mid \theta)^\top ] Isso é fácil de computar com retropropagação (backprop), mas note:
- Ela coincide com a Fisher verdadeira apenas quando a expectativa é tomada sobre a distribuição do modelo (ou sob condições em que o empírico aproxima bem essa expectativa).
- Em modelos mal especificados ou com dados limitados, ela pode diferir substancialmente.
Fisher por Monte Carlo (Monte Carlo Fisher): amostrar (x^{(m)}\sim p(\cdot\mid \theta)) do modelo e promediar (ss^\top). Frequentemente usado em simuladores e em contextos de programação probabilística (ver Programação Probabilística (Probabilistic Programming)).
Armadilhas comuns e nuances
- Condições de regularidade importam: A identidade (\mathbf{I}=-\mathbb{E}[\text{Hessian}]) pode falhar quando o suporte depende de (\theta), em alguns modelos de mistura, ou em casos de fronteira/restrição.
- Informação de Fisher singular: Se parâmetros não são identificáveis (diferentes (\theta) geram a mesma distribuição), (\mathbf{I}) se torna singular. Isso pode ocorrer em modelos superparametrizados, incluindo redes profundas.
- Má especificação (misspecification): Se a distribuição verdadeira dos dados não está na família do modelo, a covariância assintótica clássica envolve uma forma “sanduíche”: [ \mathbf{H}^{-1}\mathbf{G}\mathbf{H}^{-1} ] onde (\mathbf{H}) é a Hessiana esperada e (\mathbf{G}) é a covariância do escore sob a distribuição verdadeira. A informação de Fisher ainda desempenha um papel, mas fórmulas ingênuas podem estar erradas.
Resumo
- A informação de Fisher mede o quão informativa a verossimilhança (p(x\mid\theta)) é sobre (\theta).
- Formas equivalentes:
- (\mathbf{I}(\theta)=\mathbb{E}[ss^\top]) (produto externo do escore)
- (\mathbf{I}(\theta)=-\mathbb{E}[\nabla^2 \log p(X\mid\theta)]) (Hessiana negativa esperada)
- Usos centrais em IA/AM:
- Limite de Cramér–Rao: limite inferior fundamental para a variância do estimador.
- Assintótica do MLE: (\hat\theta_{MLE}) é aproximadamente normal com covariância ((n\mathbf{I})^{-1}).
- Aproximação de Laplace: a covariância posterior se relaciona à curvatura/informação.
- Gradiente natural: usa (\mathbf{I}^{-1}) para se mover no espaço de distribuições (geometria de KL), motivando aproximações práticas em aprendizado profundo.
Para conceitos próximos, veja Estimação por Máxima Verossimilhança (MLE), Inferência Bayesiana, e Inferência Variacional.