Critérios de Informação

O que são critérios de informação?

Critérios de informação são uma família de estatísticas usadas para comparar modelos candidatos e selecionar entre eles equilibrando:

  • Qualidade de ajuste (o quão bem o modelo explica os dados observados), e
  • Complexidade do modelo (o quão flexível o modelo é, geralmente medida pelo número de parâmetros).

Eles são mais comumente usados em cenários em que os modelos são ajustados por máxima verossimilhança (maximum likelihood) ou em que uma verossimilhança (likelihood) pode ser avaliada (por exemplo, regressão linear com ruído Gaussiano, regressão logística, modelos de séries temporais, muitos modelos probabilísticos).

Os dois critérios mais conhecidos são:

  • AIC (Critério de Informação de Akaike (Akaike Information Criterion)): orientado para acurácia preditiva.
  • BIC (Critério de Informação Bayesiano (Bayesian Information Criterion)): orientado para comparação Bayesiana de modelos (aproximando a evidência do modelo).

Critérios de informação são especialmente úteis quando você quer uma alternativa leve a métodos de reamostragem repetida como Validação Cruzada, ou quando você quer uma penalização fundamentada para complexidade em vez de depender de heurísticas ad hoc.

A forma comum: ajuste menos penalidade

Muitos critérios de informação compartilham uma forma de “verossimilhança penalizada”:

[ \text{IC} = -2\log p(y \mid \hat{\theta}, M) + \text{penalty}(M, n) ]

onde:

  • (y) são os dados observados (frequentemente a variável resposta dadas as preditoras),
  • (M) é a classe de modelo,
  • (\hat{\theta}) é a estimativa de parâmetro ajustada (frequentemente o estimador de máxima verossimilhança),
  • (n) é o tamanho da amostra,
  • (-2\log p(y \mid \hat{\theta}, M)) é o desvio (deviance) (quanto menor, melhor),
  • a penalidade aumenta com a complexidade do modelo (quanto maior, pior).

Regra prática: Quanto menor, melhor. Critérios de informação são usados comparativamente: valores absolutos raramente são significativos por si só.

AIC: Critério de Informação de Akaike

Definição

Para um modelo com (k) parâmetros estimados e verossimilhança maximizada (L(\hat{\theta})):

[ \mathrm{AIC} = 2k - 2\log L(\hat{\theta}) ]

Visão equivalente:

  • Recompensa: (\log L(\hat{\theta})) maior (melhor ajuste)
  • Penalidade: (2k) (mais parâmetros, pior)

Fundamento teórico (por que o AIC tem essa forma)

O AIC vem de uma tentativa de estimar o erro preditivo esperado fora da amostra (out-of-sample). Mais precisamente, ele é derivado como um estimador (aproximadamente) não viesado de:

[ \mathbb{E}_{y^{\text{new}} \sim f}\left[-2\log p(y^{\text{new}} \mid \hat{\theta}(y), M)\right] ]

sob condições de regularidade, onde (f) é a distribuição verdadeira que gera os dados. A derivação é frequentemente explicada via divergência de Kullback–Leibler (KL) (Kullback–Leibler (KL) divergence): o AIC seleciona o modelo esperado para estar mais próximo (no sentido KL) da verdade desconhecida. Isso conecta o AIC intimamente à pontuação logarítmica (log scoring), um conceito-chave de Regras de Pontuação Próprias.

Em termos simples: o AIC foi projetado para escolher o modelo que melhor preverá novos dados (em expectativa), não necessariamente para identificar o modelo “verdadeiro”.

Quando o AIC é apropriado

O AIC costuma ser uma boa escolha padrão quando:

  • Você se importa principalmente com desempenho preditivo.
  • Nenhum dos modelos é considerado literalmente verdadeiro (comum em ML do mundo real).
  • (n) é razoavelmente grande em relação a (k), e os modelos não estão extremamente mal especificados.

AICc: AIC corrigido para amostras pequenas

Quando (n) é pequeno ou (k) não é desprezível em comparação a (n), o AIC tende a favorecer modelos excessivamente complexos. Uma correção padrão é:

[ \mathrm{AICc} = \mathrm{AIC} + \frac{2k(k+1)}{n-k-1} ]

AICc (\to) AIC quando (n \to \infty). Em muitos problemas do tipo regressão, o AICc é uma escolha mais segura, a menos que (n \gg k).

BIC: Critério de Informação Bayesiano

Definição

[ \mathrm{BIC} = k \log n - 2\log L(\hat{\theta}) ]

Comparado à penalidade (2k) do AIC, o BIC usa (k\log n), que cresce com o tamanho da amostra (n). Assim, o BIC penaliza a complexidade de forma mais forte à medida que os dados aumentam.

Fundamento teórico (aproximação da evidência Bayesiana)

O BIC surge como uma aproximação para grandes amostras da verossimilhança marginal logarítmica (log marginal likelihood) (evidência do modelo):

[ \log p(y \mid M) = \log \int p(y \mid \theta, M)p(\theta \mid M), d\theta ]

Usar uma aproximação de Laplace sob condições de regularidade resulta em:

[ -2\log p(y \mid M) \approx -2\log p(y \mid \hat{\theta}, M) + k\log n + \text{constant} ]

Portanto, minimizar o BIC corresponde aproximadamente a escolher o modelo com a maior probabilidade a posteriori (sob certos priors e suposições). Isso conecta o BIC diretamente à Inferência Bayesiana.

Quando o BIC é apropriado

O BIC é frequentemente preferido quando:

  • Você acredita que um dos modelos candidatos está próximo do processo “verdadeiro” de geração de dados (uma suposição mais forte).
  • Você quer um critério com tendência “consistente” de selecionar o modelo correto de dimensão finita quando (n\to\infty) (sob condições ideais).
  • Você se importa com identificação de modelo mais do que com pura predição.

Na prática, o BIC frequentemente seleciona modelos mais simples do que o AIC.

Interpretando diferenças: ΔAIC/ΔBIC e pesos

Como valores absolutos não são significativos, as comparações geralmente são feitas via diferenças:

[ \Delta_i = \mathrm{IC}_i - \min_j \mathrm{IC}_j ]

Heurísticas (aproximadas) comuns:

  • (\Delta \le 2): os modelos são apoiados de forma semelhante
  • (4 \le \Delta \le 7): suporte substancialmente menor
  • (\Delta \ge 10): essencialmente sem suporte relativo ao melhor

Pesos de Akaike (pesos de modelo baseados em AIC)

Diferenças de AIC podem ser convertidas em pesos que se assemelham a um suporte normalizado:

[ w_i = \frac{\exp(-\Delta_i/2)}{\sum_j \exp(-\Delta_j/2)} ]

Eles às vezes são usados para média de modelos (model averaging), embora seja preciso cuidado: eles não são probabilidades a posteriori Bayesianas, mas podem ser um resumo pragmático útil do suporte preditivo relativo.

Exemplo prático: seleção de atributos em regressão linear

Suponha que você tenha um conjunto de dados e esteja decidindo se deve incluir preditores extras. Em regressão linear com ruído Gaussiano, a máxima verossimilhança está intimamente relacionada a minimizar a soma dos quadrados dos resíduos, e bibliotecas comuns podem calcular AIC/BIC diretamente.

Exemplo em Python (statsmodels)

import statsmodels.api as sm
import pandas as pd

# Example structure:
# df has columns: y, x1, x2, x3
y = df["y"]

def fit_aic_bic(cols):
    X = sm.add_constant(df[cols])
    model = sm.OLS(y, X).fit()
    return model.aic, model.bic, model.rsquared, model

candidates = {
    "x1": ["x1"],
    "x1+x2": ["x1", "x2"],
    "x1+x2+x3": ["x1", "x2", "x3"],
}

rows = []
models = {}
for name, cols in candidates.items():
    aic, bic, r2, m = fit_aic_bic(cols)
    rows.append((name, aic, bic, r2))
    models[name] = m

results = pd.DataFrame(rows, columns=["model", "AIC", "BIC", "R2"]).sort_values("AIC")
print(results)

Resultado típico:

  • (R^2) quase sempre aumenta à medida que você adiciona preditores.
  • AIC pode preferir um modelo um pouco maior se isso melhorar a verossimilhança o suficiente.
  • BIC pode preferir um modelo menor, especialmente conforme (n) aumenta.

Notas para uso correto

  • Comparações de AIC/BIC assumem os mesmos dados de resposta e, tipicamente, a mesma família de verossimilhança.
  • Você pode comparar modelos não aninhados (non-nested models) (diferentemente de alguns testes clássicos de hipótese; veja Estimação e Teste de Hipóteses), mas você deve garantir que eles foram ajustados ao mesmo conjunto de dados e são comparáveis em termos de verossimilhança.

Relação com regularização em ML

AIC/BIC não são “regularizadores” no objetivo de treinamento da mesma forma que penalidades L2/L1, mas compartilham uma filosofia semelhante: desencorajar complexidade desnecessária.

  • Regularização L2 adiciona (\lambda |\theta|^2) à perda.
  • AIC/BIC adicionam uma penalidade baseada no número efetivo de parâmetros (k) (ou um proxy para ele).

Em muitos modelos modernos de ML (por exemplo, redes profundas), “número de parâmetros” é uma medida ruim de complexidade efetiva; critérios de informação podem ser menos informativos sem adaptação cuidadosa (veja WAIC/LOO abaixo).

Suposições e armadilhas comuns

1) “Número de parâmetros” nem sempre é bem definido

Em modelos paramétricos simples, (k) é claro. Mas em modelos com:

  • restrições,
  • estrutura hierárquica,
  • variáveis latentes,
  • regularização forte,
  • singularidades/problemas de identificabilidade,

os graus de liberdade efetivos podem ser mais sutis. Contar parâmetros de forma ingênua pode enganar.

2) Má especificação muda a interpretação

O AIC é frequentemente descrito como robusto à ideia de que “todos os modelos estão errados”, mas ele ainda assume certa regularidade. Se a família de verossimilhança estiver muito errada, comparações por critérios de informação podem refletir artefatos da má especificação.

3) Dados dependentes exigem cuidado

Para séries temporais, dados espaciais ou observações agrupadas, o tamanho efetivo da amostra pode diferir do (n) bruto. Muitos modelos especializados reportam AIC/BIC, mas você deve interpretá-los no contexto da estrutura de dependência do modelo.

4) Você não pode comparar critérios entre conjuntos de dados diferentes

Comparações de AIC/BIC só fazem sentido quando calculadas sobre os mesmos dados observados (mesmo (y), mesmo (n)).

5) Critérios de informação não são o mesmo que testes de hipótese

Ao contrário de p-values e testes de razão de verossimilhança para modelos aninhados (veja Estimação e Teste de Hipóteses), critérios de informação:

  • não fornecem uma decisão de “rejeitar/aceitar”,
  • são inerentemente comparativos,
  • incentivam pensar em termos de trade-offs.

Além de AIC/BIC: outros critérios amplamente usados

DIC (Critério de Informação do Desvio (Deviance Information Criterion))

O DIC é usado para modelos Bayesianos ajustados via MCMC, especialmente em fluxos de trabalho Bayesianos hierárquicos mais antigos. Ele substitui “(k)” por uma estimativa do número efetivo de parâmetros baseada na variabilidade a posteriori.

No entanto, o DIC pode se comportar mal para modelos hierárquicos complexos ou não identificáveis e é menos recomendado hoje do que WAIC/LOO em muitos casos.

WAIC (Critério de Informação Amplamente Aplicável (Widely Applicable Information Criterion))

O WAIC é um critério Bayesiano e totalmente probabilístico, projetado para estimar desempenho preditivo fora da amostra usando toda a posterior, e não apenas uma estimativa pontual (\hat{\theta}). Ele é “amplamente aplicável” no sentido de que pode funcionar melhor em modelos singulares onde condições clássicas de regularidade falham.

O WAIC está intimamente relacionado à validação cruzada leave-one-out (leave-one-out cross-validation) e usa a densidade logarítmica preditiva ponto a ponto.

LOO-CV (Validação Cruzada Leave-One-Out (Leave-One-Out Cross-Validation))

Embora nem sempre rotulado como um critério de informação, LOO cumpre um propósito semelhante: estimar desempenho preditivo com um trade-off viés-variância fundamentado.

A prática Bayesiana moderna frequentemente usa PSIS-LOO (amostragem por importância com suavização de Pareto (Pareto-smoothed importance sampling) LOO) como uma aproximação escalável.

MDL (Comprimento Mínimo de Descrição (Minimum Description Length))

MDL é uma abordagem de teoria da informação: escolher o modelo que produz o menor comprimento de código para descrever dados + modelo. MDL é conceitualmente relacionado ao BIC (o BIC pode ser derivado como uma aproximação de MDL sob certas condições).

Escolhendo entre AIC, BIC e avaliação preditiva

Um guia prático de decisão:

  • Se seu objetivo principal é predição, comece com AIC/AICc ou métodos diretos como Validação Cruzada.
  • Se seu objetivo principal é seleção de modelos interpretáveis com um viés Bayesiano (e você aceita as suposições), considere BIC.
  • Se você está fazendo modelagem Bayesiana e tem amostras da posterior, prefira WAIC ou LOO ao DIC em muitos fluxos de trabalho modernos.
  • Se você pode arcar com o custo e seu pipeline dá suporte, validação cruzada frequentemente é a opção com menos suposições.

Em ML aplicada, é comum usar métricas preditivas validadas por validação cruzada (acurácia, AUROC, RMSE, log loss). Critérios de informação são mais naturais quando você tem um modelo probabilístico coerente e se importa com comparação baseada em verossimilhança.

Microexemplo resolvido (números de brinquedo)

Suponha que dois modelos sejam ajustados ao mesmo conjunto de dados ((n=100)):

  • Modelo 1: (k=3), (\log L(\hat{\theta})=-120)
  • Modelo 2: (k=8), (\log L(\hat{\theta})=-115)

Calcule:

  • AIC(_1) = (2(3) - 2(-120)= 6 + 240 = 246)
  • AIC(_2) = (2(8) - 2(-115)= 16 + 230 = 246)

O AIC diz: empate (o ajuste extra compensa exatamente a penalidade de complexidade).

Agora o BIC:

  • BIC(_1) = (3\log(100) - 2(-120)= 3(4.605)+240 \approx 253.8)
  • BIC(_2) = (8\log(100) - 2(-115)= 8(4.605)+230 \approx 266.8)

O BIC diz: o Modelo 1 é preferido (penalidade mais pesada por parâmetros extras).

Isso ilustra um padrão comum: o AIC favorece modelos mais ricos mais do que o BIC, especialmente conforme (n) cresce.

Resumo

  • Critérios de informação fornecem ferramentas fundamentadas e eficientes para comparação de modelos ao combinar ajuste (log-verossimilhança) com uma penalidade de complexidade.
  • AIC estima o erro preditivo esperado (baseado em KL), tipicamente favorecendo modelos que predizem bem.
  • BIC aproxima a evidência Bayesiana do modelo, tipicamente favorecendo modelos mais simples conforme os dados crescem.
  • Use AICc para amostras pequenas.
  • Para fluxos de trabalho Bayesianos baseados na posterior, considere WAIC ou LOO em vez de depender apenas de critérios ao estilo AIC/BIC baseados em estimativa pontual.
  • Sempre interprete valores de critérios de informação relativamente, garanta que os modelos sejam comparáveis nos mesmos dados, e tenha em mente as suposições sobre verossimilhança, independência e complexidade efetiva.

Conceitos relacionados: Inferência Bayesiana, Regras de Pontuação Próprias, Estimação e Teste de Hipóteses, Variáveis Aleatórias e Distribuições.