Estimação de Máxima Verossimilhança (Maximum Likelihood Estimation, MLE)

Visão geral

Estimação de Máxima Verossimilhança (Maximum Likelihood Estimation, MLE) é um método de uso geral para ajustar modelos probabilísticos a dados. Dado:

um conjunto de dados (D = {x_1,\dots,x_n})
um modelo probabilístico paramétrico (p(x \mid \theta)) com parâmetros (\theta)

a EMV escolhe o valor do parâmetro (\hat{\theta}) que torna os dados observados o mais provável possível sob o modelo:

[ \hat{\theta}{\text{MLE}} = \arg\max{\theta} ; p(D \mid \theta). ]

A EMV está no centro do aprendizado de máquina (machine learning, ML) moderno: muitos objetivos de treinamento comuns — especialmente log-verossimilhança negativa (negative log-likelihood, NLL) e entropia cruzada (cross-entropy) — são instâncias diretas de EMV.

Este artigo assume familiaridade básica com distribuições de probabilidade; veja Variáveis Aleatórias e Distribuições se quiser uma revisão.

Verossimilhança vs. probabilidade

Um obstáculo conceitual comum é que verossimilhança (likelihood) não é uma distribuição de probabilidade sobre (\theta).

Probabilidade: (p(x \mid \theta)) é uma função dos dados (x) dados parâmetros fixos (\theta).
Verossimilhança: (L(\theta; x) = p(x \mid \theta)) é a mesma expressão numérica, mas vista como uma função de (\theta) dados dados fixos (x).

A EMV trata o conjunto de dados observado como fixo e busca parâmetros que maximizem a verossimilhança.

A verossimilhança para dados i.i.d.

Se os pontos de dados são assumidos independentes e identicamente distribuídos (independent and identically distributed, i.i.d.):

[ p(D \mid \theta) = \prod_{i=1}^{n} p(x_i \mid \theta) ]

e a EMV é:

[ \hat{\theta} = \arg\max_{\theta} \prod_{i=1}^{n} p(x_i \mid \theta). ]

Muitos modelos em aprendizado de máquina usam uma forma condicional, por exemplo, aprendizado supervisionado (supervised learning):

[ p(D \mid \theta) = \prod_{i=1}^{n} p(y_i \mid x_i, \theta) ]

o que leva diretamente a perdas de entropia cruzada para classificação (abordadas mais adiante).

Log-verossimilhança (por que a usamos)

O produto na verossimilhança pode sofrer underflow numericamente e é inconveniente para otimizar. Como (\log) é estritamente crescente, maximizar a verossimilhança é equivalente a maximizar a log-verossimilhança (log-likelihood):

[ \ell(\theta) = \log p(D \mid \theta) = \sum_{i=1}^{n} \log p(x_i \mid \theta). ]

Na prática, frequentemente minimizamos a log-verossimilhança negativa:

[ \text{NLL}(\theta) = -\ell(\theta) = -\sum_{i=1}^{n} \log p(x_i \mid \theta). ]

Benefícios da log-verossimilhança:

Converte produtos em somas (álgebra e gradientes mais simples)
Melhora a estabilidade numérica
Se encaixa bem com otimização baseada em gradiente (gradient-based optimization) (soma sobre exemplos)

Exemplos de EMV em forma fechada

Nem todos os problemas de EMV têm soluções em forma fechada, mas vários fundamentais têm. Vale conhecê-los porque conectam a EMV a estimadores familiares.

Bernoulli / cara ou coroa

Seja (x_i \in {0,1}) i.i.d. Bernoulli com parâmetro (\theta = p(x=1)).

Verossimilhança:

[ p(D \mid \theta) = \prod_{i=1}^{n} \theta^{x_i}(1-\theta)^{1-x_i}. ]

Log-verossimilhança:

[ \ell(\theta) = \sum_{i=1}^{n} \left[x_i\log\theta + (1-x_i)\log(1-\theta)\right]. ]

Derivando e igualando a zero, obtemos:

[ \hat{\theta}{\text{MLE}} = \frac{1}{n}\sum{i=1}^{n} x_i ]

isto é, a média amostral.

Média gaussiana (Gaussian) (variância conhecida)

Assuma (x_i \sim \mathcal{N}(\mu, \sigma^2)) com (\sigma^2) conhecido. A EMV de (\mu) é:

[ \hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i. ]

Variância gaussiana (média desconhecida)

Se tanto (\mu) quanto (\sigma^2) são desconhecidos, as EMVs são:

[ \hat{\mu} = \frac{1}{n}\sum x_i,\quad \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (x_i-\hat{\mu})^2. ]

Observe que o denominador é (n), não (n-1). A versão com (n-1) é o estimador não viesado da variância amostral; aqui, a EMV é ligeiramente viesada (mais sobre viés adiante).

Regressão linear como EMV

Na regressão linear de mínimos quadrados ordinários (ordinary least squares, OLS), assumimos:

[ y_i = w^\top x_i + \epsilon_i,\quad \epsilon_i \sim \mathcal{N}(0,\sigma^2). ]

Então:

[ p(y_i \mid x_i, w) = \mathcal{N}(y_i; w^\top x_i, \sigma^2) ]

e maximizar a verossimilhança condicional em relação a (w) é equivalente a minimizar o erro quadrático (squared error):

[ \arg\max_w \sum_i \log p(y_i \mid x_i, w) ;;\Longleftrightarrow;; \arg\min_w \sum_i (y_i - w^\top x_i)^2. ]

Este é um dos motivos pelos quais a EMV é uma lente unificadora: ela mostra como “funções de perda (loss functions)” frequentemente codificam suposições probabilísticas.

EMV como um problema de otimização

Para muitos modelos (por exemplo, regressão logística (logistic regression), redes neurais (neural networks), modelos de mistura (mixture models)), a EMV não pode ser escrita em forma fechada. Em vez disso, resolvemos:

[ \hat{\theta} = \arg\max_{\theta}; \ell(\theta) \quad\text{ou}\quad \hat{\theta} = \arg\min_{\theta}; -\ell(\theta). ]

Gradientes e otimização baseada em gradiente

A quantidade central é o gradiente:

[ \nabla_\theta \ell(\theta) = \sum_{i=1}^n \nabla_\theta \log p(x_i \mid \theta). ]

Otimizadores comuns:

Ascensão de gradiente (gradient ascent) sobre (\ell(\theta))
Descida de gradiente (gradient descent) sobre (\text{NLL}(\theta)) (mais comum nas ferramentas de aprendizado de máquina)

Para grandes conjuntos de dados, usamos descida de gradiente estocástica (stochastic gradient descent, SGD) ou variantes com minilotes (minibatch), discutidas em Descida de Gradiente. Para redes neurais, os gradientes da log-verossimilhança são computados via Retropropagação.

Um loop simples de treinamento com minilotes (conceitual):

for step in range(num_steps):
    batch = sample_minibatch(data)
    nll = -sum(log_p(x, theta) for x in batch)
    theta = theta - lr * grad(nll, theta)

Métodos de segunda ordem (second-order methods) (Newton, quase-Newton)

Se (\ell(\theta)) é duas vezes diferenciável, o método de Newton (Newton’s method) usa a hessiana (Hessian) (H):

[ \theta_{t+1} = \theta_t - H^{-1}\nabla_\theta(-\ell(\theta_t)). ]

Pode convergir em menos iterações
Mas calcular/inverter hessianas é caro em altas dimensões
Métodos quase-Newton (quasi-Newton) (por exemplo, L-BFGS) aproximam a curvatura de forma eficiente

Ideias de segunda ordem estão fortemente ligadas à informação de Fisher (Fisher information) e a estimativas assintóticas de incerteza (ver “Propriedades estatísticas”).

Restrições e reparametrização

Parâmetros frequentemente têm restrições:

Variâncias devem ser positivas: (\sigma^2 > 0)
Probabilidades devem estar em ([0,1]) e somar 1

Um truque típico: reparametrizar (reparameterize) para uma variável sem restrições, por exemplo: [ \sigma^2 = \exp(\alpha) ] de modo que a otimização ocorra sobre (\alpha \in \mathbb{R}).

Ótimos locais e não convexidade

Algumas verossimilhanças são côncavas (boa notícia), outras não.

Regressão logística tem log-verossimilhança côncava em seus pesos (ótimo global).
Redes neurais e modelos de mistura geralmente produzem objetivos não convexos (non-convex) (muitos ótimos locais / pontos de sela (saddle points)).

Inicialização, escolha do otimizador e regularização importam muito em cenários não convexos.

Conexão com entropia cruzada e divergência de KL

A EMV é profundamente conectada a quantidades da teoria da informação.

EMV minimiza a divergência de KL em relação à distribuição empírica

Seja (p_{\text{data}}(x)) a distribuição verdadeira dos dados (desconhecida), e (p_\theta(x)) o modelo.

Com dados suficientes, maximizar a log-verossimilhança média:

[ \max_\theta ; \mathbb{E}{x\sim p{\text{data}}}[\log p_\theta(x)] ]

é equivalente a minimizar:

[ \mathrm{KL}(p_{\text{data}} ,|, p_\theta) ]

porque:

[ \mathrm{KL}(p_{\text{data}} ,|, p_\theta) = \mathbb{E}{p{\text{data}}}[\log p_{\text{data}}(x) - \log p_\theta(x)] = \text{const} - \mathbb{E}{p{\text{data}}}[\log p_\theta(x)]. ]

Assim, a EMV tenta fazer a distribuição do modelo coincidir com a distribuição dos dados no sentido de KL direto (forward KL).

Entropia cruzada em classificação é EMV

Para classificação multiclasse com rótulos one-hot (one-hot) (y) e probabilidades previstas (p_\theta(y \mid x)), a log-verossimilhança condicional é:

[ \sum_i \log p_\theta(y_i \mid x_i). ]

O negativo disso é exatamente a perda de entropia cruzada:

[ \mathcal{L}(\theta) = -\sum_i \sum_{k} y_{ik}\log p_\theta(y=k \mid x_i). ]

É por isso que “treinar um classificador com entropia cruzada” é “fazer EMV para um modelo categórico condicional”.

Isso também se conecta à avaliação via regras de pontuação apropriadas (Proper Scoring Rules); veja Regras de Pontuação Apropriadas.

Propriedades estatísticas: por que a EMV é popular

Sob condições de regularidade (regularity conditions) (suavidade, identificabilidade (identifiability), especificação correta do modelo (correct model specification)), a EMV tem fortes garantias assintóticas.

Consistência

Quando (n \to \infty), a EMV converge para o parâmetro verdadeiro (\theta^*) (se o modelo estiver corretamente especificado):

[ \hat{\theta}_{\text{MLE}} \xrightarrow[]{p} \theta^*. ]

Normalidade assintótica

Para (n) grande, a distribuição do estimador é aproximadamente normal:

[ \sqrt{n}(\hat{\theta} - \theta^*) \Rightarrow \mathcal{N}(0, I(\theta^*)^{-1}) ]

onde (I(\theta)) é a informação de Fisher.

Eficiência (intuição de Cramér–Rao)

A EMV é assintoticamente eficiente (efficient): ela atinge a menor variância possível entre estimadores não viesados no limite de grandes amostras (sob condições padrão). Este é um dos motivos pelos quais a EMV é usada como referência em estatística clássica e em aprendizado de máquina moderno.

Viés e variância (realidade de amostras finitas)

Em amostras finitas, a EMV pode ser viesada.

Exemplo: a EMV da variância gaussiana usa (1/n), que é viesada para baixo; usar (1/(n-1)) corrige o viés, mas não é a EMV.
Viés nem sempre é ruim: um estimador ligeiramente viesado pode ter variância muito menor, melhorando o erro quadrático médio.

Isso se conecta ao trade-off viés–variância (bias–variance tradeoff), que é central na prática de aprendizado de máquina.

Identificabilidade (uma armadilha prática e teórica)

Um modelo é identificável se diferentes valores de parâmetro correspondem a diferentes distribuições:

[ p(x \mid \theta_1) = p(x \mid \theta_2) ;; \forall x ;; \Rightarrow ;; \theta_1 = \theta_2. ]

Se a identificabilidade falha, a EMV pode ser não única ou mal definida.

Fontes comuns de não identificabilidade

Troca de rótulos (label swapping) em modelos de mistura: Em um modelo de mistura de gaussianas (Gaussian mixture model, GMM), trocar os rótulos dos componentes produz a mesma distribuição. Soluções de EMV aparecem em conjuntos simétricos.
Superparametrização (overparameterization): Múltiplas configurações de parâmetros representam a mesma função (comum em Redes Neurais devido a simetrias de permutação das unidades ocultas).
Colinearidade / deficiência de posto (rank deficiency): Em modelos lineares, se as características são perfeitamente correlacionadas, múltiplos vetores de pesos produzem previsões idênticas.

Por que isso importa

A não identificabilidade pode causar:

Direções planas na verossimilhança (muitos máximos equivalentes)
Instabilidade numérica
Estimativas de incerteza enganosas (a hessiana se torna singular)
Sensibilidade na otimização (qual máximo você encontra pode depender da inicialização)

Regularização ou restrições podem restaurar um problema bem posto.

Regularização e verossimilhança penalizada (e MAP)

A EMV “pura” apenas maximiza o ajuste aos dados observados. Em modelos flexíveis, isso pode levar a sobreajuste (overfitting).

Um remédio comum é a EMV penalizada (penalized MLE):

[ \hat{\theta} = \arg\max_\theta \left[\ell(\theta) - \lambda \Omega(\theta)\right] ]

ou, de forma equivalente, minimizar:

[ -\ell(\theta) + \lambda \Omega(\theta). ]

Exemplos:

L2 (ridge / decaimento de pesos (weight decay)): (\Omega(\theta)=|\theta|_2^2)
L1 (lasso): (\Omega(\theta)=|\theta|_1)

Conexão com MAP bayesiano

A verossimilhança penalizada corresponde à estimação de máximo a posteriori (maximum a posteriori, MAP) em Inferência Bayesiana.

Regra de Bayes (Bayes’ rule):

[ p(\theta \mid D) \propto p(D \mid \theta)p(\theta). ]

MAP:

[ \hat{\theta}{\text{MAP}} = \arg\max\theta \left[\log p(D \mid \theta) + \log p(\theta)\right]. ]

Se (p(\theta)) é uma priori gaussiana (Gaussian prior), (\log p(\theta)) vira uma penalização L2; prioris de Laplace (Laplace priors) levam a penalizações L1.

No aprendizado profundo (deep learning) moderno, “decaimento de pesos” é frequentemente interpretado como essa regularização no estilo MAP (embora detalhes do otimizador possam complicar a equivalência exata).

Questões práticas na implementação de EMV

Estabilidade numérica (numerical stability)

Problemas e correções comuns:

Underflow ao multiplicar probabilidades: use log-verossimilhança.
Cálculo de (\log \sum_k \exp(a_k)): use o truque log-sum-exp (log-sum-exp trick): [ \log\sum_k e^{a_k} = m + \log\sum_k e^{a_k - m},\quad m=\max_k a_k. ]
Probabilidades chegando a 0: faça clamp, adicione eps, ou compute no espaço logarítmico.

Suposições sobre os dados: i.i.d. frequentemente está errado

Fórmulas de EMV frequentemente assumem dados i.i.d. Mas muitos conjuntos de dados violam isso:

Séries temporais e sequências (dependência)
Dados agrupados/clusterizados
Mudança de distribuição do conjunto de dados (dataset shift)

Você ainda pode fazer estimação baseada em verossimilhança, mas deve usar um modelo apropriado (por exemplo, verossimilhanças autorregressivas (autoregressive likelihoods) em modelagem de linguagem).

Variáveis latentes e o algoritmo EM

Se o modelo tem variáveis latentes (latent variables) (z), então:

[ p(x \mid \theta) = \sum_z p(x, z \mid \theta) ]

e a log-verossimilhança inclui um log de uma soma, muitas vezes difícil de otimizar.

O algoritmo de Expectation-Maximization (Expectation-Maximization, EM) itera:

E-step: computar expectativas sobre variáveis latentes sob os parâmetros atuais
M-step: maximizar a log-verossimilhança esperada dos dados completos

Exemplos clássicos: GMMs, modelos ocultos de Markov (hidden Markov models).

Modelos modernos profundos com variáveis latentes (por exemplo, autoencoders variacionais (variational autoencoders, VAEs)) frequentemente usam métodos variacionais; veja Inferência Variacional.

A verossimilhança pode continuar melhorando com o tamanho do modelo

Adicionar parâmetros frequentemente aumenta a verossimilhança máxima — mesmo que isso prejudique a generalização. Isso motiva:

Parada antecipada (early stopping) baseada em validação e validação cruzada (cross-validation)
Regularização explícita
Critérios de seleção de modelo como AIC/BIC em Critérios de Informação

Exemplos práticos em aprendizado de máquina

Regressão logística (binária)

Rótulos binários (y_i \in {0,1}), modelo:

[ p(y=1 \mid x, w) = \sigma(w^\top x) ]

onde (\sigma) é a sigmoide (sigmoid). A NLL é:

[ -\sum_i \left[y_i\log\sigma(w^\top x_i) + (1-y_i)\log(1-\sigma(w^\top x_i))\right] ]

que é a perda logística (logistic loss) padrão. Treinar regressão logística é EMV para um modelo condicional de Bernoulli.

Modelagem de linguagem neural

Modelos de linguagem autorregressivos (autoregressive language models) definem:

[ p_\theta(x_{1:T}) = \prod_{t=1}^{T} p_\theta(x_t \mid x_{<t}) ]

O treinamento minimiza:

[ -\sum_{t=1}^{T} \log p_\theta(x_t \mid x_{<t}) ]

isto é, entropia cruzada em nível de token (token) — novamente, EMV.

Um pequeno exemplo numérico de EMV (Bernoulli)

import numpy as np

x = np.array([1, 0, 1, 1, 0, 1, 1])   # observations
theta_mle = x.mean()
print(theta_mle)  # 5/7 ≈ 0.7142857

Isto é EMV em sua forma mais simples: “probabilidade de cara” = fração de caras.

EMV no conjunto mais amplo de ferramentas de estimação

A EMV é uma abordagem importante entre várias:

EMV: escolhe parâmetros que melhor explicam os dados observados sob o modelo.
Inferência bayesiana: produz uma distribuição a posteriori sobre parâmetros (veja Inferência Bayesiana).
Método dos momentos (method of moments): ajusta momentos do modelo aos momentos empíricos.
Inferência variacional / aproximada (variational / approximate inference): frequentemente usada quando a verossimilhança exata ou a posteriori é intratável (veja Inferência Variacional).
Programação probabilística (Probabilistic Programming): pode expressar modelos baseados em verossimilhança e automatizar inferência/otimização (veja Programação Probabilística).

A EMV é especialmente atraente quando você quer uma estimativa pontual (point estimate) simples e tem grandes conjuntos de dados, mas suas limitações (especificação incorreta do modelo (model misspecification), sobreajuste, identificabilidade) importam em sistemas reais.

Principais conclusões

A EMV ajusta modelos probabilísticos maximizando (p(D \mid \theta)), tipicamente via a log-verossimilhança.
Minimizar log-verossimilhança negativa é o mesmo objetivo usado em muitas perdas de aprendizado de máquina, incluindo entropia cruzada.
A EMV pode ser resolvida em forma fechada para alguns modelos (Bernoulli, gaussiano), mas geralmente requer otimização baseada em gradiente.
A EMV está conectada à teoria da informação: ela minimiza o KL direto da distribuição de dados para o modelo.
Desafios práticos incluem não convexidade, estabilidade numérica, identificabilidade e sobreajuste, frequentemente tratados com regularização (ou MAP via prioris).
Para seleção de modelo, verossimilhança bruta não é suficiente; use validação ou critérios como AIC/BIC (Critérios de Informação).