Habilidades emergentes

Visão geral

Na IA moderna (AI)—especialmente em modelos de linguagem grandes (large language models, LLMs) e outros modelos fundamentais (foundation models)—o termo habilidades emergentes (emergent abilities) refere-se a capacidades que parecem “ligar” quando um modelo (ou sua execução de treinamento) cruza algum limiar de escala (por exemplo, parâmetros, computação (compute), dados). Uma narrativa clássica é:

Modelos pequenos e médios falham quase completamente em uma tarefa.
Um modelo maior de repente alcança um desempenho não trivial.
A mudança parece qualitativamente nova, e não apenas “um pouco melhor”.

Essa ideia fica na interseção entre resultados empíricos de escalonamento, metodologia de avaliação e debates sobre o que significa uma capacidade ser “nova”. Ela também importa na prática: se algumas habilidades chegam de forma abrupta, então prever o comportamento do modelo, a segurança e o potencial de uso indevido fica mais difícil—especialmente para a Pesquisa de Alinhamento (Alignment Research).

Ao mesmo tempo, há um contra-argumento ativo: muitos efeitos “emergentes” são artefatos de medição causados por como pontuamos tarefas (frequentemente com acurácia (accuracy) discreta), onde amostramos tamanhos de modelo e como selecionamos tarefas e prompts. O debate é menos sobre se modelos maiores ficam melhores (eles ficam) e mais sobre se o formato da melhora contém descontinuidades genuínas versus tendências suaves vistas por meio de medições grosseiras ou com limiar.

O que conta como uma “habilidade emergente”?

Não há uma única definição aceita, mas o uso comum sugere:

Não linearidade com a escala: o desempenho cresce lentamente (ou não cresce) e então aumenta rapidamente em torno de alguma escala.
Mudança qualitativa: o modelo passa a executar de forma confiável uma habilidade (por exemplo, aritmética de múltiplas etapas, síntese de código, uso de ferramentas).
Enquadramento no nível da tarefa: “habilidade” é definida por um benchmark ou protocolo de avaliação, não pela perda de treinamento (training loss).

Uma sutileza importante: a maioria dos resultados de escalonamento em aprendizado profundo (deep learning) mostra que a perda de treinamento diminui suavemente com a escala (frequentemente seguindo leis de potência (power laws); veja Leis de Escalonamento (Scaling Laws)). A “emergência” tipicamente é observada em métricas de tarefa como acurácia, pass@k ou correspondência exata (exact match)—métricas que podem se comportar como limiares.

Evidências de habilidades emergentes

1) Curvas de benchmark que parecem “mudanças de fase” de capacidade

A evidência mais citada vem de gráficos em que o desempenho em certas tarefas é próximo do aleatório até que o modelo seja grande o suficiente, e então sobe rapidamente. O artigo “Emergent Abilities of Large Language Models” (Wei et al., 2022) popularizou esse enquadramento ao mostrar múltiplas tarefas com aparentes “saltos”.

Exemplos comuns (dependentes da tarefa e do prompt):

Aritmética de múltiplas etapas e problemas verbais: modelos pequenos produzem raciocínio fluente, porém errado; modelos maiores começam a produzir etapas intermediárias corretas com mais frequência.
Aprendizado com poucos exemplos / aprendizado no contexto (few-shot / in-context learning): em escalas menores, demonstrações no prompt ajudam pouco; em escalas maiores, os modelos generalizam a partir de exemplos de forma mais confiável (relacionado à Arquitetura Transformer (Transformer Architecture) e ao comportamento de aprendizado no contexto).
Síntese de programas / geração de código: as melhorias podem parecer abruptas quando os modelos passam a conseguir manter restrições de longo alcance consistentes (variáveis, indentação, uso de API).
Seguimento de instruções (instruction following): modelos maiores respondem de forma mais consistente a imperativos e restrições de formatação, especialmente após ajuste por instruções (instruction tuning) (embora o próprio ajuste por instruções mude o cenário).

2) “Novo comportamento” em ambientes interativos

Quando modelos de linguagem grandes são incorporados em agentes (agents) (uso de ferramentas, loops de planejamento (planning loops), memória), algumas capacidades aparecem apenas depois que os modelos atingem um certo patamar básico de confiabilidade:

Invocação de ferramentas e aderência a esquema (schema adherence): abaixo de algum limiar de competência, chamadas de ferramenta são propensas demais a erro; acima dele, o uso de ferramentas se torna viável.
Coerência de longo horizonte (long-horizon): a capacidade de manter objetivos e restrições por muitas interações pode parecer súbita.

Isso é especialmente relevante para pesquisas sobre Raciocínio (Reasoning) e para implantações aplicadas em que um modelo “quase funcionando” é, na prática, inutilizável até cruzar um limiar de confiabilidade.

3) Saltos de capacidade multimodal

Em Modelos Fundamentais Multimodais (Multimodal Foundation Models), um comportamento com aparência de emergente pode ocorrer quando o modelo começa a alinhar representações entre modalidades bem o suficiente para suportar tarefas como:

Perguntas e respostas visuais que exigem raciocínio composicional (“O objeto está à esquerda do cubo vermelho?”).
Leitura no estilo OCR combinada com seguimento de instruções.
Uso de ferramentas com ancoragem no mundo (“clique no botão rotulado X”) quando integrado a agentes de UI.

Novamente, isso muitas vezes depende de critérios discretos de sucesso, o que pode amplificar a aparência de limiares.

Por que a emergência pode ser real mesmo que a perda escale suavemente

Mesmo quando as melhorias subjacentes do modelo são contínuas, a capacidade observada ainda pode parecer “ligar” devido a:

Métricas de avaliação com limiar

Muitos benchmarks usam correspondência exata ou acurácia. Suponha que a probabilidade do modelo produzir a resposta correta aumente suavemente com a escala:

Modelo pequeno: probabilidade de resposta correta = 0,02
Modelo médio: 0,08
Modelo grande: 0,35

Se você amostra uma resposta por questão, a acurácia pode parecer “0% por um tempo e então de repente 20%”, especialmente em tarefas difíceis. A melhora subjacente é suave; a curva medida é íngreme.

“Competência mínima viável” em sistemas

Em aplicações, existem limiares rígidos:

Se um agente que usa ferramentas precisa estar correto 95% das vezes para ser útil, então melhorar de 70% → 90% ainda pode parecer “não funciona”, enquanto 90% → 96% parece “de repente funciona”.

Esse tipo de emergência é no nível do sistema: ela surge dos requisitos, não necessariamente de uma descontinuidade no modelo.

A composição amplifica pequenas melhorias

Se uma tarefa requer múltiplas sub-habilidades (parsing + recuperação (retrieval) + raciocínio + formatação), então o sucesso total pode se comportar como um produto de probabilidades. Melhorar cada sub-habilidade de forma suave ainda pode criar uma transição acentuada no sucesso ponta a ponta.

Contra-argumentos: por que “habilidades emergentes” podem ser uma ilusão

Uma crítica proeminente aparece em “Rethinking Emergent Abilities in Large Language Models” (Schaeffer et al., 2023), argumentando que muitos gráficos de habilidades emergentes podem ser reproduzidos por tendências subjacentes suaves somadas a escolhas de medição.

Principais contra-argumentos:

1) Métricas discretas escondem mudanças contínuas

Se você plotar perda logarítmica (log loss), log-probabilidade (log-probability) da resposta correta ou verossimilhança calibrada (calibrated likelihood), frequentemente verá escalonamento suave. A emergência pode ser um artefato de usar:

correspondência exata em vez de massa de probabilidade nas respostas corretas,
limiares de passa/falha,
conjuntos de avaliação pequenos onde o ruído é grande.

2) Amostragem esparsa de tamanhos de modelo exagera “saltos”

Se você avalia apenas alguns tamanhos de modelo (por exemplo, 1B, 10B, 100B parâmetros), qualquer região íngreme entre dois pontos pode parecer um salto. Uma amostragem mais granular pode revelar uma curva suave.

3) Prompting e protocolo de avaliação podem criar ou apagar emergência

Um modelo pode parecer incapaz de realizar uma tarefa sob um prompt, mas ter sucesso sob outro. Mudanças que afetam curvas com aparência de emergência incluem:

adicionar prompts de cadeia de pensamento (chain-of-thought) ou prompting com rascunho (scratchpad prompting),
mudar exemplos few-shot,
trocar correspondência exata por pontuação mais flexível,
usar auto-consistência (self-consistency) ou múltiplas amostras.

Se uma capacidade depende fortemente de prompting, fica mais difícil argumentar que o modelo “não tinha a habilidade” antes de um limiar—em vez disso, a avaliação falhou em elicitar (elicit) a habilidade.

4) Contaminação de dados e vazamento de benchmark

À medida que os modelos escalam, é mais provável que tenham encontrado dados do tipo benchmark (ou quase duplicatas) no treinamento. A emergência aparente pode refletir:

memorização ficando mais eficaz,
recuperação aprimorada de padrões memorizados,
sobreposição entre dados de treinamento e avaliação.

Afirmações robustas exigem checagens cuidadosas de contaminação e benchmarks “frescos”.

5) Múltiplas comparações e tarefas escolhidas a dedo

Se você busca em muitas tarefas e reporta as que parecem ter “saltos”, encontrará “emergência” por viés de seleção. Uma abordagem mais rigorosa pré-registra tarefas ou reporta conjuntos amplos de tarefas.

Ressalvas de medição e boas práticas

Escolha métricas que correspondam à afirmação

Se a afirmação é “o modelo adquiriu a competência subjacente”, considere métricas que reflitam melhora graduada:

Log-probabilidade média atribuída às respostas corretas
Pontuação de Brier (Brier score) ou métricas sensíveis à calibração (calibration-aware)
Crédito parcial (por exemplo, testes unitários aprovados, correção por etapa)
pass@k com múltiplas amostras (importante em código)

Se a afirmação é “o modelo se tornou praticamente útil”, então métricas com limiar podem ser apropriadas—mas você deve rotular isso como emergência no nível da aplicação.

Controle o ruído de avaliação

Muitos “saltos” estão dentro da variância induzida por:

conjuntos de teste pequenos,
decodificação estocástica,
escolha de prompt,
aleatoriedade no ajuste fino (fine-tuning) (se aplicável).

Boas práticas:

usar intervalos de confiança (bootstrap sobre itens),
reportar resultados em múltiplos prompts ou famílias de prompts,
fixar configurações de decodificação ou reportar sensibilidade à decodificação.

Cuidado com “confusão de eixo”: o que está escalando?

“Escala” pode significar parâmetros, computação, tamanho do conjunto de dados ou tempo de treinamento. Dois modelos com contagens de parâmetros semelhantes podem diferir muito em qualidade de dados, duração de treinamento ou arquitetura. Se você quer atribuir emergência à escala, garanta:

receitas de treinamento comparáveis,
orçamentos de computação comparáveis,
relato transparente de dados e filtragem.

Prefira curvas densas de escalonamento e testes de ponto de mudança

Se você suspeita de uma transição genuína, avalie muitos tamanhos de modelo e aplique ferramentas estatísticas:

regressão segmentada (segmented regression) (ajuste linear por partes),
detecção de ponto de mudança (change-point detection),
comparação de modelos (um modelo por partes supera um modelo suave?).

Abaixo há um pequeno trecho ilustrativo mostrando como alguém poderia testar se um modelo linear por partes em escala log se ajusta melhor do que uma única linha. Isso não é um método definitivo, mas reflete o espírito de “não julgue só olhando o gráfico”.

import numpy as np

def fit_line(x, y):
    # least squares for y = a*x + b
    A = np.vstack([x, np.ones_like(x)]).T
    a, b = np.linalg.lstsq(A, y, rcond=None)[0]
    yhat = a*x + b
    rss = np.sum((y - yhat)**2)
    return a, b, rss

def fit_piecewise(x, y, min_points=3):
    # choose best split point
    best = None
    n = len(x)
    for k in range(min_points, n - min_points):
        a1, b1, rss1 = fit_line(x[:k], y[:k])
        a2, b2, rss2 = fit_line(x[k:], y[k:])
        rss = rss1 + rss2
        if best is None or rss < best["rss"]:
            best = {"k": k, "rss": rss, "params": (a1,b1,a2,b2)}
    return best

# Example: x = log10(model_size), y = accuracy
x = np.array([0.5, 0.7, 0.9, 1.1, 1.3, 1.5])
y = np.array([0.02,0.03,0.04,0.06,0.20,0.28])

a,b,rss_line = fit_line(x,y)
best = fit_piecewise(x,y)

print("single-line rss:", rss_line)
print("best piecewise:", best)

Para fazer isso de forma responsável, você também:

compararia modelos com AIC/BIC ou validação cruzada (cross-validation),
propagaria incerteza via bootstrap,
verificaria robustez a diferentes métricas.

Distinga “falha de elicitação” de “ausência de habilidade”

Um modelo pode “ter” uma habilidade no sentido de que um prompt, estratégia de decodificação ou andaime (scaffolding) adequado consegue elicitar essa habilidade. Afirmações de emergência devem esclarecer:

Habilidade base: funciona sob um prompt padronizado e mínimo?
Habilidade elicitada: funciona sob o melhor prompting conhecido?
Habilidade com andaime: funciona quando incorporada em um loop de agente, com ferramentas, busca ou verificação?

Essas são afirmações científicas diferentes.

Perspectivas teóricas: por que transições acentuadas podem ocorrer

Mesmo que parte da emergência seja impulsionada por medição, é plausível que certas capacidades passem por transições mais acentuadas devido à dinâmica de aprendizado.

Limiares de representação e formação de características

Modelos profundos podem aprender características internas que só se tornam disponíveis de forma confiável após capacidade, dados ou progresso de otimização suficientes. Se uma tarefa depende de uma característica interna específica (por exemplo, representar dependências de múltiplas etapas), o desempenho pode subir rapidamente quando essa característica passa a ser aprendida de forma consistente.

Isso se relaciona em espírito a trabalhos em Pesquisa em Interpretabilidade (Interpretability Research), onde pesquisadores tentam identificar circuitos e características que correspondem a comportamentos.

Transições de fase algorítmicas (em cenários simplificados)

Em problemas teóricos e sintéticos (por exemplo, aprender paridade, recuperação esparsa), há regimes conhecidos em que o desempenho transita de forma acentuada quando o tamanho da amostra cruza um limiar. Embora o treinamento real de modelos de linguagem grandes seja muito mais complexo, esses resultados motivam a ideia de que algumas capacidades poderiam ter dinâmicas do tipo limiar.

Dupla descida e mudanças de regime de generalização

Em aprendizado supervisionado, “dupla descida (double descent)” descreve como o erro de teste pode piorar e depois melhorar conforme a capacidade do modelo aumenta. Embora não seja o mesmo que habilidades emergentes, isso reforça que o escalonamento pode mudar o comportamento de generalização de forma qualitativa.

Aplicações práticas: por que o debate importa

Previsão de capacidades e riscos

Se certas habilidades chegam de forma abrupta (ou parecem chegar), isso impacta:

planejamento de implantação: quando um modelo fica bom o suficiente para automação,
potencial de uso indevido: phishing, assistência a malware, persuasão,
avaliações de segurança: ganhos súbitos podem superar a capacidade de teste.

Isso está intimamente ligado à Pesquisa de Alinhamento, porque o trabalho de segurança frequentemente assume que você consegue medir e antecipar o crescimento de capacidades.

Design de benchmarks e estratégia de avaliação

Organizações que constroem avaliações deveriam:

incluir métricas graduadas, não apenas passa/falha,
testar múltiplos prompts e estratégias de decodificação,
executar checagens de contaminação,
amostrar múltiplos tamanhos de modelo e checkpoints de treinamento.

Design de sistemas: construir para melhora suave vs eventos de limiar

Se você assume melhora suave, pode subinvestir em “buffers de segurança”. Se você assume eventos de limiar, você pode:

projetar implantações graduais com portões (gated rollouts),
adicionar monitoramento mais forte e red-teaming,
escalonar suítes de avaliação conforme a capacidade.

Em sistemas agentivos ou aplicações de longo horizonte do tipo “modelo de mundo” (veja Modelos de Mundo (World Models)), efeitos de limiar podem ser especialmente pronunciados porque pequenas melhorias do modelo se acumulam ao longo de muitas etapas.

Exemplos práticos de “emergência” que frequentemente são impulsionados por medição

Exemplo: correspondência exata em um formato frágil

Suponha que você avalie rigor de formatação JSON:

Se uma única aspa faltando torna a saída “errada”, a acurácia pode saltar de ~0% para ~80% quando o modelo se torna confiável em aspas/escape.
Uma métrica mais suave (“percentual de campos válidos extraídos”) poderia revelar uma curva suave.

Exemplo: pass@1 vs pass@10 em programação

Um modelo pode melhorar de forma constante sua probabilidade de gerar uma solução correta, mas:

pass@1 parece plano até cruzar ~10–20%,
pass@10 sobe antes porque múltiplas amostras aumentam a chance de sucesso.

Assim, a “emergência” pode depender de você permitir amostragem e verificação.

Problemas em aberto e direções de pesquisa

Prever habilidades com aparência de emergentes com antecedência

Conseguimos prever quais tarefas mostrarão transições acentuadas a partir de medições em escalas menores (por exemplo, a partir de tendências de logprob)?

Separar capacidade do modelo de andaimes

À medida que andaimes de agentes melhoram, mais comportamentos se tornam possíveis sem mudar o modelo base. Como devemos atribuir “emergência” ao modelo versus ao sistema?

Explicações mecanicistas

Conseguimos conectar mudanças de comportamento a mecanismos internos identificáveis (características/circuitos), em vez de apenas curvas de benchmark?

Melhores paradigmas de avaliação

Desenvolver métricas que:

sejam robustas a artefatos de prompting,
resistam à contaminação,
meçam competência em vez de apenas desempenho sob um protocolo.

Principais conclusões

Habilidades emergentes descrevem ganhos de capacidade que parecem súbitos conforme modelos escalam, frequentemente observados em métricas de tarefa como acurácia.
Há motivação empírica genuína para o termo, mas contra-argumentos fortes mostram que muitas alegações de emergência podem ser explicadas por limiares de métrica, amostragem esparsa, sensibilidade a prompts e viés de seleção.
A postura mais cuidadosa é tratar “emergência” como uma propriedade da medição + tarefa + modelo + protocolo, não apenas do modelo.
Na prática, o comportamento do tipo emergente ainda é importante: mesmo que seja em parte um artefato, implantações reais frequentemente têm limiares mínimos de competência viável que criam transições abruptas em utilidade e risco.

Se você quiser se aprofundar no contexto mais amplo, veja Leis de Escalonamento sobre como o desempenho tende a melhorar com computação, e Raciocínio sobre como a resolução de problemas em múltiplas etapas é avaliada e debatida em modelos modernos.