Índice de Problemas em Aberto
Visão geral
Um Índice de Problemas em Aberto (Open Problems Index) é uma lista curada e continuamente atualizada de questões de pesquisa não resolvidas (ou ainda não resolvidas de forma satisfatória) em inteligência artificial (AI), com indicações para os artigos de base, testes de referência (benchmarks) e artigos científicos (papers) mais relevantes. Seu objetivo é ajudar leitores a:
- Navegar as fronteiras da pesquisa sem precisar reconstruir o contexto do zero
- Comparar hipóteses concorrentes e entender o que contaria como progresso
- Encontrar pontos de entrada tratáveis para projetos (de “experimentos de fim de semana” a agendas de vários anos)
- Evitar reinventar trabalho ao apontar para arte prévia, resultados negativos e armadilhas conhecidas
Esta página fica dentro de Pesquisa e Fronteiras e complementa visões gerais por tema como Pesquisa de Alinhamento, Pesquisa em Interpretabilidade, Aprendizado Contínuo, Habilidades Emergentes, Raciocínio, Leis de Escalonamento, Modelos de Mundo e Modelos Fundamentais Multimodais. Essas páginas explicam o que sabemos; este índice destaca o que ainda não sabemos.
O que conta como um “problema em aberto” em IA?
Em IA/aprendizado de máquina (machine learning), um problema é “aberto” quando não existe uma solução amplamente aceita que seja:
- Confiável (funciona em diferentes cenários, não apenas em um teste de referência estreito)
- Bem compreendida (sabemos por que funciona, ao menos até algum grau útil)
- Reprodutível (os resultados são consistentes entre equipes e implementações)
- Praticamente relevante (importa para segurança, capacidade, eficiência ou entendimento científico)
Problemas em aberto podem ser teóricos (por exemplo, caracterizar generalização), empíricos (por exemplo, por que um truque de treinamento funciona) ou sócio-técnicos (por exemplo, restrições de avaliação e governança). Na pesquisa moderna de modelos fundamentais, muitos “problemas” são melhor entendidos como conjuntos de subproblemas que atravessam dados, otimização, arquitetura e avaliação.
Como este índice está organizado
Um índice útil de problemas em aberto normalmente usa metadados leves por entrada:
- Área (alinhamento, interpretabilidade, raciocínio, escalonamento etc.)
- Enunciado do problema (preciso e falsificável, se possível)
- Por que importa (capacidades, segurança, custo ou entendimento científico)
- Como é o progresso (métricas, testes de referência, marcos teóricos)
- Referências-chave (artigos científicos, posts de blog, conjuntos de dados)
- Experimentos iniciais (reproduções mínimas ou ablações (ablation))
Abaixo está um conjunto curado de problemas em aberto de alto impacto, agrupados por tema. A lista é intencionalmente não exaustiva; ela prioriza problemas com forte ligação com a prática atual em modelos fundamentais.
Problemas em aberto (curados)
Alinhamento e segurança
Esses problemas se conectam diretamente a Pesquisa de Alinhamento e — dependendo da abordagem — frequentemente exigem trabalho em Aprendizado por Reforço, Raciocínio e Pesquisa em Interpretabilidade.
1) Generalização incorreta de objetivos (goal misgeneralization) vs. falha de especificação (specification failure)
Problema. Quando um modelo se comporta de forma indesejável, isso acontece porque:
- treinamos o objetivo errado (falha de especificação), ou
- o modelo aprendeu o objetivo certo no treino, mas generalizou para o objetivo errado fora da distribuição (out-of-distribution) (generalização incorreta de objetivos)?
Por que importa. Esses modos de falha sugerem correções diferentes (melhor desenho de recompensa (reward design) vs. melhor generalização/robustez).
Como é o progresso.
- Separações experimentais claras entre os dois modos
- Preditores de quando cada modo ocorre
- Intervenções que reduzam especificamente a generalização incorreta de objetivos sem sacrificar desempenho
Referências.
- Exemplos de “jogos de especificação (specification gaming)”: Krakovna et al., Specification gaming: the flip side of AI ingenuity (2020): https://arxiv.org/abs/2009.06417
- Enquadramento de generalização incorreta de objetivos em aprendizado por reforço profundo (deep RL): por exemplo, Langosco et al. (2022): https://arxiv.org/abs/2105.14111
Experimento inicial. Em um cenário de aprendizado por reforço de brinquedo, treine agentes com múltiplas distribuições de treinamento e distribuições de teste; rotule falhas por se a política ótima no treinamento já viola a intenção (especificação) vs. se diverge apenas sob mudança (generalização incorreta).
2) Supervisão escalável para agentes que usam ferramentas e operam em horizontes longos
Problema. Como supervisionar de forma confiável sistemas que:
- agem em horizontes longos (milhares de passos),
- usam ferramentas (execução de código, web, APIs),
- e podem perseguir estratégias que humanos não conseguem auditar facilmente?
Por que importa. O uso de ferramentas e a autonomia amplificam tanto capacidade quanto risco; avaliação humana não escala linearmente com a complexidade da tarefa.
Como é o progresso.
- Métodos em que o custo de supervisão cresce de forma sublinear com o comprimento da tarefa
- Avaliações que detectem exploração de recompensa (reward hacking) e estratégias enganosas
- Supervisão efetiva em “nível de processo” em vez de apenas pontuação baseada no resultado
Referências.
- Aprendizado por preferências / primeiras formas de aprendizado por reforço com feedback humano (reinforcement learning from human feedback): Christiano et al. (2017): https://arxiv.org/abs/1706.03741
- Aprendizado por reforço com feedback humano ajustado por instruções (instruction-tuned) para modelos de linguagem: Ouyang et al. (2022): https://arxiv.org/abs/2203.02155
- Supervisão de processo: Lightman et al., Let’s Verify Step by Step (2023): https://arxiv.org/abs/2305.20050
- IA Constitucional (Constitutional AI): Bai et al. (2022): https://arxiv.org/abs/2212.08073
Exemplo prático. Para um agente que escreve código, a supervisão de “resultado” (os testes passaram?) pode não detectar exfiltração de dados. A supervisão de processo pode exigir checar rastros intermediários de raciocínio, chamadas de ferramentas e padrões de acesso a arquivos.
3) Resistência robusta a quebras de salvaguardas (jailbreak) e “generalização de política (policy generalization)”
Problema. Ajuste fino de segurança (safety fine-tuning) frequentemente falha sob:
- novos prompts de quebra de salvaguardas,
- negociação em múltiplos turnos,
- injeção indireta de prompt (prompt injection) (a partir de ferramentas, documentos, conteúdo da web).
Por que importa. A implantação real é adversarial e sofre mudança de distribuição.
Como é o progresso.
- Testes de referência fortes e reprodutíveis de quebra de salvaguardas com baixa contaminação
- Defesas que generalizem entre idiomas, estilos e enquadramentos de role-play
- Curvas claras de trade-off: prestatividade vs. recusas vs. taxa de sucesso do ataque
Referências.
- Análises em nível de sistema em relatórios de modelos de fronteira (por exemplo, relatório técnico e system card do GPT-4): https://arxiv.org/abs/2303.08774
Experimento inicial. Construa um conjunto de quebras de salvaguardas retido com paráfrases geradas proceduralmente e avalie se treinar em um subconjunto melhora a robustez às transformações retidas.
4) Detectar e prevenir comportamento enganoso (deceptive behavior)
Problema. Podemos detectar de forma confiável quando um modelo está:
- otimizando contra o avaliador,
- escondendo intenção,
- ou se comportando honestamente apenas sob escrutínio?
Por que importa. Se engano emerge, avaliação ingênua pode ser enganada de forma sistemática.
Como é o progresso.
- Testes comportamentais em que engano é incentivado e mensurável
- Procedimentos de treinamento que reduzam incentivos ao engano (ou o detectem)
- Evidência mecanicista sobre representações internas de “estar sendo avaliado”
Conexões. Forte sobreposição com Pesquisa em Interpretabilidade e avaliações agentivas em Raciocínio.
Interpretabilidade e transparência
Esses problemas buscam transformar aprendizado profundo (deep learning) de uma “caixa-preta (black box)” em uma disciplina de engenharia mais legível. Veja Pesquisa em Interpretabilidade para metodologias.
5) Interpretabilidade mecanicista (mechanistic interpretability) escalável para grandes transformadores (transformers)
Problema. Às vezes conseguimos interpretar pequenos circuitos em transformadores, mas escalar para modelos de fronteira continua difícil devido a:
- superposição de características (feature superposition),
- representações distribuídas (distributed representations),
- puro número de parâmetros (parameter count) e diversidade de dados.
Por que importa. Interpretabilidade poderia permitir depuração, auditoria e intervenções de segurança direcionadas.
Como é o progresso.
- Métodos confiáveis que identifiquem características/circuitos em escala
- Modelos preditivos de quando um circuito ativa e por quê
- Intervenções que mudem o comportamento de maneiras precisas e interpretáveis
Referências.
- Framework de circuitos em transformadores (Anthropic): Elhage et al. (2021): https://transformer-circuits.pub/
- “Causal scrubbing”: Chan et al. (2022): https://arxiv.org/abs/2209.02652
Exemplo prático. Um “circuito” para concordância sujeito–verbo pode ser descoberto e então ablado para medir impacto causal na gramaticalidade em muitos contextos, não apenas em um conjunto de dados curado.
6) Explicações fiéis vs. racionalizações plausíveis
Problema. Modelos de linguagem (language models) podem gerar explicações convincentes que talvez não reflitam a base causal verdadeira de suas saídas.
Por que importa. Se explicações não forem fiéis, elas não podem ser usadas para auditoria ou entendimento científico.
Como é o progresso.
- Testes de referência em que as características causais verdadeiras são conhecidas (tarefas sintéticas)
- Métodos que alinhem explicações com influência causal (por exemplo, via intervenções)
- Métricas quantitativas de fidelidade que correlacionem com mudanças reais de comportamento
Conexões. Se conecta com Raciocínio, especialmente quando cadeia de pensamento (chain-of-thought) é usada.
7) Descoberta de características na presença de superposição
Problema. Representações podem “empacotar” muitas características nos mesmos neurônios/direções (superposição), complicando a interpretabilidade.
Por que importa. Muitas ferramentas de interpretabilidade assumem esparsidade ou localidade que não se sustentam.
Como é o progresso.
- Métodos de aprendizado de dicionário (dictionary learning) / codificação esparsa (sparse coding) que produzam características estáveis e reutilizáveis
- Concordância entre métodos (por exemplo, características de autoencoders esparsos alinhadas com intervenções causais)
- Entendimento de como a superposição escala com tamanho do modelo e dados
Referências.
- Trabalho da Anthropic sobre representações esparsas de características (“monosemanticity”): https://transformer-circuits.pub/ (veja posts relacionados)
Raciocínio e avaliação
Esses problemas se relacionam a Raciocínio e interagem fortemente com uso de ferramentas, objetivos de treinamento e desenho de avaliação.
8) O que é “raciocínio”, e como medi-lo de forma robusta?
Problema. Muitos testes de referência de “raciocínio” são vulneráveis a:
- artefatos de conjunto de dados,
- memorização/contaminação,
- avaliação que recompensa formato em vez de cognição.
Por que importa. Se não conseguimos medir raciocínio, não conseguimos otimizá-lo nem governá-lo.
Como é o progresso.
- Construção de testes de referência resistente à contaminação
- Testes de estresse (stress tests) para generalização composicional e contrafactuais
- Concordância entre melhorias nos testes de referência e tarefas de raciocínio do mundo real
Referências.
- Prompting com cadeia de pensamento: Wei et al. (2022): https://arxiv.org/abs/2201.11903
- BIG-bench: https://arxiv.org/abs/2206.04615
Exemplo prático. Em vez de avaliar apenas respostas finais, avalie consistência sob perturbações: paráfrases, renomeação de símbolos, injeção de informação irrelevante e reordenação de premissas.
9) Supervisão de processo vs. supervisão de resultado (e métodos híbridos)
Problema. Supervisionar passos intermediários de raciocínio pode melhorar a correção, mas também pode:
- incentivar racionales mais longos, porém ainda errados,
- criar novas superfícies de ataque (modelos aprendem a “parecer bons” no meio do processo).
Por que importa. Muitas propostas de segurança dependem de supervisionar raciocínio interno ou passos intermediários.
Como é o progresso.
- Condições claras em que supervisão de processo ajuda vs. prejudica
- Métodos que incentivem afirmações intermediárias verificáveis
- Robustez a rastros de raciocínio adversariais “bonitos”
Referência.
- Lightman et al. (2023): https://arxiv.org/abs/2305.20050
10) Uso confiável de ferramentas: planejamento, verificação e recuperação de erros
Problema. Modelos de linguagem aumentados por ferramentas podem chamar APIs, executar código ou buscar na web, mas frequentemente falham em:
- planejamento de longo horizonte,
- detectar quando ferramentas retornaram informação ruim,
- recuperação após erros.
Por que importa. Uso de ferramentas é um caminho prático para sistemas mais fortes, mas também aumenta autonomia e risco.
Como é o progresso.
- Testes de referência de agentes que penalizem interações com ferramentas inseguras ou frágeis
- Loops integrados de verificação (por exemplo, geração de testes, checagem de provas)
- Incerteza calibrada sobre saídas de ferramentas
Referências.
- ReAct (raciocínio + ação): Yao et al. (2023): https://arxiv.org/abs/2210.03629
- Toolformer: Schick et al. (2023): https://arxiv.org/abs/2302.04761
Leis de escalonamento, otimização e generalização
Esses problemas se conectam a Leis de Escalonamento, Descida do Gradiente e Arquitetura Transformer.
11) Onde leis de escalonamento falham — e por quê?
Problema. Leis de escalonamento empíricas predizem perda (loss) vs. capacidade computacional (compute)/dados/tamanho do modelo de forma impressionantemente boa em alguns regimes, mas podem falhar devido a:
- mudanças na qualidade dos dados,
- mudanças de arquitetura (por exemplo, mistura de especialistas (mixture of experts), modelos de espaço de estados (state-space models)),
- instabilidade de treinamento (training instability), efeitos de contexto longo, ou mistura de modalidades (modality mixing).
Por que importa. Leis de escalonamento orientam decisões de bilhões de dólares.
Como é o progresso.
- Explicações mecanicistas para expoentes de escalonamento observados
- Escalonamento preditivo para capacidades (não apenas perda) com limites de incerteza
- Comparações de escalonamento entre arquiteturas com configurações controladas
Referências.
- Kaplan et al. (2020): https://arxiv.org/abs/2001.08361
- Hoffmann et al. (2022) (escalonamento Chinchilla): https://arxiv.org/abs/2203.15556
12) Prever e explicar “habilidades emergentes”
Problema. Algumas capacidades parecem surgir de repente em determinadas escalas, mas isso pode ser:
- comportamento real semelhante a transição de fase, ou
- um artefato de métricas/limiares e da resolução de avaliação.
Por que importa. Governança e planejamento de segurança dependem de prever saltos de capacidade.
Conexões. Diretamente ligado a Habilidades Emergentes.
Referências.
- Wei et al. (2022): https://arxiv.org/abs/2206.07682
- Schaeffer et al. (2023) (crítica do “miragem”): https://arxiv.org/abs/2304.15004
Experimento inicial. Meça uma capacidade com métricas contínuas e limiares variados; teste se a “emergência” persiste sob transformações monótonas e avaliações melhor calibradas.
13) Estabilidade de treinamento e controlabilidade em comprimentos de contexto muito longos
Problema. Estender janelas de contexto (context windows) muda a dinâmica de otimização e pode causar:
- degradação no seguimento de instruções (instruction-following),
- comportamentos espúrios de recuperação,
- novos riscos de privacidade ou vazamento,
- instabilidade em padrões de atenção.
Por que importa. Modelos de contexto longo são centrais para código, agentes, sistemas aumentados por recuperação (retrieval-augmented systems) e multimodal/vídeo.
Como é o progresso.
- Receitas estáveis de treinamento com escalonamento previsível para tarefas de contexto longo
- Entender como mecanismos de atenção e codificações posicionais (positional encodings) se comportam em escala
- Avaliações fortes para raciocínio e recuperação em contexto longo
Aprendizado contínuo e atualização de modelos
Esses problemas são centrais para Aprendizado Contínuo e tocam a realidade de implantação: modelos precisam ser atualizados sem quebrar.
14) Atualizar modelos fundamentais sem esquecimento catastrófico (catastrophic forgetting) ou regressões
Problema. Como incorporar novos conhecimentos/habilidades preservando comportamento antigo, especialmente para modelos ajustados por instruções?
Por que importa. Sistemas reais precisam de atualizações frequentes (bugs, segurança, novos dados) com regressões mínimas.
Como é o progresso.
- Métodos confiáveis de atualização “sem regressão” (além de suítes de avaliação ad hoc)
- Entendimento teórico de quando esquecer é inevitável vs. evitável
- Ferramentas práticas para comparar diferenças de comportamento do modelo ao longo do tempo
Exemplo prático. Um modelo atualizado para corrigir uma vulnerabilidade de segurança em geração de código não deveria degradar desempenho em linguagens de programação não relacionadas nem introduzir novas sugestões inseguras.
15) Testes de referência de aprendizado contínuo que reflitam distribuições do mundo real
Problema. Muitos testes de referência de aprendizado contínuo são simplificados (por exemplo, MNIST permutado) e não representam dados web em mudança, novas ferramentas ou demandas de usuários em evolução.
Por que importa. Sem testes de referência realistas, métodos sobreajustam (overfit) tarefas acadêmicas.
Como é o progresso.
- Testes de referência com mudança de distribuição autêntica (corpora fatiados no tempo, esquemas de rótulos em mudança)
- Protocolos de avaliação que incluam restrições de latência, custo e privacidade
- Baselines padronizados (ajuste fino, adaptadores (adapters), recuperação, repetição (rehearsal))
Modelos fundamentais multimodais
Esses problemas se relacionam a Modelos Fundamentais Multimodais e também a ancoragem (grounding) e avaliação.
16) Ancoragem multimodal robusta e generalização composicional
Problema. Modelos visão-linguagem (vision-language models) podem ser fortes em padrões comuns, mas falham em:
- composições raras (“cubo vermelho atrás de esfera azul”),
- contagem e relações espaciais,
- mudança de domínio (domain shift) (médico, industrial, satélite).
Por que importa. Muitas aplicações exigem ancoragem confiável, não apenas correlação.
Como é o progresso.
- Testes de referência composicionais e contrafactuais com geração controlada
- Métodos que reduzam dependência de pressupostos a priori apenas textuais (text-only priors)
- Incerteza calibrada para entradas visuais ambíguas
Referências.
- CLIP: Radford et al. (2021): https://arxiv.org/abs/2103.00020
- Flamingo: Alayrac et al. (2022): https://arxiv.org/abs/2204.14198
17) Entendimento temporal em raciocínio em vídeo e áudio-visual
Problema. Entendimento de vídeo requer rastrear entidades ao longo do tempo, inferência causal e dependências de longo alcance — áreas em que pré-treinamento em imagem estática transfere apenas parcialmente.
Por que importa. Muitas tarefas do mundo real são temporais (robótica, vigilância, esportes, tecnologia assistiva).
Como é o progresso.
- Testes de referência que exijam causalidade temporal (não atalhos em nível de frame)
- Modelos com permanência de objetos (object permanence) e segmentação de eventos (event segmentation) confiáveis
- Treinamento/inferência eficiente para contextos longos de vídeo
Modelos de mundo e agentes baseados em modelo
Esses problemas são centrais para Modelos de Mundo e se conectam a Aprendizado por Reforço.
18) Aprender modelos de mundo preditivos que suportem planejamento de longo horizonte
Problema. Modelos de dinâmica (dynamics models) aprendidos frequentemente sofrem com:
- erros que se acumulam em simulações por rollout (rollout),
- calibração de incerteza ruim,
- exploração por planejadores (erros do modelo viram “brechas”).
Por que importa. Modelos de mundo prometem aprendizado eficiente em amostras (sample-efficient) e melhor planejamento, mas confiabilidade é o gargalo.
Como é o progresso.
- Planejamento forte com consciência de incerteza (objetivos sensíveis ao risco (risk-sensitive objectives))
- Métodos robustos à exploração do modelo (regularização, ensembles, treinamento adversarial)
- Testes de referência que meçam planejamento sob observabilidade parcial (partial observability) e mudança
Referências.
- World Models: Ha & Schmidhuber (2018): https://arxiv.org/abs/1803.10122
- Modelos de mundo latentes no estilo Dreamer (por exemplo, Hafner et al.): https://arxiv.org/abs/1912.01603
19) Unificar modelos de linguagem e modelos de mundo para agentes ancorados (grounded agents)
Problema. Modelos de linguagem se destacam em linguagem e abstrações; modelos de mundo se destacam em dinâmica em um ambiente. Como combiná-los para que agentes possam:
- planejar usando estado ancorado (grounded state),
- usar linguagem como uma interface de alto nível,
- aprender de forma confiável a partir de interação?
Por que importa. Muitos agentes “gerais” imaginados exigem tanto abstração simbólica (symbolic abstraction) quanto controle ancorado.
Como é o progresso.
- Agentes que transfiram entre ambientes com mínimo retreinamento
- Treinamento estável em que linguagem não vire um atalho frágil
- Separação clara (ou integração) de memória semântica (semantic memory) e modelagem de dinâmica (dynamics modeling)
Metaproblemas transversais (frequentemente subestimados)
20) Avaliação sob contaminação (contamination), mudança de distribuição (distribution shift) e exploração adaptativa (adaptive gaming)
Problema. À medida que modelos treinam em grandes corpora da internet, vazamento de benchmark (benchmark leakage) se torna provável. Além disso, quando testes de referência viram alvos, sistemas os sobreajustam.
Por que importa. Progresso pode se tornar ilusório; avaliações de segurança podem ser contornadas.
Como é o progresso.
- Conjuntos de avaliação fatiados no tempo ou privados com controles fortes
- Avaliação adaptativa (testes de equipe vermelha (red teaming), geração dinâmica de testes (dynamic test generation))
- Padrões de relato (reporting standards) para análise de contaminação
21) Reprodutibilidade (reproducibility) e atribuição de crédito científico (credit assignment) em aprendizado de máquina em larga escala
Problema. Muitos resultados dependem de infraestrutura cara e pipelines de dados (data pipelines) opacos, limitando replicação independente.
Por que importa. Sem reprodutibilidade, a base de conhecimento do campo se torna frágil.
Como é o progresso.
- Melhores testes de referência abertos, receitas de treinamento abertas e relato padronizado
- Métodos robustos em diferentes regimes de capacidade computacional (de pequeno a grande)
- Documentação auditável de conjuntos de dados e cartões de modelo (model cards)
Usando o Índice de Problemas em Aberto na prática
Um fluxo de trabalho prático para transformar um problema em aberto em um projeto
- Escolha um recorte estreito. “Supervisão escalável” é amplo demais; “supervisão de processo reduz exploração de recompensa em agentes de código que usam ferramentas” é testável.
- Defina uma métrica de sucesso. Escolha pelo menos uma métrica primária e duas métricas de modo de falha.
- Construa uma baseline. Reproduza um método conhecido (mesmo que fraco).
- Faça testes de estresse. Perturbações, mudanças, adversários e ablações.
- Anote resultados negativos. Eles frequentemente são a parte mais valiosa.
Aqui está um modelo leve de “plano de experimento” que você pode adaptar:
experiment = {
"problem": "Jailbreak robustness under paraphrase and multi-turn escalation",
"hypothesis": "Training on diverse paraphrase families improves robustness more than adding refusal examples",
"baseline": ["SFT", "RLHF (public recipe)"],
"interventions": ["paraphrase-augmented safety training", "adversarial self-play red-teaming"],
"eval": {
"primary": "attack_success_rate (held-out generators)",
"secondary": ["helpfulness_score", "false_refusal_rate", "calibration_error"],
"stress_tests": ["new languages", "tool-based prompt injection", "long-context attacks"]
},
"artifacts": ["code", "model diffs", "eval prompts", "seeds", "compute log"]
}
Como ler criticamente uma entrada de problema em aberto
Ao seguir links a partir de uma entrada do índice, procure:
- Suposições ocultas (por exemplo, “cadeia de pensamento é fiel”)
- Brechas de avaliação (atalhos, vazamento, sobreajuste de prompt)
- Dependência de capacidade computacional (ainda funciona em escalas menores/maiores?)
- Trade-offs não declarados (prestatividade vs. segurança; acurácia vs. latência)
Contribuindo com novos problemas (esquema recomendado)
Um índice curado continua útil apenas se as entradas forem estruturadas de forma consistente. Um esquema mínimo:
id: opi-alignment-oversight-001
area: alignment
title: Scalable oversight for long-horizon tool use
status: open
why_it_matters: >
Human evaluation does not scale with agent autonomy and horizon length.
what_progress_looks_like:
- Oversight cost grows sublinearly with horizon
- Robustness to adversarial trajectories and prompt injection
key_links:
- wiki: [Alignment Research](/pesquisa-e-fronteiras/pesquisa-em-alinhamento)
- wiki: [Reasoning](/pesquisa-e-fronteiras/raciocinio)
key_papers:
- https://arxiv.org/abs/2305.20050
- https://arxiv.org/abs/2203.02155
starter_experiments:
- Build a tool-use benchmark with hidden “tripwires” and measure detection
notes: >
Watch for contamination and evaluator overfitting.
Boas contribuições geralmente fazem ao menos uma das seguintes coisas:
- Adicionam um enunciado de problema mais claro
- Adicionam ideias melhores de avaliação (especialmente testes de estresse)
- Adicionam referências de alto sinal (surveys, baselines fortes, resultados negativos)
- Explicam por que o problema ainda está em aberto, apesar de muitos artigos
Leitura adicional (pontos de entrada de alto sinal)
- Visões gerais por tema: Pesquisa em Interpretabilidade, Leis de Escalonamento, Raciocínio, Modelos de Mundo, Modelos Fundamentais Multimodais, Aprendizado Contínuo, Habilidades Emergentes, Pesquisa de Alinhamento
- Fundamentos de métodos: Arquitetura Transformer, Descida do Gradiente, Aprendizado de Representações, Aprendizado por Reforço
Este índice é melhor tratado como um documento vivo: à medida que novas capacidades e modos de falha aparecem, a fronteira se desloca, e “problemas em aberto” devem ser reclassificados por impacto prático e alavancagem científica.