Uma Breve História da IA

Por que uma “história curta” importa

A inteligência artificial (artificial intelligence, IA) nunca foi uma técnica única. Ela é uma coleção mutável de ideias sobre como representar conhecimento, como aprender a partir de dados, e como agir no mundo. Ao longo do tempo, diferentes abordagens dominaram dependendo do que era viável com a capacidade computacional (compute), os dados e a teoria disponíveis. Se você é novo na área, ajuda ler a história da IA como um ciclo:

  • Afirmações ambiciosas (frequentemente à frente da ciência)
  • Limites duros (escassez de dados, restrições de computação, métodos frágeis)
  • Invernos (inverno da IA (AI winter), com cortes de financiamento e ceticismo)
  • Avanços (novos algoritmos (algorithms) + hardware + conjuntos de dados (datasets) + marcos de avaliação (benchmarks))
  • Adoção em massa (produtos, plataformas e novas perguntas de pesquisa)

Para um mapa conceitual de abordagens, veja Paradigmas de IA. Para debates sobre “o que conta” como inteligência, veja O que é IA? e Filosofia da IA.

Anos 1940–1950: Fundamentos—computação, neurônios e a ideia de máquinas pensantes

1943: Neurônios formais (formal neurons) (McCulloch & Pitts)

Warren McCulloch e Walter Pitts propuseram um modelo matemático simplificado de um neurônio como uma unidade lógica com limiar. Isso conectou lógica com computação inspirada na biologia, sugerindo que redes dessas unidades poderiam computar funções complexas—uma semente inicial das modernas Redes Neurais (Neural Networks).

1950: Turing e o jogo da imitação

“Computing Machinery and Intelligence”, de Alan Turing, reformulou a pergunta “Máquinas podem pensar?” em um teste operacional: uma conversa de uma máquina pode ser indistinguível da de um humano? Esse “Teste de Turing (Turing Test)” tornou-se um ponto de referência cultural e um marco recorrente—embora não seja uma definição científica de inteligência (mais em Filosofia da IA).

1956: O workshop de Dartmouth (nasce o termo “IA”)

John McCarthy, Marvin Minsky, Claude Shannon e outros organizaram o Dartmouth Summer Research Project on Artificial Intelligence. A proposta sugeria, de forma célebre, que “todo aspecto do aprendizado ou qualquer outra característica da inteligência pode, em princípio, ser descrito com tanta precisão que uma máquina pode ser feita para simulá-la”.

Esse momento importa menos por um resultado técnico único e mais por estabelecer a IA como um campo com uma agenda de pesquisa.

Exemplo prático: “IA” inicial como busca

Muitos programas iniciais de IA reduziam a inteligência à busca (search) por possibilidades, como encontrar um caminho em um labirinto ou provar um teorema explorando transformações simbólicas. Essa ideia—resolução de problemas como busca—ainda sustenta o planejamento e muitos métodos de jogos.

Anos 1960: A IA simbólica cresce (e surgem as primeiras rachaduras)

Nos anos 1960, a pesquisa em IA concentrou-se amplamente em raciocínio simbólico (symbolic reasoning): representar o mundo usando símbolos e regras e, então, realizar inferência lógica ou busca.

Marcos

  • Lógica e prova de teoremas: Programas exploravam busca de provas em sistemas formais.
  • ELIZA (1966): O chatbot de Joseph Weizenbaum simulava um terapeuta rogeriano usando correspondência de padrões. Não era “compreensão”, mas revelou como humanos atribuem inteligência com facilidade a textos fluentes.
  • Shakey the Robot (fim dos anos 1960): Um dos primeiros robôs a combinar percepção, planejamento e ação em um ambiente simplificado—uma tentativa inicial de agentes inteligentes de ponta a ponta.

1969: A crítica aos perceptrons desacelera as redes neurais

O perceptron de Frank Rosenblatt era um classificador linear treinável, mas o livro Perceptrons, de Minsky e Papert, destacou limitações de perceptrons de camada única (notavelmente, a incapacidade de representar XOR sem múltiplas camadas). Essa crítica contribuiu para reduzir o entusiasmo por redes neurais por mais de uma década.

Você pode ver a intuição geométrica por trás desses limites em Modelos Lineares e Geometria.

Anos 1970: O primeiro inverno da IA—expectativas colidem com a realidade

No início dos anos 1970, agências de fomento tornaram-se céticas. Sistemas funcionavam em cenários de brinquedo, mas não escalavam para a complexidade do mundo real.

Causas principais

  • Explosão combinatória: Sistemas simbólicos baseados em busca explodiam conforme os problemas cresciam.
  • Fragilidade: Regras codificadas manualmente não generalizavam fora de domínios estreitos.
  • Limites de computação e dados: Muitos métodos eram conceitualmente plausíveis, mas praticamente inviáveis.

1973: O Relatório Lighthill (Reino Unido)

Um relatório do governo do Reino Unido (Lighthill) criticou o progresso limitado da IA, contribuindo para grandes reduções de financiamento—um momento emblemático do primeiro inverno da IA (aproximadamente meados dos anos 1970).

Também nos anos 1970: sementes importantes para o futuro

Nem tudo congelou. Diversas linhas de trabalho que depois se tornaram centrais continuaram:

  • Raciocínio probabilístico (probabilistic reasoning) começou a amadurecer: a incerteza é inevitável em percepção e tomada de decisão (veja Modelos Gráficos Probabilísticos).
  • Ideias de aprendizado por reforço (reinforcement learning, RL) se desenvolveram na teoria de controle e na psicologia, embora o enquadramento moderno do aprendizado de máquina tenha vindo depois.

Anos 1980: Boom e queda de sistemas especialistas; a retropropagação revive as redes neurais

Sistemas especialistas (expert systems) (boom)

Sistemas especialistas codificavam a expertise humana como regras SE–ENTÃO. Um exemplo clássico é o MYCIN, que diagnosticava infecções sanguíneas usando uma base de regras e fatores de confiança.

Por que funcionavam (às vezes):

  • Domínio estreito
  • Regras claras
  • Alto valor por decisão (por exemplo, diagnóstico médico ou solução de problemas industriais)

Por que não escalavam:

  • Gargalo de engenharia do conhecimento (knowledge engineering bottleneck): adquirir e manter milhares de regras é caro.
  • Fragilidade: regras quebram quando o mundo muda.
  • Falta de aprendizado: a maioria dos sistemas não melhorava a partir de dados.

1986: Retropropagação (backpropagation) popularizada (de novo)

Embora gradientes através de redes fossem conhecidos antes, o trabalho de 1986 de Rumelhart, Hinton e Williams popularizou a retropropagação (backpropagation) como um método prático de treinamento para redes neurais de múltiplas camadas. Isso tornou plausível o aprendizado “profundo” (de múltiplas camadas)—ainda que limitado por computação e dados.

Para o algoritmo central, veja Retropropagação e Descida do Gradiente.

Esboço de código: perceptron vs aprendizado de múltiplas camadas

Um perceptron de camada única usa uma regra simples de atualização:

for (x, y) in training_data:
    y_hat = sign(w · x)
    if y_hat != y:
        w = w + η * y * x

Isso pode aprender apenas problemas linearmente separáveis. Redes de múltiplas camadas superam isso ao aprender características intermediárias, treinadas com retropropagação e otimização baseada em gradiente.

Fim dos anos 1980–início dos anos 1990: O segundo inverno da IA

O mercado de sistemas especialistas colapsou devido a altos custos de manutenção e promessas não cumpridas. Financiamento e hype esfriaram de novo (frequentemente datado de ~1987–1993), especialmente em contextos comerciais.

Anos 1990: O aprendizado de máquina estatístico torna-se o centro de gravidade

Os anos 1990 viram uma mudança em direção a abordagens orientadas por dados, probabilísticas e estatísticas. Em vez de codificar regras manualmente, pesquisadores passaram a focar em aprender a partir de exemplos com desempenho de generalização mensurável.

Principais desenvolvimentos

  • Redes bayesianas (Bayesian networks) (fim dos anos 1980–1990): Representações estruturadas para inferência probabilística (veja Modelos Gráficos Probabilísticos).
  • Máquinas de Vetores de Suporte (Support Vector Machines, SVMs) e métodos de kernel (kernel methods): forte desempenho em tarefas de classificação com poucos dados.
  • Métodos de comitê (ensemble methods): impulsionamento (boosting) e agregação por bootstrap (bagging) melhoraram a acurácia ao combinar muitos aprendizes fracos.
  • Aprendizado por reforço amadureceu: algoritmos como Q-learning (1989) ajudaram a formalizar o aprendizado por tentativa e erro.

Essa era também fortaleceu a teoria de generalização: por que modelos sofrem overfitting e como a capacidade se relaciona aos dados (veja Teoria do Aprendizado).

1997: Deep Blue derrota Kasparov

O Deep Blue, da IBM, venceu o campeão mundial de xadrez Garry Kasparov. Importante: o Deep Blue não estava “aprendendo” no estilo moderno; ele se apoiava em:

  • busca por força bruta (brute-force search)
  • funções de avaliação cuidadosamente projetadas (evaluation functions)
  • computação massiva para a época

Foi um triunfo de busca e engenharia, ilustrando que “IA” pode ser alcançada por diferentes paradigmas—mesmo sem aprendizado.

Anos 2000: Dados + computação + algoritmos melhores preparam o terreno para o aprendizado profundo

Três tendências convergiram:

  1. Mais dados: a web, texto digitalizado e grandes conjuntos de dados rotulados
  2. Mais computação: unidades de processamento gráfico (graphics processing units, GPUs) e sistemas distribuídos (distributed systems)
  3. Receitas de treinamento melhores: inicialização, regularização e otimização aprimoradas

2006: “Aprendizado profundo (deep learning)” retorna via pré-treinamento não supervisionado

Geoff Hinton e colaboradores mostraram maneiras de treinar redes mais profundas usando pré-treinamento camada a camada (por exemplo, redes de crença profunda (deep belief nets)). Embora depois tenha sido eclipsado por abordagens puramente supervisionadas e, em seguida, auto-supervisionadas, esse trabalho ajudou a reviver a confiança de que profundidade importava.

Aplicações práticas crescem silenciosamente

No fim dos anos 2000, o aprendizado de máquina impulsionava:

  • filtragem de spam
  • ranqueamento de anúncios
  • sistemas de recomendação
  • melhorias iniciais em reconhecimento de fala

Muitas dessas aplicações não foram rotuladas como “avanços de IA”, mas transformaram produtos.

Anos 2010: Avanços em aprendizado profundo e progresso orientado por benchmarks

2012: AlexNet e o momento ImageNet

Uma rede convolucional profunda (deep convolutional network) (AlexNet) melhorou dramaticamente a acurácia de classificação de imagens no ImageNet, em grande parte viabilizada por GPUs e um grande conjunto de dados rotulado. Esse evento é frequentemente tratado como o início da onda moderna de aprendizado profundo.

Redes convolucionais tornaram-se centrais para:

  • marcação automática de fotos
  • triagem de imagens médicas
  • inspeção industrial
  • pilhas de percepção para direção autônoma

2014: Embeddings de palavras e ganhos em modelagem de sequências

Representações distribuídas (por exemplo, word2vec) e arquiteturas recorrentes aprimoradas, como redes de memória de longo e curto prazo (Long Short-Term Memory, LSTMs), tornaram o processamento de linguagem natural (natural language processing, NLP) mais eficaz em tarefas como tradução e fala-para-texto, embora o treinamento ainda fosse específico por tarefa.

2016: AlphaGo derrota Lee Sedol

O AlphaGo, da DeepMind, combinou:

  • redes neurais profundas para avaliar posições e propor jogadas
  • busca em árvore de Monte Carlo (Monte Carlo tree search) para planejamento
  • treinamento em larga escala por autojogo (self-play)

Esse foi um marco na combinação de aprendizado com busca/planejamento, e remodelou percepções sobre o que o aprendizado por reforço poderia fazer.

2017: O Transformador

O artigo “Attention Is All You Need” introduziu o Transformador (Transformer), substituindo recorrência por mecanismos de atenção (attention mechanisms) que paralelizam bem e escalam com eficiência. Essa arquitetura tornou-se a espinha dorsal dos modernos modelos de linguagem grandes (large language models, LLMs) e de muitos sistemas multimodais.

Veja Arquitetura do Transformador.

2018–2019: Pré-treinamento e transferência em NLP (BERT, GPT)

Modelos passaram a ser pré-treinados em corpora massivos de texto e depois ajustados finamente. Isso inverteu o fluxo de trabalho:

  • Em vez de treinar do zero por tarefa, reutilize uma representação geral de linguagem.
  • O aprendizado auto-supervisionado (self-supervised learning) (prevendo tokens mascarados (masked tokens) ou o próximo token (next token)) tornou-se dominante.

Anos 2020: Modelos fundamentais, IA generativa e implantação em escala

Leis de escalonamento e capacidades de modelos de linguagem grandes

Por volta de 2020 (por exemplo, GPT-3), ficou claro que escalar tamanho do modelo, dados e computação frequentemente produz melhorias previsíveis—e às vezes saltos qualitativos de capacidade (aprendizado com poucos exemplos (few-shot learning), melhores traços de raciocínio, geração de código mais forte).

Essa era popularizou a ideia de modelos fundamentais (foundation models): grandes modelos pré-treinados adaptáveis a muitas tarefas downstream.

2021: AlphaFold2 e impacto científico

O AlphaFold2, da DeepMind, alcançou predição de estrutura de proteínas com alta acurácia para muitas proteínas, um avanço com grandes implicações para biologia e descoberta de fármacos. Ele demonstrou que a IA poderia entregar resultados transformadores em domínios científicos—não apenas em produtos para consumidores.

2022: Modelos de difusão e ChatGPT

  • Modelos de difusão (diffusion models) tornaram-se uma abordagem dominante para geração de imagens de alta qualidade, viabilizando ferramentas práticas para design, arte e criação de conteúdo.
  • ChatGPT levou modelos de linguagem grandes com seguimento de instruções a um público massivo ao combinar pré-treinamento em larga escala com técnicas de alinhamento (alignment) (notadamente, feedback humano (human feedback)).

2023–2025: Sistemas multimodais, com uso de ferramentas e aumentados por recuperação

Sistemas recentes combinam cada vez mais:

  • Multimodalidade (multimodality) (texto + imagens + áudio + vídeo)
  • Uso de ferramentas (tool use) (chamar busca, interpretadores de código, bancos de dados, APIs externas)
  • Geração aumentada por recuperação (Retrieval-Augmented Generation, RAG) para ancorar saídas em documentos externos
  • Fluxos de trabalho agênticos (agentic workflows) em que modelos planejam e executam tarefas em múltiplas etapas

Esses sistemas alimentam aplicações práticas como:

  • copilotos de atendimento ao cliente que citam documentos de políticas
  • assistentes de programação integrados a IDEs
  • análise de documentos para direito e finanças
  • tutoria personalizada e sumarização de conteúdo

Ao mesmo tempo, eles levantam novos desafios sobre confiabilidade, viés, privacidade e segurança.

Invernos da IA revisitados: por que o progresso é desigual

“Inverno da IA” não significa que a pesquisa para—significa que financiamento, hype e expectativas colapsam. Historicamente, invernos foram disparados por um descompasso entre promessas e o que os métodos conseguiam entregar com robustez.

Modos comuns de falha:

  • Fragilidade: boas demonstrações, pouca robustez no mundo real
  • Falta de dados (historicamente) ou falta de rótulos confiáveis
  • Custos de computação e lacunas de infraestrutura
  • Erros de avaliação: benchmarks que não refletem uso real
  • Exagero nas afirmações: linguagem antropomórfica que supervende capacidades

A IA moderna ainda pode enfrentar “mini-invernos” em setores específicos se custos aumentarem, a regulação se endurecer ou sistemas se provarem pouco confiáveis. Mas a adoção hoje é ampla o suficiente (busca, anúncios, produtividade, ciência, infraestrutura) para que um único colapso tenha menos chance de se parecer com invernos do passado.

Linhas que moldaram o campo (e ainda importam)

Simbólica vs estatística vs neural—agora cada vez mais híbrida

A IA inicial enfatizava símbolos e regras; a IA moderna enfatiza aprendizado estatístico e representações neurais. Muitos sistemas atuais as combinam:

  • Modelos neurais geram candidatos
  • Busca/planejamento verifica ou melhora esses candidatos
  • Restrições simbólicas impõem estrutura (por exemplo, verificação de tipos (type checking) em código, solucionadores formais (formal solvers))

Isso é melhor entendido por meio de Paradigmas de IA.

Aprender com dados vs raciocinar sobre causas

O aprendizado de máquina moderno se destaca em reconhecimento de padrões, mas frequentemente tem dificuldade com questões causais (“e se intervirmos?”). Abordagens causais buscam responder isso com confiabilidade, especialmente em ciência e contextos de políticas públicas (veja Inferência Causal).

Benchmarks como aceleradores—e armadilhas

Benchmarks como o ImageNet catalisaram progresso ao padronizar a avaliação. Mas otimizar para benchmarks pode produzir modelos que:

  • exploram artefatos do conjunto de dados
  • falham sob mudança de distribuição (distribution shift)
  • têm desempenho ruim em casos raros, porém críticos

Isso levou a mais atenção para robustez, incerteza e avaliação no mundo real.

O ciclo de feedback hardware–algoritmo

Muitos avanços aconteceram quando algoritmos acompanharam tendências de hardware:

  • CNNs + GPUs
  • Transformadores + treinamento distribuído
  • conjuntos de dados massivos + otimização escalável

A computação tornou-se uma restrição de primeira classe: quem pode treinar modelos de fronteira, quão cara é a inferência (inference) e o que pode ser implantado no dispositivo.

Uma linha do tempo compacta de marcos importantes

  • 1943: modelo de neurônio McCulloch–Pitts
  • 1950: Turing propõe o jogo da imitação
  • 1956: workshop de Dartmouth cunha “IA”
  • 1966: chatbot ELIZA; ceticismo sobre tradução automática (machine translation, MT) começa em alguns círculos de financiamento
  • 1969: crítica a perceptrons limita redes de camada única
  • 1973–fim dos anos 1970: primeiro inverno da IA (recuos de financiamento)
  • Anos 1980: boom de sistemas especialistas; 1986 retropropagação popularizada
  • Fim dos anos 1980–início dos anos 1990: segundo inverno da IA (queda de sistemas especialistas)
  • Anos 1990: aprendizado de máquina estatístico, redes bayesianas, SVMs; 1997 Deep Blue
  • 2006: retomada do aprendizado profundo (pré-treinamento)
  • 2012: avanço AlexNet/ImageNet
  • 2016: AlphaGo
  • 2017: Transformador
  • 2018–2020: pré-treinamento e transferência em larga escala (era BERT/GPT)
  • 2021: AlphaFold2
  • 2022–2025: modelos de difusão, modelos de linguagem grandes ajustados por instrução, sistemas multimodais e com uso de ferramentas

Para onde a história aponta a seguir

A história da IA sugere uma lição pragmática: capacidades emergem quando teoria, dados, computação e avaliação se alinham—mas robustez, causalidade e alinhamento frequentemente ficam para trás em relação ao desempenho bruto.

Se você quiser situar os sistemas atuais em contexto, ajuda conectar:

A “história curta” da IA, portanto, não é uma linha reta rumo à inteligência em nível humano—é um registro de suposições em mudança sobre o que é inteligência, e uma sequência de sucessos de engenharia e surpresas científicas que continuam redefinindo o campo.