Seleção de Casos de Uso
O que “Seleção de Casos de Uso” significa em produtos de IA
Seleção de casos de uso é a disciplina de decidir onde a IA melhora significativamente os resultados, onde ela adiciona custo e risco sem benefício e quais oportunidades perseguir primeiro. Na prática, ela fica na interseção entre estratégia de produto, viabilidade de engenharia e mudança organizacional.
Um bom caso de uso de IA não é “podemos aplicar aprendizado de máquina (machine learning) aqui”, mas:
- Um problema real de usuário ou de negócio com valor mensurável
- Uma decisão ou fluxo de trabalho em que previsões, ranqueamentos ou geração de conteúdo melhores mudam resultados
- Uma configuração de aprendizado viável (dados, ciclos de feedback, avaliação, restrições de implantação)
- Uma postura de risco e um plano de contingência alinhados com como erros afetam os usuários
A seleção de casos de uso se conecta diretamente a:
- KPIs (Métricas de Modelo vs Métricas de Produto): escolher medidas de sucesso que reflitam valor para o usuário, não apenas acurácia offline
- Estratégia de Dados: se você tem (ou consegue criar) os dados e ciclos de feedback de que o caso de uso precisa
- Construir vs Comprar: se deve usar APIs de fornecedores, modelos abertos ou modelos internos
- Modos de Falha & UX de Fallback: como o produto se comporta quando o modelo está errado ou incerto
Onde a IA ajuda (e por quê)
A IA é mais valiosa quando o problema tem padrões complexos difíceis de codificar manualmente, e quando a saída pode ser avaliada e melhorada ao longo do tempo.
A IA se destaca quando existem padrões e regras não escalam
A IA brilha quando:
- O mapeamento de entrada → saída é confuso (messy) ou de alta dimensionalidade
Exemplos: linguagem natural, imagens, áudio, sequências de comportamento do usuário. - Regras seriam frágeis (brittle) ou caras de manter
Exemplo: detecção de spam evolui continuamente; adversários se adaptam. - Você consegue aprender com resultados históricos
Exemplo: quais leads convertem, quais sinistros são fraudulentos. - “Bom o suficiente” tem valor e erros são toleráveis com proteções (guardrails)
Exemplo: sugerir respostas de e-mail que o usuário edita (aumentação). - Personalização importa
Exemplo: sistemas de recomendação e ranqueamento que se adaptam por usuário.
Em termos de aprendizado de máquina, esses são cenários em que é plausível aprender uma função ( f(x) ) que generaliza a partir dos dados, tipicamente usando Aprendizado Supervisionado, Aprendizado Auto-Supervisionado ou Aprendizado por Reforço, dependendo do feedback.
Arquétipos comuns de casos de uso de IA
Uma forma útil de selecionar casos de uso é combinar problemas com arquétipos de tarefas de IA — cada um com padrões conhecidos de avaliação e modos de falha.
Classificação (escolher um rótulo)
- Exemplos: fraude vs não fraude, tóxico vs seguro, categoria de bug
- Métricas típicas: precisão/recall, ROC-AUC, erro ponderado por custo
Regressão / Estimação (prever um número)
- Exemplos: tempo de entrega, probabilidade de churn, custo de sinistro
- Métricas: MAE/RMSE, calibração, curvas de custo de negócio
Ranqueamento / Recomendação (ordenar itens)
- Exemplos: ranqueamento de busca, ordenação de feed, “próxima melhor ação”
- Métricas: NDCG, MAP, CTR, retenção de longo prazo
Previsão (prever séries temporais futuras)
- Exemplos: planejamento de demanda, previsão de capacidade
- Métricas: MAPE/MASE, cobertura de intervalos, custo de ruptura de estoque
Detecção de anomalias (encontrar desvios raros)
- Exemplos: alertas de segurança, defeitos de manufatura
- Métricas: precisão em K, fadiga de alertas, tempo de investigação
Extração de informações (converter não estruturado → estruturado)
- Exemplos: campos de fatura, codificação médica, extração de cláusulas de contratos
- Métricas: acurácia por campo, distância de edição, tempo de correção humana
Geração (produzir texto/código/imagens) usando Modelos de Linguagem Grandes (Large Language Models)
- Exemplos: redigir e-mails, resumir ligações, escrever código boilerplate
- Métricas: conclusão de tarefa, taxa de edição, factualidade, incidentes de segurança
Frequentemente melhorada via Geração Aumentada por Recuperação (Retrieval-Augmented Generation) quando o conhecimento precisa estar ancorado.
Um caso de uso forte se encaixa claramente em um (ou em um pequeno número) desses arquétipos e tem um plano de avaliação mais concreto do que “parece bom”.
A IA é especialmente eficaz para “aumentação” antes de “automação”
Muitas organizações obtêm ganhos mais rápidos usando IA para assistir humanos antes de tentar automação total:
- Sugerir, triar, resumir, extrair, recomendar
- Manter um humano “no loop” para aprovações e casos de borda
- Usar as correções humanas como dados de treino/feedback (quando apropriado)
Isso reduz risco e frequentemente melhora a adoção, porque a IA é apresentada como uma ferramenta de produtividade, e não como substituição.
Onde a IA não ajuda (ou é uma má primeira escolha)
IA não é um martelo universal. Ela pode ser a abordagem errada por razões técnicas, econômicas ou organizacionais.
1) Problemas que já são bem resolvidos com regras ou software padrão
Se a lógica é estável, de baixa dimensionalidade e fácil de especificar, software tradicional costuma ser melhor:
- Cálculo de impostos com base em regras publicadas
- Fórmulas determinísticas de precificação
- Validação de dados com restrições claras (“deve ser uma data ISO válida”)
Uma boa heurística: se você consegue escrever regras corretas em poucas páginas e elas não vão mudar semanalmente, IA pode ser desnecessária.
2) Decisões de alto risco com baixa tolerância a erros e supervisão fraca
Se erros causam dano severo e você não consegue detectar erros de forma confiável:
- Diagnóstico médico sem revisão de um clínico
- Orientação jurídica apresentada como autoritativa
- Sistemas de controle críticos à segurança sem verificação formal
Ainda é possível usar IA, mas muitas vezes em um papel restrito (por exemplo, sinalizar casos para revisão de especialistas) com governança forte, auditabilidade e Modos de Falha & UX de Fallback.
3) Problemas “sem sinal”: dados são escassos, rótulos são pouco confiáveis, ou resultados não são aprendíveis
Modos de falha comuns:
- Você tem poucos exemplos do evento raro que importa (por exemplo, falhas catastróficas)
- Rótulos são inconsistentes (“fraude” tem definições diferentes entre equipes)
- O ambiente muda rapidamente (deriva de conceito) e você não consegue retreinar rápido o suficiente
- O alvo é inerentemente ruidoso ou ambíguo (baixa concordância até entre especialistas)
Quando a qualidade do rótulo é o gargalo, investir em mensuração e processo muitas vezes é melhor do que investir em um modelo maior.
4) Previsões que não mudam decisões
Um modelo pode ser preciso e ainda assim inútil se ninguém conseguir agir com base nele.
Exemplo: um modelo de churn que prevê churn, mas o negócio não tem alavancas de retenção, ou as intervenções são caras demais para aplicar. Uma boa seleção de casos de uso pergunta: Qual decisão vai mudar? e Qual ação se segue?
5) Custos ocultos superam benefícios
IA introduz custos contínuos:
- Pipelines de dados, monitoramento, retreinamento, infraestrutura de avaliação (MLOps)
- Custos de computação e latência (especialmente para modelos grandes)
- Revisões de segurança, privacidade e compliance
- Operações humanas: rotulagem, filas de revisão, escalonamento de suporte
Se um caso de uso economiza 30 segundos por semana por funcionário, mas exige uma equipe em tempo integral para manter, não é uma boa troca — a menos que seja estratégico de outras formas (por exemplo, habilitar uma nova linha de produto).
Um framework prático para selecionar casos de uso de IA
Um framework útil é avaliar cada candidato em Valor, Viabilidade e Risco, partindo do problema do usuário, e não do modelo.
Etapa 1: Comece com uma tarefa concreta do usuário e um fluxo de trabalho
Escreva o caso de uso como um problema de fluxo de trabalho, não como uma capacidade de IA.
Ruim: “Usar GPT para ajudar com contratos.”
Melhor: “Reduzir o tempo para revisar NDAs extraindo cláusulas não padronizadas e sugerindo redlines, com aprovação do advogado.”
Defina:
- Quem é o usuário?
- Qual é o fluxo de trabalho atual?
- Onde estão os gargalos (tempo, custo, erros, atrasos)?
- Como é o “melhor”?
Etapa 2: Transforme em uma decisão e defina métricas de sucesso
IA é aplicada de forma mais produtiva quando dá suporte a uma decisão:
- “Quais tickets devem ser escalados?”
- “Quais transações devem ser bloqueadas?”
- “O que devemos recomendar em seguida?”
- “Qual deve ser a resposta em rascunho?”
Em seguida, defina:
- KPI de produto: resultado que o negócio valoriza (tempo de resolução, conversão, taxa de perdas)
- Métrica de modelo: medida proxy (precisão/recall, qualidade de ranqueamento, acurácia de extração)
É aqui que você se alinha com KPIs (Métricas de Modelo vs Métricas de Produto): métricas offline são necessárias, mas o impacto online é o objetivo.
Etapa 3: Estabeleça uma linha de base (sempre)
Antes de IA, registre a linha de base que você precisa superar:
- Desempenho somente humano (velocidade, taxa de erro, custo)
- Heurística baseada em regras
- Modelo estatístico simples (regressão logística, gradient boosting)
- Abordagem somente de recuperação (para tarefas de conhecimento)
Linhas de base evitam “teatro de IA”, em que um modelo complexo substitui algo mais simples e confiável.
Etapa 4: Avalie viabilidade: dados, ciclos de feedback e restrições
Faça estas perguntas cedo:
Disponibilidade de dados
- Você tem exemplos suficientes de casos típicos e casos de borda?
- Rótulos estão disponíveis — ou você consegue definir um processo de rotulagem?
- As entradas são estáveis e acessíveis (logs, texto, imagens)?
- Há restrições de privacidade ou de propriedade intelectual (IP)?
Ciclos de feedback
- Você terá dados de resultado após a implantação (por exemplo, o usuário aceitou a sugestão)?
- É possível capturar correções humanas?
- Com que rapidez você consegue iterar?
Restrições operacionais
- Requisitos de latência (tempo real vs batch)
- Requisitos de disponibilidade (uptime)
- Complexidade de integração (onde isso vive na stack?)
- Custo por inferência (especialmente relevante para LLMs)
Etapa 5: Mapeie riscos e desenhe mitigações
Diferentes casos de uso têm perfis de risco diferentes:
- Riscos de segurança (conselhos nocivos, discriminação, assédio)
- Riscos de compliance (PII, dados regulados, auditabilidade)
- Riscos de reputação (falhas em produtos voltados ao público)
- Riscos de segurança da informação (injeção de prompt, exfiltração de dados em apps de LLM)
Mitigações frequentemente incluem:
- Revisão humana para ações sensíveis
- Limiares de confiança e abstenção
- Guardrails e checagens de política
- Restringir saídas a formatos estruturados
- Ancoragem com Geração Aumentada por Recuperação
- Um caminho robusto de fallback (Modos de Falha & UX de Fallback)
Etapa 6: Faça um modelo econômico simples
Mesmo um modelo de ROI aproximado esclarece prioridades. Inclua:
- Volume (tarefas por dia)
- Tempo economizado ou redução de erro
- Custo dos erros (falsos positivos/negativos)
- Custos de construção e operação (engenharia + computação + operações)
Lógica de exemplo:
- “Se reduzirmos o tempo de atendimento em 30 segundos para 50.000 tickets/mês, isso dá ~416 horas/mês.”
- Depois compare com o custo total (all-in) de construir e manter o sistema.
Etapa 7: Decida construir vs comprar (e quando “comprar” é estratégico)
A seleção de casos de uso deve considerar se você consegue entregar valor mais rápido via:
- APIs de fornecedores (APIs de LLM, OCR, fala-para-texto)
- Modelos abertos hospedados internamente
- Treinamento totalmente customizado
Isso é coberto em profundidade em Construir vs Comprar, mas o principal insight de seleção é: alguns casos de uso só são atraentes se você puder comprar a capacidade barato; outros justificam investimento porque se tornam diferenciados com dados proprietários.
Etapa 8: Planeje a experiência do produto para incerteza
Diferente de software determinístico, saídas de IA são probabilísticas. Um bom caso de uso inclui:
- Quando o sistema deve se abster
- Como os usuários corrigem erros
- O que acontece quando a IA está indisponível
- Como comunicar incerteza sem sobrecarregar os usuários
Isso é uma preocupação de design de produto tanto quanto de modelagem.
Priorizando oportunidades: como escolher o que fazer primeiro
Depois de ter múltiplos casos de uso candidatos, priorize com uma rubrica consistente.
Pontuação Impacto–Viabilidade–Risco (um padrão prático)
Um modelo simples de pontuação:
- Impacto (1–5): quanto valor se funcionar?
- Viabilidade (1–5): conseguimos construir e implantar com os dados e restrições disponíveis?
- Risco (1–5): qual é a desvantagem de estar errado? (maior = mais arriscado)
Então calcule um score de prioridade como:
def priority_score(impact, feasibility, risk, risk_weight=1.0):
# Higher is better; risk reduces priority.
return (impact * feasibility) - (risk_weight * risk)
candidates = [
{"name": "Support triage", "impact": 4, "feasibility": 5, "risk": 2},
{"name": "Auto-approve loans", "impact": 5, "feasibility": 3, "risk": 5},
{"name": "Invoice extraction", "impact": 3, "feasibility": 4, "risk": 2},
]
for c in candidates:
c["score"] = priority_score(c["impact"], c["feasibility"], c["risk"], risk_weight=1.5)
sorted(candidates, key=lambda x: x["score"], reverse=True)
Isso não é “científico”, mas força trade-offs explícitos e torna divergências produtivas (“Por que a viabilidade é só 2?”).
Pensamento de portfólio: equilibrar ganhos rápidos e apostas estratégicas
Organizações frequentemente se beneficiam de uma combinação de:
- Ganhos rápidos: baixo risco, alta viabilidade (automação de extração, triagem, sumarização)
- Diferenciadores centrais: viabilidade moderada, alto impacto (ranqueamento, personalização, copilotos específicos do domínio)
- Apostas longas: alto impacto, mas exigindo investimento em dados (otimização em ciclo fechado, aprendizado por reforço, automação profundamente integrada)
Isso se conecta a Estratégia de Dados: alguns casos de uso de alto impacto só se tornam viáveis após meses melhorando instrumentação e qualidade de dados.
Sequencie com “fatias finas” que chegam à produção
Projetos de IA falham quando miram um sistema final sem valor intermediário. Prefira fatias finas:
- Entregue uma funcionalidade segura e assistiva com métricas claras
- Adicione coleta de feedback e harnesses de avaliação
- Expanda cobertura e automatize mais do fluxo de trabalho ao longo do tempo
Fatias finas reduzem risco, aceleram aprendizado e criam dados do mundo real.
Exemplos práticos (como é uma boa seleção)
Exemplo 1: Triagem de tickets de suporte ao cliente (bom caso de uso inicial)
Problema: Agentes perdem tempo roteando e etiquetando tickets de entrada.
Abordagem de IA: Classificar intenção + urgência; sugerir roteamento e rascunhar respostas.
Por que é um bom candidato:
- Gargalo claro no fluxo de trabalho (tempo de roteamento, tempo até a primeira resposta)
- Tolerante a erro com humano no loop (o agente pode sobrescrever)
- Fácil coletar feedback (sinais de sobrescrita viram rótulos)
- Pode começar com aumentação e gradualmente automatizar
Riscos e mitigações:
- Roteamento incorreto de questões sensíveis → exigir limiares de confiança e categoria “desconhecido”
- Rascunhos alucinados (LLMs) → restringir a respostas com templates ou ancorar o conteúdo
Exemplo 2: Processamento de faturas e extração de campos (alto ROI se o volume for grande)
Problema: Lançamento manual de campos de faturas em um ERP.
Abordagem de IA: OCR + extração de fornecedor, datas, totais, itens de linha.
Por que é forte:
- Saídas estruturadas são fáceis de validar (totais devem bater, datas devem ser parseáveis)
- Alto volume gera economia clara
- Correção humana fornece sinais de treinamento
Armadilha comum:
- Casos de borda (qualidade da digitalização, layouts incomuns) dominam a cauda longa
Mitigação: desenhar para fallback e revisão baseada em filas; medir “taxa sem toque” (percentual processado sem edições humanas).
Exemplo 3: “Assistente especialista” com LLM em um domínio regulado (frequentemente um mau primeiro caso de uso)
Problema: Usuários querem respostas sobre políticas ou compliance.
Abordagem ingênua: Um chatbot que responde livremente a partir dos pesos do modelo.
Risco: Alto — alucinações e afirmações não verificáveis.
Uma versão melhor, com escopo mais bem definido:
- Usar Geração Aumentada por Recuperação sobre documentos aprovados
- Fornecer citações e trechos citados
- Tratar saídas como orientação em rascunho, não decisões autoritativas
- Registrar queries e adicionar revisão humana para tópicos de alto risco
Isso ilustra um princípio central de seleção: estreite o escopo até conseguir medir correção e controlar modos de falha.
Anti-padrões comuns na seleção de casos de uso
“Temos dados, vamos achar algo para prever”
Inverta o fluxo: comece por uma decisão e um resultado. Caso contrário, você constrói modelos impressionantes, mas não usados.
“Precisamos de 99,9% de acurácia”
Metas altas podem ser irreais ou desnecessárias. Foque em erros ponderados por custo e no design do fluxo de trabalho:
- Se falsos positivos são caros, otimize precisão e adicione revisão humana
- Se perder um evento raro é custoso, otimize recall e gerencie carga de alertas
“Vamos automatizar o trabalho inteiro”
Automação ponta a ponta frequentemente é o caminho mais difícil. Comece com:
- Sugestão
- Sumarização
- Extração
- Roteamento
Depois automatize decisões incrementalmente conforme confiança e governança amadurecem.
“O modelo vai consertar o processo”
Se o processo subjacente está quebrado — definições pouco claras, resultados inconsistentes, instrumentação ausente — IA geralmente amplifica a bagunça. Melhore a mensuração e o fluxo de trabalho primeiro.
Um “Canvas de Caso de Uso” leve (template)
Use isto para comparar candidatos de forma consistente:
- Usuário & fluxo de trabalho: Quem faz o quê hoje?
- Decisão suportada: O que o sistema vai decidir/sugerir?
- Valor esperado: Tempo economizado, ganho de receita, redução de risco (quantificar)
- Linha de base: Desempenho e custo atuais
- Dados & rótulos: O que existe, o que falta, como coletar
- Abordagem de modelo: Classificação/ranqueamento/geração/etc.
- Restrições: Latência, custo, privacidade, on-device vs nuvem
- Riscos: Segurança/compliance/reputação/segurança da informação
- Plano de fallback: Abstenção, revisão humana, backup determinístico
- Métricas de sucesso: KPI de produto + métrica de modelo + plano de monitoramento
- Loop de iteração: Como o feedback é coletado e usado
Checklist: selecionando e priorizando oportunidades de IA
- Existe uma decisão clara ou gargalo no fluxo de trabalho?
- Você consegue definir sucesso em termos mensuráveis?
- Você tem uma linha de base que precisa superar?
- Os dados estão disponíveis, e os rótulos são confiáveis ou criáveis?
- Você tem um ciclo de feedback pós-lançamento?
- Os riscos são aceitáveis com guardrails e UX de fallback?
- A economia fecha após incluir custos contínuos de manutenção?
- Você consegue entregar uma fatia fina em produção rapidamente?
- Este caso de uso se alinha às realidades de construir vs comprar? (Construir vs Comprar)
- Seu investimento em dados é proporcional ao valor estratégico? (Estratégia de Dados)
A seleção de casos de uso é, em última instância, sobre disciplina: escolher problemas em que a IA é uma alavanca — não um passivo — e sequenciá-los de modo que cada entrega ensine algo, melhore seus dados e se acumule em uma capacidade de produto defensável.