PI e Direitos Autorais

Por que IP e Direitos Autorais Importam em IA

Sistemas modernos de IA — especialmente Modelos de Linguagem de Grande Porte e modelos generativos de imagem/áudio — geralmente são treinados em coleções enormes de texto, código, imagens e gravações. Grande parte desse material é protegida por direitos autorais ou distribuída sob licenças com condições. Ao mesmo tempo, esses modelos podem produzir saídas que se parecem com dados de treinamento, levantando questões sobre violação, titularidade, atribuição e conformidade.

Este artigo explica os principais conceitos jurídicos e as escolhas práticas de engenharia/produto que reduzem risco. Ele é educativo, não é aconselhamento jurídico; respostas no mundo real dependem fortemente de jurisdição, fatos e termos contratuais.

Conceitos-Chave: Direitos Autorais, Licenciamento e “PI” em IA

O que “PI” cobre (e no que este artigo foca)

“Propriedade intelectual” inclui múltiplos regimes jurídicos:

  • Direitos autorais: protegem expressão original (texto, código, imagens, música etc.). Este é o foco principal para dados de treinamento e saídas de modelos.
  • Patentes: protegem invenções/métodos técnicos (às vezes relevante para arquiteturas de modelos ou implantação).
  • Marcas registradas: protegem identificadores de marca (questões como geração de logotipos ou confusão de marca).
  • Segredos comerciais: protegem informação confidencial (por exemplo, conjuntos de dados proprietários, pesos do modelo, prompts).

Os debates sobre dados de treinamento em IA vivem principalmente em direitos autorais + contrato (termos de serviço) + proteção de dados. Para privacidade, veja Leis de Privacidade (Visão Geral da LGPD/GDPR). Para responsabilidade quando saídas causam danos, veja Responsabilidade Civil e Prestação de Contas.

Noções básicas de direitos autorais que você precisa para IA

Direitos autorais geralmente protegem expressão original, não:

  • fatos (por exemplo, “Paris é a capital da França”),
  • ideias ou métodos (por exemplo, “um enredo sobre amantes desafortunados”),
  • apenas estilo (por exemplo, “no estilo de Hemingway”), embora as saídas ainda possam infringir se copiarem expressão protegida.

Uma obra infringe quando alguém copia expressão protegida sem permissão e o resultado é substancialmente semelhante (os testes variam por jurisdição). A cópia pode ser provada por acesso + similaridade, ou por evidência direta.

“Treinamento” vs “saída” são questões jurídicas separadas

Dois atos distintos importam:

  1. Usar obras protegidas por direitos autorais durante o treinamento (copiar para conjuntos de dados, armazenar, processar, criar representações intermediárias).
  2. Publicar ou distribuir saídas que possam reproduzir expressão protegida ou criar obras derivadas.

Um sistema pode ser lícito para treinar, mas ainda assim arriscado no momento da saída — ou vice-versa.

Dados de Treinamento: Onde Entram Direitos Autorais e Licenças

Fontes comuns de dados de treinamento e seus perfis de risco

  • Domínio público (por exemplo, obras cujo direito autoral expirou, ou dedicadas como CC0): tipicamente menor risco.
  • Conteúdo com licença aberta (Creative Commons, código open-source): utilizável se você cumprir as condições da licença.
  • Corpora comerciais/licenciados (arquivos de notícias, bibliotecas de fotos de banco de imagens): maior custo, direitos mais claros.
  • Conteúdo coletado por scraping na web: alta incerteza jurídica por causa de direitos autorais + termos de serviço + restrições de robôs, além de potencial presença de dados pessoais.

Teorias de direitos autorais aplicadas ao treinamento

Estados Unidos: “uso justo” (fair use) é o principal campo de batalha

Nos EUA, o treinamento frequentemente é analisado sob uso justo (fair use) (uma doutrina flexível, caso a caso). Os tribunais ponderam quatro fatores:

  1. Finalidade e caráter (comercial vs sem fins lucrativos; uso transformativo)
  2. Natureza da obra (obras criativas recebem proteção mais forte)
  3. Quantidade e substancialidade copiada
  4. Efeito no mercado (substitui o original ou prejudica mercados de licenciamento?)

Muitas disputas de IA argumentam que o treinamento é “transformativo” (aprender padrões estatísticos em vez de redistribuir obras), enquanto autores alegam que o treinamento copia obras inteiras e compete com mercados de licenciamento. Litígios em andamento (por exemplo, casos envolvendo autores, publishers de notícias, bibliotecas de imagens e hosts de código) significam que a “resposta” prática ainda está evoluindo.

UE/Reino Unido e outras jurisdições: exceções de mineração de texto e dados (TDM) variam

Muitos lugares têm exceções de TDM (text-and-data mining) que permitem cópia para análise sob condições. Na UE, a Diretiva DSM prevê:

  • uma exceção mais ampla para organizações de pesquisa (com restrições), e
  • uma exceção que pode ter opt-out pelos titulares de direitos para uso geral (frequentemente via reservas legíveis por máquina).

Outros países (por exemplo, Japão) têm abordagens comparativamente flexíveis para análise de informação. O Reino Unido debateu reformas; a situação atual permanece mais limitada do que algumas propostas.

Implicação prática: desenvolvedores globais de IA frequentemente constroem programas de conformidade que suportam opt-out e rastreamento de proveniência, porque um conjunto de dados que é lícito em uma região pode ser contestado em outra.

Licenciamento: permissão com condições

Mesmo que o treinamento possa ser defendido como uso justo ou permitido sob uma exceção, licenças ainda podem importar porque:

  • Alguns dados são acessados sob termos contratuais (ToS do site, termos de API, acordos de conjuntos de dados).
  • Licenças abertas impõem obrigações que podem se aplicar à distribuição a jusante (especialmente para código).

Creative Commons (CC) no treinamento

Licenças CC comuns:

  • CC0: dedicação ao domínio público (menos obrigações).
  • CC BY: exige atribuição.
  • CC BY-SA: atribuição + “compartilhar pela mesma licença” para adaptações (difícil de interpretar para treinamento/pesos de modelo).
  • CC BY-NC: restrição de uso não comercial (frequentemente incompatível com treinamento de modelos comerciais).
  • CC BY-ND: sem derivações (frequentemente incompatível com muitos usos).

Tensão prática: como “atribuir” bilhões de fontes em um modelo treinado? Algumas organizações interpretam isso como fornecer atribuição em nível de conjunto de dados ou listas de fontes; outras evitam conteúdo CC-BY, a menos que consigam atender às expectativas de atribuição.

Licenças de código open-source (questões ao estilo Copilot)

Treinar com código público levanta questões sobre:

  • Permissibilidade de copiar para conjuntos de dados
  • Se as saídas são obras derivadas
  • Se obrigações de licença (por exemplo, copyleft da GPL) podem ser acionadas por código gerado

Exemplo de cenário de risco:

  • Você treina com repositórios sob GPL.
  • O modelo produz um trecho quase literal.
  • Um usuário o entrega em um produto proprietário sem satisfazer as obrigações da GPL.

Mesmo que o provedor do modelo argumente que o treinamento é lícito, a regurgitação na saída pode criar exposição de conformidade a jusante.

Contratos e restrições de acesso: ToS, robots e APIs

Um eixo separado de direitos autorais é contrato:

  • Sites frequentemente proíbem scraping automatizado ou reutilização.
  • Termos de API podem restringir uso para treinamento.
  • “Robots.txt” não é lei, mas pode sustentar argumentos sobre acesso autorizado e expectativas.

Implicação prática: um conjunto de dados construído via scraping pode criar não só risco de direitos autorais, mas também risco de violação contratual.

Saídas: Titularidade, Violação e Direitos do Usuário

Saídas de IA têm direitos autorais, e quem é o titular?

Isso varia por jurisdição, mas uma tendência importante é:

  • Direitos autorais exigem autoria humana (explicitamente enfatizado em orientações e decisões de registro do US Copyright Office).
  • Saída puramente gerada por máquina pode ser não protegível por direitos autorais, ou seja, ninguém pode reivindicar direitos exclusivos sobre ela.
  • Se um humano fizer contribuições criativas suficientes (seleção, arranjo, edição significativa), o trabalho resultante pode ser protegido como obra de autoria humana.

Exemplo prático:

  • Um usuário pede: “Escreva uma história noir de detetive ambientada em Marte.” A saída bruta pode não ser protegível se considerada puramente gerada por IA.
  • Se o usuário então editar, reestruturar e adicionar trechos originais, essa versão editada pode ser protegida.

Implicação de produto: muitas ferramentas de IA atribuem “propriedade” por contrato (por exemplo, “você é dono das saídas”), mas um contrato não pode criar direitos autorais onde a lei diz que não existem. Ele pode, contudo, alocar direitos contratuais entre provedor e usuário.

Risco de infração: “similaridade substancial” e memorização

Mesmo se um modelo geralmente produz texto novo, o risco de infração aumenta quando ele:

  • produz trechos literais ou quase literais,
  • recria de perto a composição de uma imagem protegida por direitos autorais,
  • reproduz blocos de código únicos.

Isso se conecta a conceitos de aprendizado de máquina como memorização (memorization) e vazamento de dados (data leakage), que também são questões de segurança e privacidade (veja Leis de Privacidade (Visão Geral da LGPD/GDPR)).

Exemplo prático (texto):

  • Um usuário pede a um LLM para “continuar” um romance recém-publicado ou para “citar” conteúdo atrás de paywall.
  • O modelo produz longos trechos que correspondem à fonte.

Exemplo prático (imagens):

  • Um prompt inclui um personagem específico protegido por direitos autorais.
  • O modelo produz uma representação altamente similar que poderia ser argumentada como obra derivada não autorizada.

Imitação de estilo vs cópia de expressão

Imitar um estilo frequentemente não é, por si só, infração (estilo geralmente é considerado uma ideia/técnica não protegível), mas:

  • copiar elementos expressivos específicos (personagens distintivos, letras, cenas, composições) pode infringir.
  • algumas jurisdições reconhecem direitos adicionais (por exemplo, direitos morais, concorrência desleal) que podem complicar “clonagem de estilo”.

Direito de imagem, marcas registradas e outras restrições “do lado da saída”

Mesmo quando direitos autorais são incertos, as saídas podem criar outros problemas jurídicos:

  • Direito de imagem / direitos de personalidade: gerar a imagem ou voz de uma celebridade para uso comercial (dependente da jurisdição).
  • Marca registrada: gerar logotipos ou identificadores de marca de forma que confunda consumidores.
  • Difamação e conteúdo nocivo: tratado mais em Responsabilidade Civil e Prestação de Contas.

Conformidade Prática: O Que Times Realmente Fazem

Times raramente se apoiam em uma única doutrina (“é uso justo”) como sua única estratégia. Em vez disso, combinam governança de dados, salvaguardas do modelo e controles de produto.

1) Estratégias de obtenção de dados

Abordagens comuns (frequentemente combinadas):

  • Usar domínio público + conjuntos de dados com licenças permissivas quando viável.
  • Licenciar corpora de alto valor (notícias, livros, imagens de banco) para reduzir incerteza.
  • Curar listas de permissão/negação para domínios e repositórios.
  • Respeitar sinais de opt-out quando legalmente relevantes ou como prática de redução de risco.

2) Rastrear proveniência e licenças (governança de conjuntos de dados)

Um objetivo prático é conseguir responder:

  • Em que treinamos?
  • Sob qual licença/termos?
  • Conseguimos provar que cumprimos?
  • Podemos remover fontes (e precisamos retreinar)?

Um padrão simples de “manifesto de conjunto de dados” interno ajuda:

{
  "dataset_name": "webtext-curated-2025q4",
  "sources": [
    {
      "source_id": "wikipedia_en",
      "type": "dump",
      "license": "CC BY-SA 3.0",
      "attribution_url": "https://en.wikipedia.org/wiki/Wikipedia:Copyrights",
      "included": true
    },
    {
      "source_id": "example_news_api",
      "type": "api",
      "contract": "enterprise-license-2025-04",
      "usage_rights": ["train", "fine-tune"],
      "included": true
    },
    {
      "source_id": "random_blog_scrape",
      "type": "crawl",
      "terms_of_service_checked": false,
      "included": false,
      "exclusion_reason": "unknown rights / ToS risk"
    }
  ],
  "filters": ["dedupe", "pii_redaction_v2", "copyright_blocklist_v1"]
}

Isso não é um escudo jurídico, mas viabiliza auditorias, remoções e tomada de decisão baseada em evidências.

3) Reduzir memorização e saída literal

Mitigações técnicas incluem:

  • Deduplicação dos dados de treinamento (removendo passagens repetidas).
  • Filtragem de PII e dados sensíveis (benefício duplo: privacidade + menor risco jurídico).
  • Métodos de treinamento que reduzem memorização (regularização, balanceamento de conjunto de dados).
  • Filtros de saída:
    • detectar sobreposições longas de n-gramas com corpora conhecidos,
    • recusar prompts que solicitam texto protegido literal (“cole o capítulo 3 de X”),
    • limitar comprimento de citação literal.

4) Geração Aumentada por Recuperação (RAG) com conteúdo licenciado

Em vez de incorporar conteúdo nos pesos do modelo, muitos produtos usam Geração Aumentada por Recuperação:

  • O modelo recupera documentos em tempo de execução a partir de um corpus licenciado ou próprio.
  • O sistema retorna respostas com citações e trechos controlados.

Isso pode melhorar factualidade e reduzir disputas sobre dados de treinamento, mas você ainda deve respeitar:

  • a licença do corpus (por exemplo, não redistribuir artigos completos),
  • controles de acesso do usuário (conteúdo com paywall),
  • limites de direitos autorais sobre o tamanho de trechos.

5) Controles de produto e política

Controles comuns que se conectam a risco jurídico:

  • Termos claros: o que usuários podem gerar e usos proibidos.
  • Opções de “não enviar” ou “não treinar com seus dados” para usuários corporativos.
  • Processos de denúncia e remoção.
  • “Modo sensível a direitos autorais” que evita gerar letras, trechos longos ou obras nomeadas específicas.

Questões Jurídicas Emergentes (Onde a Lei Ainda Está Mudando)

1) Treinar em si é infração se as saídas não forem?

Uma questão central não resolvida: o ato de copiar obras para um pipeline de treinamento exige permissão se o modelo não produzir essas obras? Tribunais estão avaliando:

  • se cópias intermediárias são infratoras,
  • se o treinamento é “transformativo”,
  • se um mercado de licenças para treinamento de IA deve contar como dano de mercado juridicamente reconhecível.

2) Qual nível de similaridade aciona infração para conteúdo gerado?

Para saídas, disputas frequentemente dependem de:

  • quanto foi copiado,
  • se a parte copiada é qualitativamente importante (“o coração” da obra),
  • se a saída é um substituto no mercado.

Ferramentas que medem sobreposição (por exemplo, detectores de similaridade) podem ajudar, mas testes jurídicos não são puramente numéricos.

3) Pesos do modelo são “obras derivadas” dos dados de treinamento?

Alguns autores alegam que pesos codificam expressão protegida. Réus argumentam que pesos armazenam parâmetros estatísticos, não conteúdo expressivo. Essa questão afeta:

  • se distribuir pesos é como distribuir uma cópia,
  • se lançamentos com pesos abertos criam exposição adicional.

4) Obrigações de transparência (não apenas direitos autorais)

Abordagens regulatórias mais recentes (veja Panorama de Regulação de IA) pressionam cada vez mais por:

  • documentação de categorias de dados de treinamento,
  • resumos de fontes de dados,
  • processos de gestão de riscos.

Mesmo onde a lei de direitos autorais é incerta, transparência pode se tornar um requisito de conformidade.

5) Licenciamento coletivo e “licenças de treinamento de IA”

Uma direção provável no médio prazo é o crescimento de mercados de licenciamento:

  • publishers oferecendo licenças de treinamento de IA,
  • sociedades de gestão coletiva negociando em nome de criadores,
  • metadados padronizados para opt-out/opt-in.

Se esses mercados se tornam dominantes depende de resultados judiciais e legislação.

Exemplos Práticos

Exemplo 1: Ajuste fino de um chatbot de suporte em manuais internos

  • Manuais pertencem à empresa (direitos autorais detidos internamente).
  • O risco se concentra em segredos comerciais e privacidade (se tickets contiverem dados pessoais).
  • Boa prática:
    • remover PII,
    • manter os dados em ambiente controlado,
    • restringir acesso ao modelo,
    • documentar titularidade e retenção.

Exemplo 2: Treinar um modelo de imagem com “imagens grátis” encontradas online

“Grátis para ver” não é “grátis para usar”. Uma imagem em um blog pode ter direitos autorais mesmo se estiver publicamente acessível.

Abordagem mais segura:

  • usar fontes de domínio público/CC0,
  • usar uma biblioteca paga de banco de imagens com direitos explícitos para treinamento,
  • manter um manifesto de licenças,
  • suportar remoções e listas de bloqueio.

Exemplo 3: Lançar um assistente de código

Principais questões:

  • evitar regurgitação literal de código licenciado,
  • alertar usuários sobre conformidade de licenças,
  • fornecer pistas de proveniência quando a saída do modelo corresponder a fontes conhecidas (quando viável),
  • registrar e responder a reclamações.

Lista de Verificação de Implementação (Engenharia + Jurídico + Produto)

  • Inventário de dados: Você consegue listar suas principais fontes de dados e seus termos?
  • Rastreamento de proveniência: Você armazena um manifesto de conjunto de dados e histórico de versões?
  • Política de licenças: Quais licenças são permitidas/proibidas (por exemplo, “sem CC-BY-NC”)?
  • Tratamento de opt-out: Você respeita mecanismos conhecidos de opt-out quando aplicável?
  • Controles de memorização: Deduplicação, filtragem e checagens de similaridade de saída.
  • Estratégia de RAG: Preferir recuperação a partir de corpora licenciados para conteúdo premium.
  • Termos de usuário e UX: Limites claros de uso; desencorajar infração; tratar remoções.
  • Prontidão para auditoria: Model cards/documentação de dados (veja Cartões de Modelo e Curadoria de Conjuntos de Dados se disponíveis no seu wiki).

Relação com Outros Tópicos de Política

Resumo

Questões de PI e direitos autorais em IA giram em torno de dois problemas conectados: no que você treinou e o que você gera. A lei ainda está evoluindo, especialmente sobre se treinamento em larga escala sem permissão é lícito e como tratar pesos do modelo e saídas quase literais. Na prática, times gerenciam risco por meio de conjuntos de dados licenciados ou curados, rastreamento de proveniência, medidas técnicas anti-memorização e controles de produto como RAG, filtragem e termos claros para usuários.

Se você quiser, posso adicionar um apêndice curto específico por jurisdição (EUA vs UE vs Reino Unido vs Japão) ou uma seção mais aprofundada sobre interações de licenças open-source para modelos de código.