Licenciamento de Datasets

Visão geral

“Licenciamento de conjuntos de dados (dataset licensing)” é o conjunto de termos legais que rege como um conjunto de dados (dataset) pode ser usado, modificado, combinado e redistribuído (redistributed). Em aprendizado de máquina (machine learning) — especialmente para modelos de base (foundation models) e modelos de linguagem grandes (LLMs) — as licenças de conjuntos de dados afetam diretamente:

Se você pode usar dados para treinamento, ajuste fino (fine-tuning), ajuste por instrução (instruction tuning) ou avaliação
Se você pode usá-los para fins comerciais
Que atribuição (attribution) você deve fornecer (e onde)
Se você pode compartilhar o conjunto de dados (ou um conjunto de dados derivado) com outras pessoas
Se a combinação de conjuntos de dados cria incompatibilidades de licença
O que você precisa documentar para demonstrar conformidade (compliance)

Este artigo foca nas realidades práticas de licenciamento para pipelines (pipelines) de aprendizado de máquina/modelos de linguagem grandes. Não é aconselhamento jurídico; quando o risco é alto (produtos comerciais, dados sensíveis, grandes redistribuições), consulte assessoria jurídica qualificada.

Por que o licenciamento de conjuntos de dados importa em aprendizado de máquina/modelos de linguagem grandes

Sistemas modernos de aprendizado de máquina dependem de grandes quantidades de dados, frequentemente agregados a partir de muitas fontes. Problemas de licenciamento costumam aparecer tarde — durante um lançamento do modelo, auditoria, aquisição ou implantação corporativa — quando corrigi-los é caro ou impossível.

Falhas comuns incluem:

Treinar em um conjunto de dados rotulado como “apenas para pesquisa” e depois implantar comercialmente
Misturar conjuntos de dados em que um é CompartilhaIgual (share-alike) (copyleft (copyleft)) e, mais tarde, redistribuir um conjunto de dados combinado sob termos incompatíveis
Usar dados sob uma licença que exige atribuição, mas lançar um modelo sem qualquer registro de atribuição
Depender de dados “abertos” cuja licença proíbe derivações ou inclui restrições de campo de uso (field-of-use)
Confundir termos de acesso ao conjunto de dados (Termos de Serviço (Terms of Service) de um site) com licenças de direitos autorais

O licenciamento interage com decisões de lançamento de modelos abordadas em tópicos relacionados como Código Aberto (open source) vs Pesos Abertos (open weights) vs API Aberta (open API) e Licenças de Modelo (Model Licenses).

O que, de fato, está sendo licenciado?

Um “conjunto de dados” pode agrupar múltiplas camadas de direitos e obrigações. Entender a que a licença se aplica ajuda a evitar suposições incorretas.

1) Direitos sobre o conteúdo

Exemplos: texto, imagens, áudio, vídeo, trechos de código.

Muitos itens são protegidos por direitos autorais (expressão criativa).
Alguns itens podem não ser protegíveis por direitos autorais (fatos, medições simples), mas a compilação ainda pode carregar outros direitos.

2) Direitos sobre a base de dados / compilação

Em algumas jurisdições (notadamente a UE), podem se aplicar direitos sui generis sobre bases de dados (sui generis database rights) mesmo que entradas individuais não sejam protegíveis por direitos autorais. Algumas licenças de conjuntos de dados tratam explicitamente de direitos de base de dados (por exemplo, licenças Open Data Commons).

3) Termos contratuais (Termos de Serviço, Acordos de Uso de Dados)

Às vezes, você não recebe uma “licença” para os dados no sentido de direitos autorais; em vez disso, você concorda com um contrato que rege o acesso e o uso (Termos de Serviço com aceite por clique (click-through), Acordos de Uso de Dados (Data Use Agreements) acadêmicos etc.). Termos contratuais podem ser mais restritivos do que licenças abertas.

4) Privacidade, confidencialidade e outras restrições não relacionadas a PI

Uma licença não substitui obrigações relacionadas a:

Dados pessoais (por exemplo, conformidade com GDPR/CCPA)
HIPAA ou dados de saúde regulados
Segredos comerciais / dados confidenciais
Atributos biométricos ou sensíveis
Políticas de plataformas e exigências éticas

Na prática, a conformidade para conjuntos de dados frequentemente exige tanto (a) conformidade de licença quanto (b) conformidade de privacidade/governança (ver conceitos relacionados como Governança de Dados (Data Governance) e Proveniência de Dados (Data Provenance)).

Famílias comuns de licenças de conjuntos de dados (e o que significam em aprendizado de máquina)

Abaixo estão as licenças mais frequentemente vistas em conjuntos de dados e benchmarks (benchmarks) de aprendizado de máquina.

Domínio público / “nenhum direito reservado”

Exemplos: CC0, Public Domain Mark, Open Data Commons PDDL

O que você pode fazer: Usar, modificar, redistribuir, inclusive comercialmente.
O que você deve fazer: Normalmente nada (atribuição é bem-vinda, mas não obrigatória).
Implicação para aprendizado de máquina: Mais fácil para treinamento e redistribuição; ainda assim, fique atento a restrições de privacidade ou contratuais.

Exemplo prático: Um corpus de texto CC0 geralmente é seguro para incluir tanto em conjuntos de dados de treinamento quanto de avaliação e para redistribuir com mínimo atrito.

Licenças com atribuição (permissivas, mas não “vale tudo”)

Exemplos: Creative Commons CC BY 4.0, Open Data Commons ODC-By

O que você pode fazer: Usar, modificar, redistribuir, inclusive comercialmente.
O que você deve fazer: Fornecer atribuição, manter avisos, vincular a licença, indicar mudanças.
Implicação para aprendizado de máquina: Funciona bem para treinamento e avaliação, mas você precisa de um plano de atribuição.

Exemplo prático: Se você treina um modelo de linguagem grande em artigos CC BY, provavelmente precisa preservar um registro das fontes e fornecer atribuição na documentação ou em um arquivo “Attributions” enviado junto com o modelo ou produto.

CompartilhaIgual / copyleft para dados

Exemplos: CC BY-SA, Open Data Commons ODbL

O que você pode fazer: Usar, modificar, redistribuir, inclusive comercialmente.
O que você deve fazer: Se você distribuir adaptações ou bases de dados derivadas, deve disponibilizá-las sob a mesma licença (CompartilhaIgual) e fornecer atribuição.
Implicação para aprendizado de máquina: CompartilhaIgual pode ser compatível com projetos abertos, mas é complicado para produtos proprietários e para mistura de conjuntos de dados. Se um modelo treinado é um derivado do conjunto de dados é uma questão juridicamente indefinida em muitas jurisdições; no entanto, distribuir conjuntos de dados derivados (limpos, filtrados, re-rotulados, mesclados) frequentemente está claramente dentro do escopo do CompartilhaIgual.

Exemplo prático: Você mescla um conjunto de dados geoespacial ODbL com suas próprias anotações e publica o conjunto mesclado. ODbL provavelmente exige que a base de dados mesclada seja distribuída sob ODbL (e que você forneça atribuição e ofereça a base de dados sob os mesmos termos).

Não comercial (NC)

Exemplos: CC BY-NC, CC BY-NC-SA

O que você pode fazer: Usar e modificar, mas não para fins comerciais.
O que você deve fazer: Atribuição (e CompartilhaIgual se houver SA).
Implicação para aprendizado de máquina: “Não comercial” frequentemente é incompatível com treinamento de modelos para uso comercial, implantação corporativa, APIs pagas, ou mesmo uso interno em empresas com fins lucrativos (dependendo da interpretação e da tolerância a risco). Cláusulas NC são um bloqueio frequente para uso em produção.

Exemplo prático: Uma startup treina um modelo de embeddings (embedding model) com documentos CC BY-NC e vende acesso via API. Isso muito provavelmente não está em conformidade.

SemDerivações (ND)

Exemplos: CC BY-ND, CC BY-NC-ND

O que você pode fazer: Redistribuir cópias inalteradas (frequentemente até de forma comercial para BY-ND).
O que você não pode fazer: Compartilhar versões adaptadas/modificadas.
Implicação para aprendizado de máquina: ND frequentemente é um mau ajuste para aprendizado de máquina, porque muitos fluxos de trabalho de aprendizado de máquina criam adaptações: limpeza, filtragem, tokenização e redistribuição, reformatar, rotular, traduzir ou extrair subconjuntos. Se “treinar um modelo” conta como criar uma obra derivada é debatido, mas ND introduz incerteza jurídica significativa e equipes de conformidade conservadoras frequentemente evitam dados ND para treinamento.

Exemplo prático: Se você baixa um conjunto de dados BY-ND e depois publica uma “versão limpa” com linhas deduplicadas, você provavelmente criou um conjunto de dados derivado — não permitido sob ND.

“Licenças de software usadas em dados” (MIT/Apache/GPL)

Às vezes, conjuntos de dados são rotulados com licenças de software (por exemplo, MIT, Apache-2.0). Isso pode ser legítimo, mas nem sempre é o melhor encaixe:

Licenças de software podem não tratar direitos de base de dados de forma clara.
Conceitos de “código-fonte” mapeiam de forma imperfeita para conjuntos de dados.
Licenças de software copyleft (GPL) podem criar obrigações pouco claras para redistribuição de dados.

Orientação prática: Prefira licenças específicas para dados (CC/ODC) para conjuntos de dados. Se você encontrar MIT/Apache em dados, leia com cuidado e considere como requisitos de atribuição/avisos devem ser atendidos.

Licenças personalizadas, restritas ou “apenas para pesquisa”

Exemplos: somente acadêmico, apenas para pesquisa, “sem uso em produção”, “sem treinamento”, “sem benchmarking”, “sem redistribuição”, ou Acordos de Uso de Dados com aceite por clique.

O que você pode fazer: Apenas o que o acordo permite.
Implicação para aprendizado de máquina: Isso é comum em benchmarks e corpora proprietários. Pode ser adequado para pesquisa interna, mas pode bloquear o lançamento do modelo, implantação comercial ou até o compartilhamento com colaboradores.

Exemplo prático: Um conjunto de dados de benchmark permite avaliação, mas proíbe usá-lo para treinamento. Se você o mistura acidentalmente nos dados de treinamento, pode violar a licença e comprometer sua capacidade de publicar ou entregar o modelo.

Cláusulas “Sem IA / sem aprendizado de máquina”

Um padrão emergente são licenças ou termos que restringem explicitamente o treinamento de modelos de IA (às vezes chamados de restrições “NoAI”). A aplicabilidade depende da jurisdição e da formação contratual, mas, do ponto de vista de conformidade, devem ser tratadas como restrições reais se você concordou com elas.

Principais obrigações e restrições (o que procurar)

Ao revisar os termos de um conjunto de dados, extraia obrigações para uma lista de verificação. As mais comuns são:

Requisitos de atribuição

Tipicamente incluem:

Nome(s) do(s) criador(es) e título do conjunto de dados
Aviso de direitos autorais (se fornecido)
Nome da licença e link
Indicação de mudanças (por exemplo, “filtrado, deduplicado, tokenizado”)
Às vezes, uma URL para a fonte

Onde a atribuição aparece em aprendizado de máquina:

Um cartão do conjunto de dados (dataset card) / cartão do modelo (model card)
Um repositório ATTRIBUTIONS.md
Documentação do produto (página “Legal”, “Notices”)
Um registro interno de conformidade (se você não redistribui)

Propagação de avisos e licenças

Muitas licenças exigem que você inclua o texto da licença ou preserve avisos ao redistribuir o conjunto de dados (ou partes substanciais dele).

Regras de redistribuição

Algumas licenças permitem uso, mas restringem redistribuição (comum em acordos apenas para pesquisa). Se seu pipeline inclui compartilhar dados com contratados, provedores de nuvem ou anotadores externos, restrições de redistribuição importam.

Gatilhos de CompartilhaIgual / copyleft

Obrigações de CompartilhaIgual geralmente se aplicam quando você distribui um conjunto de dados adaptado ou uma base de dados derivada. Muitas vezes não importam para uso puramente interno, mas no momento em que você publica um conjunto de dados processado, pode acionar obrigações.

Restrições de não comercial

“Comercial” pode ser ambíguo:

Vender acesso é comercial.
Usar o conjunto de dados para melhorar um produto pago frequentemente é considerado comercial.
P&D interno em uma empresa com fins lucrativos pode ser argumentado em qualquer direção; muitas organizações tratam como comercial para reduzir risco.

Restrições de SemDerivações

ND é particularmente problemático para:

Lançar uma versão limpa/padronizada de um conjunto de dados
Lançar uma versão rotulada de um conjunto de dados ND
Traduzir ou aumentar dados
Publicar subconjuntos extraídos se forem “adaptações” em vez de meras cópias

Restrições de campo de uso

Alguns termos restringem o uso em domínios sensíveis (por exemplo, vigilância, militar, identificação biométrica). Isso frequentemente aparece em licenças personalizadas e pode limitar onde modelos treinados com os dados podem ser implantados.

Implicações práticas para fluxos de trabalho de aprendizado de máquina

Treinamento vs ajuste fino vs avaliação

Licenças às vezes distinguem entre:

Treinamento (aprender pesos (weights) a partir de dados)
Ajuste fino (adaptar um modelo existente)
Avaliação/benchmarking (medir desempenho)
Lançamento de dados (redistribuição do próprio conjunto de dados)

Um conjunto de dados pode ser permitido para avaliação, mas proibido para treinamento. Ou vice-versa. Sempre verifique.

Pesos de modelo são “derivações” de dados de treinamento?

Esta é uma das perguntas mais importantes — e ainda indefinida.

Muitas licenças de dados abertas foram escritas antes do aprendizado de máquina moderno e não tratam explicitamente de treinamento.
Algumas teorias jurídicas tratam os pesos do modelo como não contendo cópias expressivas dos dados, enquanto outras se concentram em se o processo de treinamento cria uma adaptação ou se as saídas podem reproduzir expressão protegida.
Conformidade prática frequentemente adota uma abordagem baseada em risco: evitar ND/NC para treinamento comercial de modelos; manter registros de atribuição para BY/SA; evitar misturar dados restritos em modelos amplamente distribuídos.

Se você planeja publicar pesos, considere também os termos do próprio modelo e a redistribuição downstream em Licenças de Modelo.

“Conjuntos de dados derivados” são mais claros do que “modelos derivados”

Mesmo que você conclua que os pesos do modelo não são uma obra derivada, conjuntos de dados derivados normalmente são:

Subconjuntos filtrados
Exemplos re-rotulados
Aumentos sintéticos vinculados a linhas originais
Formatos padronizados (por exemplo, converter dumps brutos em JSONL com campos normalizados)

Se você os redistribui, você está claramente em território de licenças.

Vazamento de dados e conformidade

Mesmo quando uma licença permite treinamento, ela pode proibir redistribuir os dados brutos. Se seu modelo memoriza e reproduz grandes passagens literalmente, você pode criar problemas práticos e legais (e violar privacidade ou confidencialidade). Isso se cruza com métodos de avaliação como Avaliação de modelos de linguagem grandes (LLM Evaluation) (por exemplo, testes de memorização (memorization tests), strings canário (canary strings)).

Misturar conjuntos de dados sob termos diferentes (compatibilidade de licenças)

Corpora reais de treinamento são misturas. Problemas de compatibilidade tipicamente surgem quando você:

Redistribui um conjunto de dados combinado, ou
Treina um modelo destinado à distribuição ou implantação comercial, enquanto alguns componentes impõem restrições que bloqueiam esse uso.

Princípios gerais

Você deve cumprir as obrigações de cada conjunto de dados para a forma como você o utiliza.
Os termos mais restritivos frequentemente determinam o que você pode fazer com o resultado combinado.
“Aberto” não significa “compatível com tudo”.

Cenários comuns de mistura

Misturar CC BY com CC0

Geralmente tudo bem. Forneça atribuição para a parte CC BY.

Misturar CC BY-SA (CompartilhaIgual) com dados permissivos

Se você redistribuir um conjunto de dados combinado que seja uma adaptação/base de dados derivada, o CompartilhaIgual pode exigir que o conjunto de dados combinado seja disponibilizado sob termos compatíveis com BY-SA/ODbL. Isso pode ser inaceitável se você pretendia um lançamento proprietário.

Misturar qualquer dado “NC” em um corpus de treinamento comercial

Do ponto de vista de conformidade conservadora: se o modelo é usado comercialmente e o conjunto de dados NC contribuiu para o treinamento, você pode estar violando a restrição NC. Muitas organizações tratam dados NC como “não permitido” para treinamento comercial de modelos.

Misturar dados “sem redistribuição” em um conjunto de dados que você planeja publicar

Isso é um bloqueio imediato. Frequentemente você ainda pode usar o conjunto de dados internamente (se permitido), mas não pode publicar o conjunto combinado.

Misturar dados “apenas para avaliação” em treinamento

Isso arrisca violações de licença e validade científica (benchmarks contaminados). Mantenha conjuntos de dados de avaliação separados, com controles de acesso.

Abordagem prática: segmentar por classe de licença

Uma estratégia operacional comum é manter “pools de dados” separados:

Pool A: Redistribuível + amigável ao uso comercial (CC0, CC BY, termos permissivos)
Pool B: Restrito (apenas para pesquisa, sem redistribuição, NC)
Pool C: CompartilhaIgual (BY-SA/ODbL), acompanhado separadamente
Pool D: Dados sensíveis ou pessoais, governados por políticas de privacidade

Então decida explicitamente quais pools alimentam quais execuções de treinamento.

Documentar a conformidade de licenças de conjuntos de dados

Boa conformidade é, em grande parte, boa manutenção de registros. O objetivo é responder:

Que dados usamos?
Sob quais termos?
Que obrigações temos (atribuição, avisos, limites de redistribuição)?
Onde cumprimos essas obrigações?

Manter um manifesto de conjuntos de dados (uma “lista de materiais de dados (data bill of materials)” interna)

Acompanhe cada conjunto de dados e sua licença, versão, fonte e uso pretendido.

Example YAML manifest:

datasets:
  - name: "ExampleWebText"
    version: "2025-03"
    source_url: "https://example.org/datasets/examplewebtext"
    license: "CC-BY-4.0"
    license_url: "https://creativecommons.org/licenses/by/4.0/"
    allowed_uses: ["training", "evaluation", "commercial"]
    obligations:
      - "attribution"
      - "link-to-license"
      - "indicate-changes"
    notes: "Deduplicated, removed PII heuristically"

  - name: "AcademicBenchmarkX"
    version: "1.2"
    source_url: "https://university.edu/benchmarkx"
    license: "Research-Only (custom DUA)"
    allowed_uses: ["evaluation"]
    obligations:
      - "no-redistribution"
      - "no-training"
    access_controls: "Restricted to eval team"

Gerar um arquivo de atribuição para distribuições

Se você entrega um modelo, conjunto de dados ou produto, inclua um documento consolidado de atribuição quando exigido.

Example ATTRIBUTIONS.md:

## Dataset Attributions

This product/model used the following datasets:

1. ExampleWebText (2025-03)
   - Source: https://example.org/datasets/examplewebtext
   - License: CC BY 4.0 https://creativecommons.org/licenses/by/4.0/
   - Changes: deduplicated; filtered for profanity; normalized to JSONL

Attribution is provided per the terms of the respective licenses.

Usar padrões de documentação de conjuntos de dados

Adote documentação estruturada como:

Datasheets for Datasets
Cartões de Conjunto de Dados (Dataset Cards)
Checklists internos de revisão (licença + privacidade + segurança)

Inclua campos como licença, proveniência, método de coleta, uso pretendido e restrições de redistribuição.

Manter evidências

Para auditabilidade (auditability), mantenha:

O texto da licença (ou link + timestamp)
A versão/hash do conjunto de dados
Um snapshot dos termos se eles puderem mudar (Termos de Serviço na web frequentemente mudam)
Prova de aceitação se o acesso exigiu termos com aceite por clique
Registros de transformações (pipelines, scripts, logs)

Automatizar quando possível

Muitas organizações constroem ferramentas leves:

Um repositório de metadados (metadata store) (por exemplo, JSON/YAML no Git)
Verificações de CI (CI checks) que bloqueiam execuções de treinamento se o manifesto contiver licenças não permitidas (por exemplo, NC)
Pacotes de atribuição auto-gerados para lançamentos

Escolher uma licença quando você publica um conjunto de dados

Se você está lançando um conjunto de dados para uso em aprendizado de máquina, escolha termos que correspondam aos seus objetivos:

Quer reutilização máxima (inclusive comercial)? Considere CC0 ou CC BY
Quer que melhorias sejam compartilhadas de volta ao redistribuir conjuntos de dados derivados? Considere BY-SA ou ODbL
Quer restringir uso comercial? NC reduzirá a adoção e pode bloquear muitos casos de uso em aprendizado de máquina
Quer restringir modificações? ND geralmente é hostil a fluxos de trabalho de aprendizado de máquina e à manutenção de conjuntos de dados

Também decida se você permite:

Treinamento e ajuste fino
Redistribuição de subconjuntos
Uso em benchmarks
Uso em avaliação de segurança ou red-teaming (red-teaming)

Clareza reduz uso indevido acidental.

Checklist prático para equipes de aprendizado de máquina

Antes de usar um conjunto de dados

Identifique a licença/termos e confirme que se aplicam ao seu uso pretendido (treinamento/avaliação/comercial).
Verifique regras de redistribuição se você vai compartilhar com fornecedores, contratados ou colaboradores.
Verifique restrições de privacidade e dados sensíveis.
Registre em um manifesto com versão e URL de origem.

Antes de misturar conjuntos de dados

Separe conjuntos de dados “restritos” de pools “redistribuíveis”.
Evite misturar dados NC/ND/apenas para pesquisa em corpora destinados a modelos comerciais.
Considere implicações de CompartilhaIgual se você vai distribuir conjuntos de dados derivados.

Antes de lançar qualquer coisa (conjunto de dados ou modelo)

Produza arquivos de atribuição/avisos (se exigido).
Garanta que você não está redistribuindo dados que não pode redistribuir.
Documente fontes de conjuntos de dados em um pacote de lançamento do modelo (frequentemente junto com um cartão do modelo).
Alinhe obrigações de conjuntos de dados com as Licenças de Modelo pretendidas e com a estratégia de lançamento de Código Aberto vs Pesos Abertos vs API Aberta.

Equívocos comuns

“Está na internet, então é grátis para usar.” Não é verdade; acesso ≠ licença.
“Pesos abertos significa dados abertos.” Modelos e conjuntos de dados têm direitos e licenças separados.
“Atribuição é opcional.” Para CC BY/ODC-By, é um requisito central.
“ND é ok porque não redistribuímos o conjunto de dados.” Você ainda pode criar e distribuir artefatos derivados (conjuntos de dados processados, benchmarks) ou enfrentar incerteza sobre treinamento como adaptação.
“Usamos só uma pequena parte, então a licença não importa.” Licenças normalmente se aplicam independentemente da quantidade; “uso justo” é específico de jurisdição e não substitui planejamento de conformidade.

Resumo

O licenciamento de conjuntos de dados é uma parte fundamental da engenharia responsável de aprendizado de máquina. As competências centrais são:

Reconhecer tipos comuns de licença (CC/ODC/termos personalizados) e suas obrigações
Traduzir termos legais em controles operacionais (usos permitidos, atribuição, redistribuição)
Gerenciar compatibilidade ao misturar conjuntos de dados
Documentar conformidade com manifestos, cartões de conjuntos de dados e pacotes de atribuição

Equipes bem organizadas tratam licenças de conjuntos de dados como dependências: rastreadas, revisadas e reprodutíveis — porque a “cadeia de suprimentos” legal e operacional do seu modelo é tão forte quanto os dados a partir dos quais ele aprendeu.