in

Desvendando a relação entre Inteligência Artificial e Direitos Autorais

Ana Carolina Teles*

O processo de evolução da tecnologia no século XXI impressiona até o cientista mais otimista do fim do século XX, e isso vem ganhando cada vez mais força na nossa realidade cotidiana.

Para além dos filmes de ficção científica, de IA’s como a HAL 9000, do Kubrick, ou da J.A.R.V.I.S., do Tony Stark, quem realmente esperava que já teríamos vivido um frenesi das NFT’s, do Metaverso, dos Chatbots avançados (LLM – Large Language Model) – e superado uma pandemia, diga-se de passagem – em menos de 4 anos da década de 2020?

Pois é. 

De fato, o avanço tecnológico tem um suprassumo: é para frente que se anda e, se não parecer promissor, vamos pular para o próximo desafio.

E cá estamos em 2023: uso desenfreado de Inteligência Artificial pelos usuários ao redor do mundo, proporcionado, principalmente, por ferramentas como ChatGPT, BingChat, MidJourney e Stable Diffusion.

O que é Inteligência Artificial?

Mas, antes de começar, vamos a um ponto essencial: “Afinal, o que é Inteligência Artificial?”. Tenho que dizer que, por muito tempo, acreditava que IA poderia ser, de fato, algo muito parecido com o Arnold Schwarzenegger em “O Exterminador do Futuro”. Que IA, na verdade, é uma máquina capaz de reproduzir tarefas humanas ou repetir sentimentos humanos.

Só que não é bem isso. Como um bom amigo do ramo já me explicou: “Inteligência Artificial é sobre “como” é feito e não “o que” se faz”.

E para melhor explicar, é importante mencionar o conceito de Cezar Taurion, especialista em IA:

Inteligência Artificial é a aplicação da matemática e de software baseado em exemplos e não mais em um procedimento descrito pelo desenvolvedor. Assim, a receita necessária para a operação dos computadores para entender, sintetizar e gerar conhecimento se dá pelos dados (exemplos). Portanto, IA é um programa de computador como qualquer outro, ele funciona em uma máquina, recebe dados de entrada, processa e gera saída, mas seu processamento se baseia nos exemplos fornecidos a ele e não totalmente em regras determinadas pelos programadores.

Daí, podemos começar a refletir sobre o que a IA “não é”. 

Ela não é simplesmente uma executora de tarefas que um humano pode fazer. Até porque uma calculadora pode fazer as contas que um humano é capaz, mas isso não a faz uma IA. E ela também não é um tipo de alienígena que ninguém compreende.

Mas, de fato, nem sempre, quem desenvolve e alimenta a sua base de dados pode ter 100% de certeza dos resultados que ela gera… Não é a toa que temos desafios como o “black box problem” ou “problema da caixa preta”que representa o sistema de IA que é capaz de tomar decisões e produzir resultados, mas sem que se possa compreender o processo interno que levou a essas decisões ou resultados.

Bom, mas isso é papo para outra hora. 

Uso de dados na IA

Neste artigo, eu quero aprofundar em uma questão básica que solidifica o sistema de IA: os tais exemplos, ou seja, as centenas de milhares de dados que são usados para treinar o sistema (criar a receita) que permite pegar uma entrada e gerar a saída a partir dela. 

E se esses dados forem protegidos por Direito Autoral? Como resolver esse conflito?

Para melhor entendermos esse desafio, vamos aos exemplos:

  • Imagine um programa de IA treinado com dezenas milhões de selfies. Ele aprende a identificar e replicar elementos visuais subjacentes dos rostos e expressões em novas fotos, mas esses elementos são, em partes, criações originais dos fotógrafos.
  • Isso expõe um dilema: quando a IA usa esse conteúdo sem permissão, ofende os direitos autorais? E, vamos dizer que sim, como a empresa desenvolvedora poderia solicitar a permissão de milhões de selfies disponíveis na surface web sem burocratizar e encarecer brutalmente a operação? Lembre-se: são dezenas de milhões.

E para não ficarmos apenas com as simulações. Temos um caso recente que discute exatamente essa questão:

  • O fotógrafo alemão Robert Kneschke descobriu que suas fotos estavam sendo usadas sem permissão pela LAION para treinar conjuntos de dados de IA, e solicitou a remoção das imagens. No entanto, a LAION não apenas se recusou a cumprir a solicitação, como também enviou uma fatura alegando uma reivindicação de direitos autorais injustificada e ameaçou tomar medidas judiciais caso não houvesse pagamento em 14 dias.
  • E a argumentação da empresa seguiu a linha de que, como eles utilizam apenas banco de dados com imagens que estão publicamente disponíveis na Internet, a reclamação do fotógrafo era completamente infundada. Assim, por ele reiterar o pedido de exclusão em uma segunda vez, a fatura com os valores dos honorários dos advogados – que tiveram que ser acionados – foi enviada ao reclamante.

Esse caso levanta um ponto relevante dessa discussão: “Só porque a imagem está disponível gratuitamente na internet, ela pode ser utilizada para qualquer fim – inclusive econômico – por uma empresa de modelos de IA?”

Direito autoral x IA no Japão

Para essa pergunta, não existe uma resposta simples e clara. Obviamente, não posso deixar de sacar a tradicional resposta de uma advogada: “Depende.”

Vamos analisar a recente mudança anunciada pelo Japão, por exemplo.

  • Há pouco, o Japão declarou que não fará cumprir os direitos autorais quando se tratar de treinamento de programas de inteligência artificial (IA) generativos, permitindo que a IA use qualquer dado independentemente de ser para fins (ou não) lucrativos ou comerciais.
  • O governo japonês acredita que as preocupações com direitos autorais têm impedido o progresso do país na tecnologia de IA e está apostando tudo numa abordagem que não se preocupe em respeitar direitos autorais para se manter competitivo. 

Na prática, percebemos que essa política pode ser um grande golpe para detentores de direitos autorais que tiveram seu trabalho usado sem qualquer compensação. Mas, evidentemente, também representa uma grande vitória para as empresas de IA, como Midjourney e OpenAI. 

É importante mencionar que existe todo um contexto em treinamentos de IA conhecido como “tokenização”. E isso, tecnicamente falando, significa que não necessariamente os dados acessados na internet – que são utilizados no treinamento – estarão embutidos no dataset daquela ferramenta. Talvez, por isso, o Japão tenha flexibilizado em relação ao que se entende como “proteção de direitos autorais”.

Pois é. É bem técnico, mas logo a gente se aprofunda nisso.

De toda forma, no Japão, essa nova regra pode dar fim a discussões como a da Getty Images e Stability AI. Hoje, a empresa de banco de imagens está processando a Stability, que produz o gerador de imagens de IA Stability Diffusion, por usar 12 milhões de imagens da agência de fotos em seus dados de treinamento.

Ao mesmo tempo, não há consenso mundial em relação à dinâmica dos direitos autorais e treinamentos de modelos de IA generativa. 

Marco Legal da Inteligência Artificial 

No Brasil, por exemplo, o Marco Legal da Inteligência Artificial ainda está em discussão e pouco se esclarece, na prática, como ficaria essas diretrizes específicas de uso de informações protegidas com propriedade intelectual.

Partindo para a análise no contexto da União Europeia, o “AI Act” ou Lei de IA, que está na reta final para iniciar a sua vigência, requer uma série de exigências de transparência e responsabilização em relação a essas tecnologias que, até este momento, não se parece possível o cumprimento por parte das grandes empresas do nicho, como a Open AI e o Google.

Neste sentido, é importante citar um recente estudo realizado por pesquisadores de Stanford que avaliou a conformidade dos fornecedores de modelos de IA fundamentais em relação aos requisitos da Lei de IA da União Europeia (UE). 

  • A análise revelou uma ampla variação na conformidade, sendo que algumas empresas – que desenvolvem as tecnologias que se pretendem regular – pontuaram abaixo de 25% e apenas uma alcançou a pontuação máxima de 75%. 
  • Isso quer dizer que muitos modelos de LLM que conhecemos, como o ChatGPT, não estão de acordo com a referida legislação, o que implica em desgastes de adequação, multas e até a interrupção da disponibilização da tecnologia na extensão da UE. 
  1. Vale lembrar que o ChatGPT foi banido temporariamente na Itália, no início de 2023, uma vez que não cumpria com os requisitos do GDPR (Regulamento de Proteção de Dados da UE). E não só a Itália, como também outros países como a Alemanha e até mesmo o EDPB (Conselho de Proteção de Dados da UE), já se movimentaram no sentido de requerer atenção redobrada à forma em que o ChatGPT usa os dados pessoais no seu sistema generativo.
  • Além disso, no estudo de Stanford, foram identificadas áreas de desafios persistentes, incluindo a proteção de direitos autorais dos dados de treinamento, relato desigual de uso de energia, mitigação de riscos insuficiente e avaliação/teste inadequados. A transparência foi destacada como a primeira prioridade na responsabilização dos fornecedores de modelos fundamentais, de acordo com o que prevê a Lei de IA.
  • No entanto, os lançamentos recentes de modelos fundamentais, como o GPT-4 da OpenAI e o PaLM 2 do Google, já demonstraram menos transparência, com informações relevantes sendo omitidas. 

Desafios das tecnologias disruptivas

Isso deixa claro que existem muitas pendências para que tecnologias disruptivas que se pautam em IA consigam observar e sanar todos os requisitos da Lei de IA da UE, o que deve também se seguir no Brasil, já que o Projeto de Lei em tramitação se inspira, novamente, no que ocorre no contexto europeu. 

Apesar dos desafios, sabemos que tecnologias de IA são cruciais para a inovação. Assim, de acordo com uma abordagem técnica, os defensores desse tipo de tecnologia sugerem um outro viés: reconhecer que a IA, no treinamento, não estaria, necessariamente, infringindo direitos autorais, mas, na realidade, otimizando a ferramenta para oferecer soluções benéficas à sociedade de forma geral.

Para ilustrar este ponto e discutir corretamente sobre o assunto “IA versus Direitos Autorais”  se faz necessária a compreensão do funcionamento de um modelo de inteligência artificial, conforme explica o matemático e especialista em IA, Gustavo Zaniboni (2023, Brasil): 

[…] Importante ressaltar que, durante o treinamento, quando a informação é inserida em um dataset de um modelo de IA, é realizada a tokenização daqueles dados. Ao realizar a tokenização, o texto não é inserido no modelo. Diferente do Google, por exemplo, o qual insere partes do texto em seu sistema para viabilizar a indexação do site e a busca em sua plataforma. Já no treinamento de uma IA, apenas se lê o texto e o transforma em algo diferente, não inserindo por completo aquela informação em seu sistema. Neste caso, não vejo problemas quanto à propriedade intelectual das informações usadas no treinamento.

Por outro lado, quando estamos falando diretamente sobre modelos generativos, como ChatGPT,  temos outros desafios, pois essas ferramentas geram conteúdo. A matemática por trás dos tokens não é uma palavra ou frase, mas se você pedir ao ChatGPT para escrever a letra de uma música específica, como “Another Brick in the Wall” do Pink Floyd, ele poderá fazer isso. 

No entanto, esse conteúdo gerado não pode ser usado, pois ainda é protegido por direitos autorais. Da mesma forma, ao pesquisar a letra de uma música no Google, você não pode simplesmente usá-la sem permissão. Não me parece que seja algo novo, pois, a mesma restrição de uso da letra da música que existe quando você a encontra no Google, deve se aplicar ao conteúdo gerado pelo ChatGPT, já que pode conter elementos protegidos por direitos autorais. 

Então, quando se trata de propriedade intelectual, o problema surge quando um modelo generativo gera conteúdo, pois esse conteúdo pode conter elementos protegidos por direitos autorais. Mesmo que seja gerado por uma IA, ainda pode ser considerado plágio se for usado sem permissão. É importante entender essa distinção.

O conteúdo gerado por uma ferramenta como ChatGPT ou BingChat da Microsoft, por exemplo, está relacionado ao treinamento que foi feito. No entanto, isso não significa que o conteúdo específico esteja presente no modelo ou que o treinamento tenha violado direitos autorais. É um assunto complexo que requer compreensão do funcionamento de um modelo de inteligência artificial.”

Discussão não é simples

Com isso em mente, não me parece tão simples afirmar que a IA deve ser regulada a partir de percepções gerais já sedimentadas em nossa sociedade e tecnologia. 

Na realidade, me parece que os desafios estão mais pautados na ausência de compreensão prática de como funciona um modelo de linguagem como o ChatGPT, por exemplo, que se tornou muito popular no fim de 2022.

Portanto, na criação de novas leis que abordam especificamente os direitos autorais de artistas, escritores, roteiristas e fotógrafos no contexto de modelos de IA – o que já é uma tendência – fica muito claro que é indispensável a presença de profissionais especializados no assunto ao lado dos legisladores.

Nem sempre a discussão é simples. E nem sempre a limitação é o caminho. Novas leis devem garantir direitos, mas não impedir a tecnologia.

E isto não significa, de forma alguma, que qualquer detentor de direito autoral deva ser prejudicado nesse novo avanço da revolução tecnológica, mas sim que devemos ter a resposta exata para a pergunta: “Estamos mesmo violando direitos autorais? Em que momento?” 

Que a gente aprenda com a complexidade dos assuntos que envolvem tecnologia: não há resposta genérica ou simples para problemas sofisticados e complicados.

Por isso, deve existir um equilíbrio no meio disso tudo, e só cabe a nós, como sociedade civil que almeja o progresso do setor tecnológico, com a finalidade de melhorar a vida cotidiana, diminuir a sobrecarga do trabalho diário, aumentar a qualidade de tratamentos médicos e ampliar a possibilidade de expectativa de vida ao redor do mundo, focar no que beneficia a nossa realidade material de forma prática e consciente.

Leia também: 

Privacidade, proteção de dados pessoais e a prática de background check

ANPD e a retroatividade das multas na aplicação da LGPD

O que esperar da ANPD em 2023? 


Ana Carolina Teles: é advogada especialista em Proteção de Dados, Direito Digital e Tecnologia, responsável por prestar consultoria jurídica voltada para negócios e empresas de tecnologia. É Data Protection Officer (“DPO”) certificada pela EXIN (ISFS; PDPF e PDPP) e DPO As a Service de empresas de tecnologia.

joan é péssima

“Você é a Estrela, mas a que Preço? Proteja sua Privacidade ao Criar sua Própria Série na Netflix!”

direito digital

7 dicas de direito digital que você não pode ignorar