in

Dados sintéticos: uma alternativa para a inovação?

Carolina Giovanini*

Pedro Sanches**

É fato que o rápido desenvolvimento de tecnologias, especialmente no campo da inteligência artificial, se deu em razão do aumento da capacidade de coleta, processamento e armazenamento de informações. Grande parte de novas tecnologias são nutridas com os mais diversos tipos de dados, os quais podem carregar características de pessoas físicas (assim chamados os dados pessoais). 

O desenvolvimento de tecnologias carentes de informação aliado ao movimento global de criação de leis sobre o tema da privacidade e proteção de dados pessoais amplia a demanda por alternativas capazes de solucionar o dilema de – ao mesmo tempo – viabilizar a inovação, respeitando a privacidade de indivíduos. 

Nesse contexto, surgem os dados sintéticos, isto é, informações com estrutura e propriedade idênticas a dados reais, mas com componentes fictícios. Em outras palavras, são dados “fake”, comumente gerados através de técnicas de inteligência artificial que reproduzem as características de informações reais. 

Dados sintéticos x informações pessoais

Na medida em que a diferenciação entre dados reais e dados fictícios é tarefa de difícil execução, resta claro que esse tipo de tecnologia possui vasto campo de aplicação, especialmente, mas não se limitando ao treinamento de tecnologias de inteligência artificial, como é o caso do aprendizado de máquina. Em análise sobre o tema, pesquisas apontam que, até 2024, essas informações podem representar cerca de 60% dos dados utilizados em sistemas de inteligência artificial. Além disso, atualmente, já é possível encontrar vasto catálogo de empresas “produtoras” dessas informações. 

A importância dessa tecnologia, já considerada espécie de privacy-enhancing technology (tecnologias que – por essência – incorporam princípios fundamentais de privacidade e proteção de dados), se deve a variados fatores, mas em especial à possível diminuição do trade-off entre utilidade e proteção de informações, havendo correntes que sustentam que informações sintéticas não devem ser consideradas como dados pessoais, estando, portanto, fora do escopo de aplicação de legislações de privacidade e proteção de dados, como é o caso da Lei Federal nº 13.709/2018 (“LGPD”). 

Apesar dos bons argumentos que sustentam essa teoria, é razoável considerarmos que a classificação desses dados como de natureza pessoal ou não depende de fatores contextuais de difícil mensuração, a exemplo da similaridade/proximidade entre informações sintéticas e os dados utilizados como fonte para seu desenvolvimento (até o momento, a produção de dados sintéticos depende de análise e “aprendizado” com base em dados reais, sendo raros os relatos de dados sintéticos que conseguem gerar outros dados sintéticos), o que, na prática, pode resultar em assunções equivocadas. 

Uso inadequado de dados sintéticos

Mesmo na eventualidade de considerarmos tais informações como dados que não possuem natureza pessoal, tal fato, ao nosso ver, não deve afastar por completo as diretrizes de legislações aplicáveis sobre o tema. É importante notar que o uso inadequado de dados sintéticos, especialmente para o “aprendizado” de tecnologias que futuramente podem vir a ser utilizadas para tratamento de informações reais, de natureza pessoal, pode vir a contaminar e/ou comprometer a idoneidade desses sistemas. 

Assim, mesmo que ainda seja cedo para obtermos respostas conclusivas sobre o tema, fato é que o potencial dessa tecnologia acende discussões nos campos técnico e jurídico que tendem a inflamar com brevidade, sendo dever de organizações que pretendem incorporar esse tipo de tecnologia em suas atividades estarem atentas aos debates relacionados à aplicabilidade de legislações sobre privacidade e proteção de dados. 

Leia outros artigos:

5 tendências tecnológicas para 2022 e seus impactos à proteção de dados

Como implementar padrões de acessibilidade na web

Como controles de proteção de dados podem ser usados para gestão de sistemas de inteligência artificial


Carolina Giovanini: é advogada no escritório Prado Vidigal Advogados, profissional de privacidade certificada pela International Association of Privacy Professionals (CIPP/E) e mestranda em Direito e Inovação pela Universidade Federal de Juiz de Fora (UFJF).

Pedro Sanches: pós-graduado em direito digital pelo Instituto de Tecnologia e Sociedade (ITS) e Universidade do Estado do Rio de Janeiro (UERJ), certificado pela Internacional Association of Privacy Professionals (IAPP) como Fellow Information Privacy (FIP), Certified Information Privacy Professional/Europe (CIPP/E) e Certified Information Privacy Manager (CIPM), alumni da formação executiva em práticas ágeis e proteção de dados pela Fundação Getúlio Vargas – FGV.

educação para o consumo

Educação para o consumo como instrumento para a construção de uma sociedade mais consciente e sustentável

deixa pra lá

Deixa pra lá