
Inteligência Artificial(IA) em tempos de Lei Geral de Proteção de Dado(LGPD)(Parte 1)
Estamos em tempos de adequação a Lei Geral de Proteção de Dados(LGPD), essa nova lei tem como objetivo principal garantir a privacidade e confiabilidade dos dados, mas como área de dados está se adaptado a essa nova realidade? quais são as estratégias adotadas? E em relação a Inteligência artificial(IA)?
Essa são algumas das estratégias que estão acontecendo na área de dados:
- Formulários Infinitos
Essa estratégia visa criar um ou mais formulários para gerenciar quem acessa e onde está os dados e suas fontes. O problema dessa abordagem é que para cada nova fonte de dados que suja, tem que se criar um novo formulário ou adequar os antigos com isso, leva-se muito tempo para adotar totalmente essa estratégia. - Ferramentas e ou soluções magicas de rastreabilidade do dados
Essa estratégia tem como objetivo a adoção de ideia e conceitos de linhagem de dados (Data Lineage), onde temos um ambiente de alta replicação de dados e é necessário conhecer quem está acessado, fontes dos dados e os processos de replicação do dados. O problema dessa abordagem é o controle, visto que acompanhar o dados não garante a privacidade e controle de acesso a esta informação. - Catálogo de Dados (Data Catalog)
Essa estratégia visa cria um catálogo de dados onde invés das aplicações e usuários acessassem e utilizarem a fontes dos dados diretamente, utilizarem alguma forma de interface para controlar e intermediar o acesso. com isso temos o controle e formas de gerenciar o aceso ao dados, evitamos replicações sem necessariedade e podemos criar mecanismo de resiliência para a fonte dos dados e backups.
A principais ferramentas de mercados onde podemos adotar esse tipo de estratégia são o Dremio e o Qlik Data Catalyst, entre outras…
E em relação a inteligência artificial? Exite alguma Estratégia? um pulo do gato?
Quando olhamos para um modelo de Inteligência Artificial, notamos que basicamente não se trata apenas de mais um software onde usaremos somente os princípios e meios da engenharia de software, afinal temos dados nesse contexto.
Com a engenharia de software apendemos basicamente sobre ciclos de vida, onde para criação de novos softwares são levantados os requisitos, desenvolvidos, testados, passam por manutenção e evolução. Já com modelo de IA temos um clico de vida muito mais complexo desde da geração do modelo, seu treino e retreino.
Utilizamos de diferentes algoritmos para criar e treinar tipos diferentes de modelos com amostra de dados muitas das vezes aleatórias, como controlar esse ciclo? como garantir a privacidade dos dados e confiabilidade nos resultados de um novo modelo?
Simplesmente, podemos adotar MLOps?!
Ao final de 2018, muitas pessoas começaram a perceber que tinham meios de implementar novos modelo facilitante e até mesmo de forma automatizada como o AutoML, mas implantar ou colocar em produção até hoje é outra historia, com isso, surgiu a disciplina de MLOPS(Machine Learning and “Information Technology OPerationS”), que visa simplificar e automatizar o clico de vida dos modelos de Inteligência Artificial.
“MLOps (a compound of Machine Learning and “information technology OPerationS”) is [a] new discipline/focus/practice for collaboration and communication between data scientists and information technology (IT) professionals while automating and productizing machine learning algorithms.” — Nisha Talagala (2018)
Em 2019, MLOPS foi utilizada na criação de automações para a implantação de novos modelos, surgindo diferentes soluções de pipelines automatizadas geralmente orientadas por GitOps, na maioria dos casos, acontece o processo de Integração continua(CI), onde um novo modelo é ¨encapsulado¨ em uma imagem Docker e levado para produção por um processo de Deploy Continuo (CD) onde imagem estraria em um ou mais contêineres gerenciados por Kuberneste(K8S), OpenShift, entre outras soluções…
Atualmente as soluções do mercado estão deixando de ser somente pipelines de automação e possibilitando e gerenciando todo o clico de novos modelos. Temos atualmente mlflow, Kubeflow, Polyaxon e tanta outras soluções que visam a possibilidade de adoção de MLOps.
Com MLOPS podemos acompanhar e gerenciar todo o clico de vida de um modelo, seja o engenheiro de dados trabalhando com dados de diferentes fontes e criando os datasets, o cientista de dados utilizando o dataset em conjunto com diferentes algoritmos e formas para gerar os modelos treinados, pipelines de automação de implantação do modelos e até o acompanhamento da necessidade retreino com um novo conjunto de dados.
Utilizando de MLOPS podemos gerência todo o acesso e clico de vida dos dados e dos modelos de IA, fazendo dessa disciplina uma possível solução para adequação a Lei Geral de Proteção de Dados.
Alguns links interessantes sobre MLOPS:
Alguns podcasts:
Essa é só a primeira parte, com o feedback de vcs teremos outros artigos sobre o assunto.
Agradeço sua leitura. :)