10 coisas que você precisa saber sobre a Governança de Dados

Carlos Alberto Rocha Cardoso
DATA ENGINEER BR

--

O que sabemos é uma gota; o que ignoramos é um oceano. Isaac Newton.

O que vem à sua mente quando ouve o termo Governança de Dados? Um redemoinho de incontáveis documentos em letrinhas miúdas, como os livros sem “gravura” da sua infância? Infindáveis descrições de processo, papéis e responsabilidades, normas, diretrizes e procedimentos? Enfim, muita teoria prá pouca prática?

Trabalhando atualmente em iniciativas relacionadas à Governança de Dados, ainda me vem algumas vezes essa visão. Creio que isso não tem relação direta com a Governança de Dados, talvez seja com a palavra Governança mesmo. Ela não te soa as vezes um pouco pesada, rigorosa, nada descontraída?

Meu primeiro contato com essa palavra foi no início da carreira, ali ainda não era Governança de Dados, mas Governança de TI. Tinha a missão de dar vida a diversas práticas, descritas em dezenas de documentos, que tinham como referência a ITIL, uma biblioteca criada na Inglaterra e utilizada por TIs do mundo todo para nos ensinar a tratar incidentes, requisições, mudanças e todas as demais práticas de TI que você imaginar. Como responsável por um desses processos, meu maior desafio era traduzir todo esse arcabouço de conhecimento em algo que fosse simples de entender e praticar no dia a dia.

Se eu conseguia? Bom, digamos que era uma história de suor e lágrimas, por vezes de felicidade. O ponto é que nessa experiência pude aos poucos superar minha visão preconcebida e negativa sobre a palavra Governança. Passaram-se os anos, deixei de trabalhar na condução de processos de Governança de TI, voltei a trabalhar em áreas mais técnicas como BI, Engenharia de Dados, até que de novo a Governança, agora de Dados, bateu na minha porta.

Percebi que por trás da casca dura da Governança, existe um coração de “carinho e cuidado”. Mas cuidado com o quê? No caso da Governança de Dados, cuidado com um valioso ativo. Sim, embora não seja fácil mensurar, é consenso. Os dados de uma empresa são um dos seus ativos mais valiosos. Tem potencial imenso para geração de valor. Podem ser tanto fonte de lucro quanto prejuízo, a depender de como são cuidados, ou governados.

Além disso, uma governança bem executada potencializa o trabalho da ciência de dados dentro da organização, permitindo a solução de problemas complexos a partir de dados disponíveis, confiáveis e bem organizados.

A Governança de Dados em uma “gravura”

Em paz com a Governança, e compreendendo sua importância, principalmente para a área de dados, veio a fase de absorver e compartilhar conhecimento, talvez uma das formas mais eficazes de aprendizado. Para isso resolvi criar um diagrama que contemplasse os principais componente da Governança de Dados. Um pouco do que vi dos cursos, livros e referências que tive contato até o momento. Queria ter um esquema que me ajudasse a visualizar do que a Governança de Dados é feita, de preferência em uma “gravura”.

Confesso que compartilhando esse trabalho tenho a expectativa de colher impressões, validá-lo e aperfeiçoá-lo. Ao final do texto, por favor, deixe seu comentário. Acredito que há bastante espaço para melhoria, seja de conceito ou mesmo design, esse último então, é quase certo.

Essa imagem é o que tenho chamado de um modelo de Governança de Dados. Reúne, na minha visão, os 10 itens mais relevantes para que esse processo cumpra o seu propósito. Dentro da linha tracejada estão nove desses itens, todos numerados. Você também vai ver alguns ícones representando pessoas, ou papéis. Não estão numerados, mas pode ter certeza, são elas que fazem acontecer. Existe ainda um item do lado de fora da linha tracejada, mas que nem por isso deve ser ignorado. Ele será o primeiro a ser explicado. A posição dos itens no diagrama tem uma função meramente didática, com isso quero dizer que vários deles devem estar presentes em todo ciclo de vida dos dados e suas respectivas soluções, não apenas na posição que eles aparecem no diagrama. Cito como exemplo o item 10, segurança e privacidade. À luz desse item, devemos nos preocupar com os requisitos de segurança e privacidade no momento da entrega de dados aos clientes, mas não só nesse momento. A segurança deve ser considerada desde a concepção dos fluxos, soluções e procedimentos para tratamento de dados. A segurança no final da cadeia é reflexo de como seus requisitos foram considerados durante todo o ciclo de vida.

Sem mais, vamos ao primeiro item.

1. Requisitos externos, conformidade e Patrocínio:

O primeiro item é para nos lembrar que a Governança de Dados não está “solta na pista”. Ela deve ser vista como engrenagem de processos maiores, como por exemplo a Governança Corporativa. Assim, suas ações devem considerar regras de conformidade (compliance), internas ou externas à empresa, sejam políticas corporativas ou leis mais abrangentes como a LGPD — Lei Geral de Proteção de Dados Pessoais. Sempre terá que interagir com atores externos, considerar premissas ou requisitos de algum outro processo ou entidade. Sem considerar isso, você corre o risco de conceber um processo de Governança de Dados que faz o que não devia ou peca em não fazer o essencial.

Esse item também é para nos lembrar de outro aspecto crucial, o patrocínio, ou disposição da empresa, na figura dos seus líderes, em promover as iniciativas de Governança de Dados. Sem a visão de que as ações desse tema são importantes, sem “apetite” para realizá-las, nada feito. Sobre apetite, quero dizer que os líderes precisam incentivar, priorizar e investir, inclusive dinheiro, claro.

2. Objetivos e Resultados Chave:

Além de requisitos externos, precisamos nos aprofundar e detalhar as reais motivações que nos conduzirão na jornada da Governança de Dados. Quais problemas da empresa serão resolvidos por esse trabalho? Porque a empresa precisa disso? É importante não apenas encontrar, mas materializar essas respostas em instrumentos como políticas, diretrizes, ou mesmo um OKR capaz de descrever os objetivos e resultados chave do processo de Governança de Dados. Esses instrumentos serão peça chave para disseminar por toda a empresa o que será feito, como será feito e porque será feito. Não podem ficar esquecidos na gaveta, mas devem ser pregados nas paredes, usados como ferramentas para direcionar, acompanhar e potencializar a execução. Para ficar mais claro, uma amostra de como seria um OKR para a Governança de Dados:

A propósito, se não conhece o que é OKR, sugiro assistir essa breve palestra do TED, ou mesmo dar um Google. Por falar em Google, ele tem tirado benefício do uso de OKRs desde os primórdios da empresa.

3. EGD ou Escritório de Governança de Dados:

Se é escritório, área, núcleo, ou grupo, pouco importa, o importante é que exista um lugar na empresa ocupado por pessoas capazes de reunir outras pessoas, todos em volta da mesma mesa, debruçadas sobre um tema central: dados. Considero o EGD a cola de todo o processo. As pessoas que ali trabalham devem ser as guardiãs da Governança de Dados, sua missão, objetivos e resultados chave. Devem conhecer os problemas, buscar soluções, traçar o roadmap, enfim, fomentar o aperfeiçoamento na forma como a empresa lida com os dados no seu dia a dia, em todos os contextos, por todo ciclo de vida. Não podem ter uma visão míope, precisam olhar em todas as dimensões: pessoas, processos e tecnologias. Mais do que fazer, ou melhor, parte do seu fazer, é inspirar e direcionar, fomentar a cultura. Afinal, a Governança de Dados só terá sucesso se trouxer todos, repetindo a analogia, para a mesma mesa, trabalhando juntos: líderes, analistas, clientes, desenvolvedores, especialistas.

4. Dados críticos de negócio:

Esse item poderia chamar apenas escopo, mas há sempre o risco de alguém definir o escopo como: todos os dados da empresa. Por isso a sugestão já está no título, comece a governar os dados críticos do negócio, os mais valiosos, relacionados aos processos chave, ou que estão associados a grandes riscos ou impactos corporativos. Uma opção é se perguntar, quais os processos mais importantes para o negócio? E então, quais as entidades de dados relacionadas a esses processos?

De posse dessas entidades, é possível então estabelecer a Governança de Dados conforme cada item. Pense na entidade vendas. Ela está catalogada, possui uma descrição, termos de negócio, termos técnicos, repositórios para consumo? Tem uma linhagem para os dados dessa entidade, informação de como eles são capturados desde a origem, todas as transformações e regras às quais são submetidos antes de serem compartilhados? Por falar em compartilhar, como está a segurança? Quem tem acesso? À quais dados e em que nível? A qualidade é medida? Os dados estão completos e íntegros?

Precisamos lembrar que cuidar disso tudo, estabelecer a governança dos dados, assim como qualquer outro processo, tem um custo, e é essencial que esse custo não seja maior que os benefícios gerados. Por outro lado, saiba que à medida que a empresa ganha maturidade, aplicando princípios de confiabilidade, rastreabilidade, segurança, privacidade e qualidade desde a concepção das soluções, é provável que o custo total da Governança de Dados seja reduzido, assim mais entidades de dados de negócio poderão ser adicionadas gradativamente ao escopo.

Pausa para uma analogia sobre metadados

Antes de passarmos ao próximo item, é necessária uma breve introdução ao termo metadados. Ouvi um dia uma analogia fantástica, a de que metadados são como plaquinhas de restaurante self-service. Sabe aquelas que ficam na frente da comida, e te informam por exemplo se a empada é de frango ou de palmito !? Essas plaquinhas são imprescindíveis, afinal como deixa claro o exemplo, nem sempre é possível saber qual é o prato só de olhar para ele. Assim também acontece com os dados, grande parte das vezes, você não sabe qual dado está consumindo só de olhar para o seu conteúdo, você precisa de outros dados capazes de descrevê-lo, dados sobre os dados, ou metadados, a famosa plaquinha de buffet.

5. Catálogo de Dados:

Pois bem, sabendo o que são metadados, podemos dizer que o catálogo de dados nada mais é que um cardápio, a coleção de todos as descrições de pratos contidas nas plaquinhas do buffet. A ideia é que a partir dele, cientistas de dados ou analistas de negócio possam identificar os dados que precisam consumir. Não só isso. Eles são essenciais para organizar os diversos dados armazenados em repositórios como data lakes ou data warehouses. Já deve ter ouvido a história do data swamp, ou pântano de dados. Sem esse catálogo, é para lá que você estará caminhando.

Imagine o cenário, você quer consultar os dados de vendas da empresa. Você acessa então o catálogo e digita a palavra vendas, como no Google. Ele te mostra que existem 5 tabelas (ou datasets) relacionadas à essa palavra. Você então visualiza os campos dessas tabelas, a descrição de cada um, seus tipos, se são datas, números ou texto. Você vê ainda a última data de atualização dessas tabelas, a quantidade de linhas ou ainda os seus sistemas e bancos de dados de origem. Você avalia, percebe que uma delas é a que você precisa, faz o acesso e inicia sua análise.

É o que chamamos de caminho mais que feliz. A ideia é que esse cenário transmita de alguma forma para você o papel dos metadados e do catálogo de dados na organização e compartilhamento dos dados dentro da empresa. Existem muitas outras informações relevantes sobre esse componente, poderia falar por exemplo de como ele pode ser dividido e organizado em dicionário de dados de negócio e dicionário de dados técnicos, ou mesmo falar sobre ferramentas que servem a esse propósito, como o Amundsen, mas acho que ficaria melhor para mais tarde, quem sabe em um post dedicado !?

A verdade é que não existe Governança de Dados sem um catálogo de dados. Não adianta nada ter o melhor conteúdo, ou os melhores datasets, se eles não forem acessíveis, de fácil localização. Ele precisa indexar os repositórios de dados da organização, usando para isso todo metadado relevante. É importante para as áreas de negócio, analistas engenheiros e cientistas de dados. Ele é o mapa, ou Atlas para os dados da empresa.

6. Linhagem de Dados:

De certa forma, a linhagem pode também fornecer diversos metadados. Alguns deles podem ser inclusive incluídos no catálogo de dados. Ela tem uma ligação forte com a engenharia de dados, pois descreve cada etapa pela qual o dado passou desde a sua coleta, processamento, armazenamento até o compartilhamento. A esse conjunto de etapas chamamos de fluxo ou pipeline de dados. Detalhando um pouco mais, temos na imagem abaixo um exemplo de linhagem de dados.

Os ícones verdes representam os repositórios de dados, arquivos, tabelas ou datasets. Os azuis seriam as transformações, ou processamentos aplicados aos dados. O item em vermelho seria o repositório final, compartilhado para consumo. Essa visão traz não só transparência sobre a origem dos dados que estão sendo distribuídos, como ajuda a equipe técnica na análise de impacto ao planejar ou avaliar mudanças no fluxo. Quanto mais detalhada for a linhagem, melhor para a governança, consequentemente maior o custo. Aquele velho trade-off.

7. Normas, Padrões e Procedimentos:

São ferramentas excelentes para compartilhar conhecimento, aperfeiçoar a qualidade, aumentar a produtividade. Há um porém, precisam ser usados, e para serem usados precisam ser bem construídos e periodicamente revisados. Criar uma papelada genérica que não ajuda em nada, não ajuda em nada. Além de ser um desperdício de tempo e dinheiro.

À medida que as atividades de tratamento e governança de dados se desenrolam na empresa, o EGD deve ficar atento e identificar boas práticas no seu trabalho junto às equipes. Idealmente, tudo deveria estar escrito, padrões para modelagem e arquitetura, procedimentos para armazenamento e descarte, qualidade, segurança. No mundo real porém, dê passos firmes, mas um de cada vez, agregando melhorias de forma iterativa e incremental. Isso vale para a Governança de Dados como um todo.

8. Camada de acesso ou compartilhamento de dados:

Esse talvez seja um dos pontos mais críticos, pois trata da entrega de dados aos clientes. Fazendo uma analogia com o futebol, não é nada menos do que o momento de fazer o gol. Como em um time, para que essa camada cumpra com excelência seu papel, ela precisará do apoio de todos os demais itens da governança: requisitos e objetivos bem definidos, boa definição e modelagem dos dados críticos de negócio, um catálogo de dados atualizado, uma linhagem de dados mapeada e bem implementados, bons padrões e procedimentos, enfim, todos em boa forma, do goleiro ao artilheiro.

É uma camada que precisa de forte apoio de engenharia e tecnologia. Nela são empregados data warehouses; serviços de consulta, federação, compartilhamento; ferramentas para exploração e visualização de dados como notebooks ou dashboards. Para não deixar de citar alguns “pokemons”, temos aqui o Big Query, Redshift, Presto, Athena, Dremio, Metabase, Power BI e mais.

Seja nas escolhas ou integração desses componentes, é importante não deixar de considerar requisitos como confiabilidade, escalabilidade, facilidade de manutenção, usabilidade, segurança, privacidade, interoperabilidade, variedade de protocolos para consumo…

Não são poucas as preocupações, afinal será preciso atender a uma infinidade de usuários concorrentes, com diferentes padrões de consultas, diferentes formas de acesso. Não é pouco desafio. Um último ponto, construir essa camada em ambiente on-premises pode se mostrar inviável, considere a nuvem.

9. Qualidade de Dados:

Não adianta só entregar, tem que entregar com qualidade. Tendo em mente que os dados entregues serão utilizados principalmente para tomada de decisão, não é difícil entender que dado ruim será igual a decisão ruim.

Mas afinal, o que é qualidade? Essa é uma pergunta que a empresa, ou o EGD e demais partes do processo, precisa responder. Qualidade pode estar relacionada à integridade, completude, precisão, disponibilidade, validade, exatidão, consistência, padronização… enfim, a empresa precisa definir os aspectos de qualidade mais relevantes ou que geram maior impacto no seu trabalho. Vale ressaltar que esse padrão inclusive pode variar conforme a área ou contexto dos dados.

De qualquer forma, é importante definir um padrão de qualidade e avaliar se os seus dados atendem a esse padrão, o quão distante estão dele. Aqui vale evocar o velho mantra, “você não pode controlar o que não pode medir”, portanto, para estabelecer um controle de qualidade dos seus dados, vai ser necessário selecionar métricas, estabelecer indicadores ou KPIs. O passo a seguir é agir na melhoria.

Se ficar muito complicado, por que não perguntar as pessoas que usam os dados? É possível medir a qualidade coletando a avaliação dos usuários sobre os repositórios, tabelas, datasets. Qual nota eles dariam para o dataset que acabaram de consumir? Quais problemas eles encontraram ao utilizá-lo? Registre isso em um repositório, faça uma análise, planeje e execute ações de melhoria.

10. Segurança e Privacidade:

Há um tempo, autenticar, autorizar e monitorar o consumo dos repositórios de dados talvez fosse suficiente para a maioria das empresas. Hoje porém, seja por requisitos legais, como a LGPD, ou por entender os potenciais riscos envolvidos ao se trabalhar com os dados, as exigências com segurança e privacidade ficaram maiores. Os dados ganharam os holofotes, foram promovidos a ativos organizacionais, vêm sendo chamados de novo petróleo. A sociedade está mais atenta e passa a se envolver com o tema, seja para exigir direitos e proteções, seja para explorar as oportunidades e vulnerabilidades.

Esse novo cenário traz novas exigências como a identificação e o tratamento diferenciado de dados pessoais, algo que é impensável sem o uso de metadados e consequentemente de um catálogo (item 5). Em muitos casos esses dados além de terem acesso restrito e controlado, precisarão ser anonimizados. Com mais compartilhamento, fluxos e integrações, protocolos seguros com criptografia são praticamente regra. Controlar o acesso de um usuário só no nível do banco de dados ou tabela já não é suficiente. A necessidade de segregação de acessos no nível de linha (by row) é um requisito estabelecido e comum.

Para tratar esse tema, a Governança deve contar com o suporte de especialistas das áreas de segurança, privacidade, tecnologia, ou mesmo direito. Sim, quem melhor para nos ajudar com as leis de privacidade de dados. No mais, deve se preocupar em disseminar os princípios de segurança e privacidade, a fim de que o tratamento e as soluções de dados incorporem práticas e padrões desde sua concepção (by design).

Ah, claro! Não se esqueça de ativar a autenticação de dois fatores.

Concluindo

O objetivo aqui foi passar uma visão geral sobre a Governança de Dados por meio de alguns dos seus itens mais importantes. Se você chegou até aqui e deseja continuar a caminhada, saiba tem muito mais para ver. Você pode procurar pelo DAMA BoK, talvez o guia mais relevante para a área de Governança de Dados que temos disponível. Há também cursos, certificações, enfim, toda uma trilha para quem deseja se especializar e auxiliar as empresas na árdua tarefa de zelar pelos seus ativos de dados.

Livros para referência:

Outros Conteúdos:

https://towardsdatascience.com/what-is-the-data-architecture-we-need-72606e71ba0c

Palestra de John Doerr sobre OKR — Objectives and Key Results

--

--

Carlos Alberto Rocha Cardoso
DATA ENGINEER BR

Data professional, enjoying the journey of the life, the universe and everything.