4 de fevereiro de 2019

Data Quality - Uma nova abordagem para o 'DNA dos dados'

Na era digital, a análise de dados tem desempenhado papel fundamental na melhoria da qualidade dos processos e na tomada de decisões das organizações. Dados de boa qualidade favorecem o surgimento de idéias e o desenvolvimento de novos modelos de negócios, contribuindo para fortalecer a competitividade das empresas e aumentar a confiabilidade dos clientes em seus produtos e serviços.

Por essa razão, muitos profissionais da área da qualidade têm utilizado com êxito, há décadas, ferramentas e técnicas estatísticas (controle estatístico de processo, Lean Seis Sigma, análise de regressão, etc) para avaliar e interpretar os dados. No entanto, com o aumento da disponibilidade de dados e da facilidade em obtê-los na internet e em meios digitais, as informações sobre a qualidade dos mesmos têm sido muitas vezes perdidas, negligenciadas ou avaliadas de forma equivocada.

As consequências da utilização de dados de qualidade ou procedência duvidosas, bem como de eventuais alterações ou omissões nas fontes de informação, podem, muitas vezes, ser catastróficas.


O que há de errado com a análise de dados?


Um exemplo do uso equivocado de dados recorrente nos artigos sobre qualidade ocorreu em janeiro de 1986, com o lançamento do ônibus espacial Challenger. Na manhã do acidente, os cientistas da NASA realizaram uma conferência para decidir se seria seguro lançar a aeronave ao espaço, dadas as baixas temperaturas no Cabo Canaveral naquele dia (-0,6ºC).

A equipe revisou os dados disponíveis sobre a relação entre temperatura e falhas no sistema hidráulico de vedação. Infelizmente, um cientista acabou eliminando da análise os dados segundo os quais não havia falhas no sistema de vedação, entendendo que estes não eram relevantes. Essa omissão levou à decisão de lançar o Challenger ao espaço, quando uma análise mais apurada indicaria que o lançamento a essa temperatura seria extremamente perigoso. Toda a tripulação do ônibus espacial composta por 7 astronautas morreu.


Recentemente, decisões baseadas em dados digitais também resultaram em consequências desastrosas. Em outubro de 2017, o site de notícias israelense Haaretz informou que a polícia prendeu um palestino que vivia na Cisjordânia por apologia ao terrorismo. 

O homem foi preso por supostamente ter postado "Ataque-os!" em sua conta do Facebook. Após uma análise mais aprofundada, no entanto, verificou-se que ele havia postado a mensagem “Bom dia!” em árabe. E os algoritmos do Facebook traduziram "Bom dia!" em árabe para "Ataque-os!" em hebraico... Posteriormente, o Haaretz informou que o homem cancelou sua conta no Facebook.

Outro exemplo que ilustra o potencial negativo da disseminação de dados questionáveis é um artigo recente publicado na revista Science, no qual pesquisadores do MIT analisaram mais de 4,5 milhões de Tweets sobre 126.000 tópicos. Eles concluíram que informações falsas se difundem mais rápido na rede e possuem um alcance maior do que informações verdadeiras, atingindo massa crítica (ao menos 1.500 pessoas impactadas) 6 vezes mais rápido.

Seriam esses eventos incidentes isolados, que dificilmente voltarão a acontecer? Ou seriam os mesmos evidência de que grandes quantidades de dados combinados com algoritmos sofisticados não garantem a qualidade da análise?


Aprimorando a qualidade dos dados


A qualidade dos dados frequentemente tem sido questionada porque é difícil de quantificar. Por outro lado, o impacto provocado pelos mesmos é de simples mensuração. Técnicas estatísticas utilizam modelos para medir o tamanho das amostras necessário para estimar parâmetros com base em determinado grau de confiança ou para prever a magnitude de um evento de acordo com uma probabilidade de ocorrência.

No entanto, se os dados originais estão comprometidos, quão úteis são esses modelos? Alguns profissionais da área da qualidade não têm treinamento formal em qualidade de dados, ignorando as possíveis causas relacionadas a esses desvios.










Para solucionar esses problemas, alguns setores vêm buscando alternativas. No meio jurídico, utiliza-se o termo "cadeia de custódia" para descrever o processo que identifica a origem e garante a qualidade dos dados ou evidências. A cadeia de custódia refere-se à documentação de como a evidência foi originalmente obtida, rastreando a informação até que ela seja apresentada a um tribunal. 

Já na área da saúde, a FDA (Food and Drug Administration), dos EUA, usa um conceito similar, de integridade dos dados, definido como a completude, consistência e precisão dos dados utilizados, os quais também devem ser documentados.

Na verdade, qualquer indústria pode se beneficiar significativamente de iniciativas como essas, adotando o mesmo rigor na busca da qualidade dos dados. Para isso, foi desenvolvida uma abordagem semelhante, que garante a qualidade do processo, desde a origem até o registro dos dados.


Uma nova abordagem para Data Quality


Para melhorar a qualidade da análise e evitar incidentes como os citados acima, todo o processo de coleta, utilização e registro dos dados deve ser revisado e monitorado.

A nova abordagem, cujas etapas estão descritas a seguir, envolve a documentação das origens e do histórico do conjunto de dados (o "DNA dos dados"), incluindo seu significado técnico, o entendimento do processo que os originou, a coleta de amostras, os processos de medição utilizados e a manipulação subsequente dos dados, incluindo quaisquer modificações ou supressões feitas, até o presente.

1- Significado dos dados


O primeiro elemento desse novo enfoque visa explicar o que os dados representam, ou seja, o assunto que eles abordam, incluindo sua unidade de medição. Se a análise tem como objetivo, por exemplo, determinar o grau de acidez ou alcalinidade de uma solução (pH), espera-se que o responsável entenda o conceito de pH, a unidade de medição e as escalas utilizadas, além de ser capaz de interpretar esses dados, de acordo com o que for medido.

2- Compreensão do processo que origina os dados


Após essa etapa, é importante compreender o processo que deu origem aos dados. Não apenas o processo de medição (mostrado a seguir), mas também o processo que gerou as amostras. Fornecedores, matérias-primas, saídas do processo e até mesmo clientes podem ser úteis para contextualizar a análise e permitir chegar a conclusões que facilitem a tomada de decisões.  











Por exemplo, o processo de fabricação do vinho envolve diferentes técnicas e etapas de produção, que podem variar de acordo com o estilo de vinho que se deseja obter e com a filosofia de cada produtor.

Sem o entendimento claro do tipo de uva a ser utilizado, da melhor época do ano e clima para se realizar a colheita e das etapas de produção (maturação, prensagem, fermentação, amadurecimento, etc), torna-se difícil saber quais perguntas devem ser feitas, e, por consequência, analisar os dados de forma satisfatória.

3- Avaliação do processo de amostragem 


Em seguida, deve-se documentar como as amostras foram originalmente selecionadas. Ao avaliar uma pesquisa eleitoral, por exemplo, como são definidas as amostras e os grupos votantes? Quais os critérios para contabilizar os votos válidos? Que período de tempo foi utilizado? Como foram tratados os eleitores que se recusaram a responder às perguntas da pesquisa?

Compreender o processo de amostragem é fundamental para se chegar a uma conclusão sobre a amplitude dos dados e os resultados da análise.

4- Processo de medição


Considerada um ponto forte na área da qualidade, a avaliação do sistema de medição é fundamental para determinar a qualidade dos dados, permitindo explicar como os mesmos foram obtidos.

A documentação do sistema de medição é um dos elementos-chave das novas normas ISO de sistemas de gestão. Além disso, é importante saber se, como e quando o sistema de medição foi formalmente avaliado ou calibrado. Vale lembrar que uma das etapas dos projetos Lean Seis Sigma é a fase de medição, que normalmente envolve uma avaliação formal do sistema de medição. 

5- Documentação dos dados


Por último, usando como referência a cadeia de custódia do meio jurídico e os procedimentos adotados pelo FDA na área da saúde citados acima, todo o histórico dos dados deve ser documentado, principalmente quem teve acesso a eles e poderia efetuar futuras modificações ou exclusões. É recomendável também manter uma cópia do conjunto original de dados como medida preventiva.


E agora, quais os próximos passos?


Uma vez que essa nova abordagem seja colocada em prática, a próxima etapa é utilizar o que foi aprendido sobre o conjunto de dados para finalmente dar início à análise. Os elementos propostos nas etapas 1 a 5 acima ajudam a identificar as fontes de variação nos dados, que, por sua vez, definem os modelos estatísticos apropriados para a análise.

Somente após se conhecer as possíveis fontes de variação de um conjunto de dados, é possível criar um modelo de análise adequado. Técnicas estatísticas como análise de variância, análise de regressão e análise multivariada baseiam-se no conhecimento das potenciais fontes de variação.

Algumas fontes de variação podem não parecer relevantes para a análise, porém, ao serem ignoradas, geram resultados ruins ou até mesmo desastrosos. 

Esse novo enfoque também permite identificar se os dados são adequados para resolver o problema em questão, economizando tempo no desenvolvimento de modelos, caso isso não seja possível.

Por último, deve-se enfatizar a importância da documentação formal dos dados antes do início da análise, como forma de incentivar a reprodução de estudos na área da melhoria da qualidade e reduzir os erros associados a dados de qualidade duvidosa.

Somente garantindo a qualidade dos dados e sua devida documentação, as organizações podem desenvolver modelos de análise mais seguros e confiáveis e chegar a decisões que impactarão positivamente no sucesso dos negócios.

Adaptado do artigo "Show me the pedigree" - Revista Quality Progress, Janeiro de 2019.