quarta-feira, 26 de julho de 2023

O que é ciência de dados?

    Um dos termos da moda hoje em dia, considerado a profissão mais "sexy" do século XXI e que mais tem crescido nos últimos anos, a ciência de dados ainda é um grande mistério para o grande público. Muitas dúvidas sobre os tema e confusões entre data science, data analytics, data engineering e diversas subáreas. Então o que é cada um desses termos?

    A ciência de dados é uma área de estudos relativamente nova. Esse termo foi usado pela primeira vez em 2001 trabalho de William S. Cleveland "Ciência de Dados: Um Plano de Ação para Expandir as Áreas Técnicas dos Campos de Estatísticas", porém seus fundamentos já eram distutidos durante as décadas anteriores. A ciência de dados combina as áreas de estatística, computação, inteligência de negócios e tem como objetivo de colocar um olhar diferente nos dados para obter "insights" e poder tomar decisões mais acertivas do negócio. Os ciêntistas de dados usam diversas técnicas e ferramentas, mas antes de mostrar algumas delas vou dar uma visão mais geral citando alguns exemplos mais conhecidos.

    De modo mais genérico um cientista de dados pega uns dados e aplicando seu método ciêntifico para tentar enxergar algo que não era possível ver antes. Um exemplo muito citado nas aulas e livros, é o caso de Abraham Wald, um matemático húngaro para a RAF - Royal Air Force na segunda guerra mundial (muito antes da ciência de dados existir oficialmente). Seu trabalho consistia em fazer uma análise estátistica dos buracos de bala nos bombardeiros que voltavam da guerra para que os mecânicos pudessem reforçar essas regiões a fim de evitar maiores perdas de aviões. Com base em informações visuais dos buracos de balas nos aviões a RAF pensou de forma óbvia em reforçar as regiões com maior número de buracos. Ao entregar o relatório final, Wald foi na contra-mão e sugeriu que as blindagens fossem colocadas nas regiões com menor número de buracos. Apontando uma falha crítica na análise Wald percebeu que os militares estavam esquecendo que seus dados não incluiam os aviões abatidos por inimigos, ou seja, os buracos analisados não derrubavam seus aviões e nas regiões onde faltavam dados era exatamente as regiões mais críticas.

    Outro caso muito conhecido, porém alguns dizem que é apócrifo (há muita divergência nas histórias sobre data e local), é o famoso caso das fraldas e cerveja. A lenda diz que em 1997 uma grande varejista (Wal-Mart?) decidiu combinar os dados de seus clientes frequentes com os dados operacionais dos pontos-de-vendas. O primeiro sistema forneceu dados demográficos de seus clientes e o segundo sistemas dava os dados de quando, onde e o que era comprado. Após forem combinados, várias correlações foram encontrados, algumas óbvias como quem compra Gin também compra água com gás e limões, porém encontraram uma correlação inusitada: no final da sexta feira quem comprava fraldas também comprava cerveja, provavelmente era o horário que os pais saiam para comprar fraldas e aproveitavam para comprar cerveja. Após isso a Wal-Mart começou a posicionar a cerveja perto das fraldas para aumentar as vendas.

    Dizem que se a versão é melhor que ao fato, que publique-se a versão. Parece que esse é um dos caos, porém a verdadeira história é menos empolgante que a real. Segundo Daniel Power (no link das referências), 1992 uma equipe do grupo de consultoria Teradata realizaram uma análise de 1,2 milhões de registros de cestas de compras de 25 lojas da Osco Drugs. Após realizar algumas consultas para tentar descobrir correlações perceberam que entre 17h e 19h os consumidores compravam fraldas e cervejas. Apesar de terem descoberto isso os gerentes não aproximaram as cervejas das fraldas para aumentar as vendas (mas sim, poderiam ter feito isso). Técnicas como Market Basket Analysis tentam encontrar correlação de cesta de compra, onde quem compra produto A e B também compra produto C, então se alguém colocar produto A e B na cesta já aparece a propaganda oferecendo o produto C.

    Outro caso que ilustra o tema é o conhecido como "a vaca não é quadrada". Na indústria de couros do Rio Grande do Sul, o aproveitamento do recorte do couro da vaca é um dos problemas de produção pois como a "vaca não é quadrada" acabam sobrando muito retalhos não aproveitados. Normalmente a indústria conseguia ter um aproveitamente entre 75% a 80% do couro, sendo o restante disperdiçado. Porém um senhor no interior do RS (acho que em Bento Golçalves) que trabalhava a décadas na manufatura de couros conseguia obter cerca de 95% de aproveitamento. Um grupo de cientistas da computação foi então ao encontro do senhor para tentar entender como ele trabalhava e poder criar um algoritmo que pudesse fazer a otimização do corte de couro. Nas primeiras entrevistas o senhor, mostrando seu método de trabalho, começou a realizar os cortes da melhor maneira. Ao terminar, o grupo perguntou como ele tinha conseguir obter esse aproveitamento, e o senhor respondeu: "É simples, basta olhar." Para o senhor, que tinha décadas de experiência era fácil enxergar, porém nem ele conseguia explicar com palavra aquele conhecimento que ele adquiriu empiricamente. Foram necessário vários encontros para que o grupo finalmente conseguisse entender o procedimento e "enxergar" o melhor aproveitamento do processo.

 

    Como vimos pelos exemplos, a ciência de dados é uma área interdiciplinar que abrange as áreas de tecnologia, mamemátie e inteligência de negócios, e usa o método ciêntífico para entender, coletar, tratar, explorar, análisar  e visualizar conjuntos de dados para obter insights antes impossíveis de ser obtidos. Irei detalhar e aprofundar cada uma dessas etapas da ciência de dados em futuros posts.

Até lá.

 

Fontes:

https://portaldatascience.com/importancia-da-estatistica-na-guerra/

https://www.theregister.com/2006/08/15/beer_diapers/

http://www.dssresources.com/newsletters/66.php