Mostrando postagens com marcador Ciência de Dados. Mostrar todas as postagens
Mostrando postagens com marcador Ciência de Dados. Mostrar todas as postagens

quarta-feira, 26 de julho de 2023

O que é ciência de dados?

    Um dos termos da moda hoje em dia, considerado a profissão mais "sexy" do século XXI e que mais tem crescido nos últimos anos, a ciência de dados ainda é um grande mistério para o grande público. Muitas dúvidas sobre os tema e confusões entre data science, data analytics, data engineering e diversas subáreas. Então o que é cada um desses termos?

    A ciência de dados é uma área de estudos relativamente nova. Esse termo foi usado pela primeira vez em 2001 trabalho de William S. Cleveland "Ciência de Dados: Um Plano de Ação para Expandir as Áreas Técnicas dos Campos de Estatísticas", porém seus fundamentos já eram distutidos durante as décadas anteriores. A ciência de dados combina as áreas de estatística, computação, inteligência de negócios e tem como objetivo de colocar um olhar diferente nos dados para obter "insights" e poder tomar decisões mais acertivas do negócio. Os ciêntistas de dados usam diversas técnicas e ferramentas, mas antes de mostrar algumas delas vou dar uma visão mais geral citando alguns exemplos mais conhecidos.

    De modo mais genérico um cientista de dados pega uns dados e aplicando seu método ciêntifico para tentar enxergar algo que não era possível ver antes. Um exemplo muito citado nas aulas e livros, é o caso de Abraham Wald, um matemático húngaro para a RAF - Royal Air Force na segunda guerra mundial (muito antes da ciência de dados existir oficialmente). Seu trabalho consistia em fazer uma análise estátistica dos buracos de bala nos bombardeiros que voltavam da guerra para que os mecânicos pudessem reforçar essas regiões a fim de evitar maiores perdas de aviões. Com base em informações visuais dos buracos de balas nos aviões a RAF pensou de forma óbvia em reforçar as regiões com maior número de buracos. Ao entregar o relatório final, Wald foi na contra-mão e sugeriu que as blindagens fossem colocadas nas regiões com menor número de buracos. Apontando uma falha crítica na análise Wald percebeu que os militares estavam esquecendo que seus dados não incluiam os aviões abatidos por inimigos, ou seja, os buracos analisados não derrubavam seus aviões e nas regiões onde faltavam dados era exatamente as regiões mais críticas.

    Outro caso muito conhecido, porém alguns dizem que é apócrifo (há muita divergência nas histórias sobre data e local), é o famoso caso das fraldas e cerveja. A lenda diz que em 1997 uma grande varejista (Wal-Mart?) decidiu combinar os dados de seus clientes frequentes com os dados operacionais dos pontos-de-vendas. O primeiro sistema forneceu dados demográficos de seus clientes e o segundo sistemas dava os dados de quando, onde e o que era comprado. Após forem combinados, várias correlações foram encontrados, algumas óbvias como quem compra Gin também compra água com gás e limões, porém encontraram uma correlação inusitada: no final da sexta feira quem comprava fraldas também comprava cerveja, provavelmente era o horário que os pais saiam para comprar fraldas e aproveitavam para comprar cerveja. Após isso a Wal-Mart começou a posicionar a cerveja perto das fraldas para aumentar as vendas.

    Dizem que se a versão é melhor que ao fato, que publique-se a versão. Parece que esse é um dos caos, porém a verdadeira história é menos empolgante que a real. Segundo Daniel Power (no link das referências), 1992 uma equipe do grupo de consultoria Teradata realizaram uma análise de 1,2 milhões de registros de cestas de compras de 25 lojas da Osco Drugs. Após realizar algumas consultas para tentar descobrir correlações perceberam que entre 17h e 19h os consumidores compravam fraldas e cervejas. Apesar de terem descoberto isso os gerentes não aproximaram as cervejas das fraldas para aumentar as vendas (mas sim, poderiam ter feito isso). Técnicas como Market Basket Analysis tentam encontrar correlação de cesta de compra, onde quem compra produto A e B também compra produto C, então se alguém colocar produto A e B na cesta já aparece a propaganda oferecendo o produto C.

    Outro caso que ilustra o tema é o conhecido como "a vaca não é quadrada". Na indústria de couros do Rio Grande do Sul, o aproveitamento do recorte do couro da vaca é um dos problemas de produção pois como a "vaca não é quadrada" acabam sobrando muito retalhos não aproveitados. Normalmente a indústria conseguia ter um aproveitamente entre 75% a 80% do couro, sendo o restante disperdiçado. Porém um senhor no interior do RS (acho que em Bento Golçalves) que trabalhava a décadas na manufatura de couros conseguia obter cerca de 95% de aproveitamento. Um grupo de cientistas da computação foi então ao encontro do senhor para tentar entender como ele trabalhava e poder criar um algoritmo que pudesse fazer a otimização do corte de couro. Nas primeiras entrevistas o senhor, mostrando seu método de trabalho, começou a realizar os cortes da melhor maneira. Ao terminar, o grupo perguntou como ele tinha conseguir obter esse aproveitamento, e o senhor respondeu: "É simples, basta olhar." Para o senhor, que tinha décadas de experiência era fácil enxergar, porém nem ele conseguia explicar com palavra aquele conhecimento que ele adquiriu empiricamente. Foram necessário vários encontros para que o grupo finalmente conseguisse entender o procedimento e "enxergar" o melhor aproveitamento do processo.

 

    Como vimos pelos exemplos, a ciência de dados é uma área interdiciplinar que abrange as áreas de tecnologia, mamemátie e inteligência de negócios, e usa o método ciêntífico para entender, coletar, tratar, explorar, análisar  e visualizar conjuntos de dados para obter insights antes impossíveis de ser obtidos. Irei detalhar e aprofundar cada uma dessas etapas da ciência de dados em futuros posts.

Até lá.

 

Fontes:

https://portaldatascience.com/importancia-da-estatistica-na-guerra/

https://www.theregister.com/2006/08/15/beer_diapers/

http://www.dssresources.com/newsletters/66.php

terça-feira, 2 de maio de 2023

Algoritmos de Destruição em Massa


    Bom, para a retomada da nova versão do blog começo com o excelente livro "Algoritmo de Destruição em Massa", da autora Cathy O'Neil. Confesso que antes de ler tinha um certo receio de o tema fosse abordado de um modo terrorista (tentando assustar essa nova ciência) ou conspiracionista, porém não acontece isso. Sempre que ela mostra os riscos do uso do algoritmos é embasado com informação de quem tem anos de experiência na área.

    Com Ph.D em Matemática pela Harvard, Cathy O'Neil largou a carreira acadêmica para entrar no mercado financeiro. Seu primeiro livro, Doing Data Science, tem uma abordagem mais didática sobre ciência de dados. Já  no best seller ADM ela usa uma visão mercadológica do tema, mostrando suas aplicações e implicações. Inicio então abordando a silga ADM, que se ajusta tanto ao título da tradução (Algoritmo de Destruição em Massa) quando à tradução literal do título original (Armas de Destruição Matemática).

    O livro dividido em capítulos, onde cada capítulo (tirando os dois primeiros que são introdutórios) é focado em um mercado (financeiro, educação, seguros, publicidade, justiça, seleção profissional, vida cívica e trabalho), iniciando sempre com uma explanação de como as ADMs funcionam em cada um desses mercados os prós e contras (foco sempre nos contras) desse uso. Os contras geralmente são os mesmos: as ADMs são enviesadas (nem todas), sempre favorecendo os que já são favorecidos e desfavorecendo os que mais precisam. Os vieses tem diversas origens, podendo ser pela região geográfica do indivíduo, ou por sua origem, posição social, etc.

    Porém a grande conclusão do livro (****CONTÉM SPOILER - CASO NÃO QUEIRA PULE ESTE PARÁGRAFO****) é que as ADMs que são enviesadas são pelos mesmos motivos: opacidade, escala e dano. Opacidade ou falta de transparência pois essas ADMS são como uma caixa preta, fechada, onde não conseguimos entender como funcionam. Dados entram e cospem um resultado, mas como ninguém sabe ela chegou nesse resultado (somente a empresa que criou, porém não se importam muito com isso). Isso impede em entender quando uma ADM cometeu um erro e ,principalmente, poder ser corrigir. Juntandos essa opacidade e incapacidade de corrigir os erros, e aplicando em larga escala, o dano está feito.

    Em cada capítulo então ela mostra como essa opacidade contribuem para os vieses das ADMs, dando vários exemplos ocorridos no território norte americano (porém se aplica a outras regiões), e exemplificando também casos em que ADMs abertas (não opacas) funcionam perfeitamente, onde é possível entender como funcionam, o porquê do resultado gerado, e corrigindo caso encontrado algum problema.

    Por que ler este livro?  Primeiramente para entender o que é e como funcionam as ADMs; para saber o que uma dieta única nacional tem a ver com ADMs; o que é o fechabrir (clopening); como as ADMs são responsáveis pela polarização nas redes sociais; como filtros de spam podem ser reorganizados para identificar o vírus da AIDS; o que é frenologia; a SKYNET está próxima?; e principalmente para poder fugir (quando possível) dos vieses da ADMs.