Cientista de Dados Doidão

sexta-feira, 31 de janeiro de 2025

Existe Pesquisa Inútil?: A Importância do Conhecimento de Base

Atualmente vivemos uma discussão sobre o que vale a pena pesquisar e o que não vale, que não se deve gastar com ciência de base, apenas com o que se pode ciência aplicada, como se realmente existisse conhecimento útil e conhecimento inútil. Então vou dedicar esse post para contar aqui algumas histórias sobre conhecimento "inútil" que acabaram transformando o mundo, quando descobriram a sua utilidade anos/décadas depois. Vamos explorar, usando os exemplos da geometria não euclidiana e da álgebra booleana, como ideias puramente teóricas acabaram revolucionando a ciência.

Geometria não Euclidiana: quando o espaço se curvou

As 3 geometrias

Por séculos, a geometria plana de Euclides foi considerada a única geometria existente. Desde que Euclides escreveu sua obra prima, Os Elementos, cerca de 300 aC. ninguém questionou se poderia haver outro tipo de geometria que não fosse plana. Esse tipo de pensamento durou mais de 2000 anos, até que por volta do séc. XVII começaram a especular outros tipos de geometria, e tentar entender como seria. E no início era mesmo apenas uma atividade intelectual, sem nenhuma pretensão prática. Vários intelectuais começaram a explorar os diversos tipos de geometria chamadas de não euclidianas. O matemático russo Nicolai Lobatcheviski e o matemático húngaro Janos Bolyai estudaram de modo independente a geometria hiperbólica. E o matemático alemão Carl Gauss juntamente com seu discípulo Benhard Riemann (já citado anteriormente no post sobre o livro A Janela de Euclides) exploraram a geometria esférica.

Gauss aprovando o blog

Em 1854, numa palestra intitulada "Sobre as hipóteses que fundamentam a geometria", Benhard Riemann ampliou os horizontes da geometria ao propor uma abordagem generalizada, baseada em superfície curva, rompendo os limites impostos pela geometria plana de Euclides. Mais de 50 anos depois, em 1905, um jovem físico chamado Albert Einstein publica 4 artigos que revolucionaram a física, entre ele a famosa "Teoria da Relatividade Restrita", que seria a versão 1.0 da mais famosa ainda "Teoria da Relatividade Geral". Na Relatividade Restrita, Einstein introduz conceitos como Espaço-Tempo, velocidade constante da luz, dilatação de tempo e contração do espaço, e outros. Einsten queria unificar sua teoria com a teoria da Gravidade, mas levou 10 anos para conseguir isso, em sua teoria da Relatividade Geral, publicada em 1915. Nesse período de 10 anos em que ele ficou tentando incorporar a gravidade na teoria da relatividade, ele percebeu que seria possível considerando que a gravidade é o resultado da curvatura do espaço-tempo causado por uma massa muito grande, como uma estrela ou o Sol.

Uma teoria só é confirmada se suas previsões são corretas, e para poder fazer as previsões Einstein precisava de uma matemática que fizesse o cálculo dos movimentos nesse espaço-tempo curvo. Apesar de Einstein ser um gênio da física, a matemática não era seu forte, e sempre que precisava ele pedia ajuda ao seu colega da Politécnica de Zurique, Marcel Grossmann, desempenhando um papel crucial no desenvolvimento da Teoria da Relatividade Geral. Enquanto Einstein tinha ideia inovadoras sobre a física, Grossmann ajudou na formalização matemática da teoria. Felizmente Grossmann não precisou desenvolver uma geometria nova para calcular movimentos curvos no espaço-tempo, pois Riemann e outros já haviam feito esse trabalho há mais de 50 anos atrás. E as previsões matemáticas da Teoria de Relatividade Geral foram comprovadas belissimamente durante um eclipse na cidade de Sobral, no Ceará, sendo a base de inúmera tecnologias atuais, como GPS.

Álgebra Booleana: a lógica por trás dos computadores

George Boole

A segunda história é sobre o matemático, filósofo e lógico inglês George Boole e sua Álgebra Booleana. Em 1854 (mera coincidência) Boole publicou o livro intitulado "Uma investigação sobre as leis do pensamento", onde ele apresentou sua lógica, propondo como os raciocínios lógicos poderiam ser representados por operações algébricas. A álgebra booleana reduz problemas de lógica a operações simples com variáveis que assumem apenas dois valores: 1 (verdadeiro) e 0 (falso). Conectando a lógica aristotélica com a álgebra, Boole transformou o estudo da lógica em um campo matemático rigoroso. E novamente aqui, foi puramente pelo desafio intelectual que Boole realizou essa tarefa, e dessa vez levaria mais de 50 anos para que a álgebra desenvolvida por Boole ganhasse uma aplicação prática. E seria na eletrônica digital onde a álgebra booleana ganharia espaço, e George Boole nem tinha ideia disso.

Em 1830, Michael Faraday projetou o primeiro Relé, que é um interruptor eletromecânico, ou seja, é uma chave que liga e desliga usando eletricidade e magnetismo (um emprego muito simples e comum do relé é na geladeira, onde é conectado ao termostato, ligando e desligando a geladeira conforma a temperatura desejada). Mas somente no início do século XX que os relés começaram a ser empregados como circuitos lógicos para implementar as portas lógicas baseadas nos princípios da álgebra Booleana. Na década de 1920 os relés foram gradualmente substituídos pelas válvulas termiônicas, por serem amis rápidos e confiáveis. Em 1938 o pai da Teoria da Informação Claude Shannon foi o primeiro a formalizar o vínculo entre álgebra booleana e circuitos lógicos, e em 1947 foi inventado o transistor, por John Bardeen, Walter Bratain e Willian Shockley, revolucionando a eletrônica, além de serem mais rápidos e confiáveis ainda, também permitiam a miniaturização, abrindo caminho para os computadores modernos.

Número imaginário: do absurdo à realidade

Por séculos, o problema da raiz quadrada negativa (√-1) incomodou os matemáticos. Já que não existia um número real que multiplicado por ele mesmo daria um número negativo, esse problema foi considerado impossível, até que por volta de 1500 os matemático começaram a explorar soluções para equações cúbicas, sim aquelas que deixam todos alunos de cabelo em pé. Um desses caras foi o matemático italiano Girolamo Cardamo, que ao tentar resolver algumas dessas equações percebeu que apareciam raiz quadrada de um número negativo. Como não fazia muito sentido resolveram deixar pra lá e ignoraram os resultados, chamando-os de fictícios ou impossíveis.

Leonhard Euller

Já no século XVII, o filósofo e matemático francês René Descartes deu o nome de "imaginário" para esses números. Ele usou esse termo de forma pejorativa, como se os números fossem apenas invenção da nossa cabeça. Já no século seguinte o matemático suíço Leonhard Euler entrou em cena e decidiu levar esses números a sério. Ele criou o símbolo i para representar a raiz quadrada de -1, ou seja, i = √-1. Com isso os números imaginários ganharam uma identidade própria e começaram a ser utilizados em cálculos complexos. Euler também descobriu uma relação incrível entre números imaginários e funções trigonométricas, conhecida como Fórmula de Euler:

$e^{i\pi} + 1 = 0$ π.

No início de 1800 o grande matemático alemão Carl Gauss, já citado anteriormente, deu um passo além. Ele percebeu que os números imaginários não eram apenas um truque matemático, mas sim uma poderosíssima ferramenta. Ele os integrou com o sistema numérico, criando os números complexos, que combinam uma parte real com uma parte imaginária, do tipo a + bi.

Com o tempo encontraram inúmeras aplicações para os números imaginários e complexos. Por exemplo, durante o séc. XVIII quando começaram a desenvolver os primeiros estudos da eletricidade e dos circuitos elétricos, várias das fórmulas desenvolvidas na época, como a famosa lei de Ohm (V = R.I) funcionavam muito bem, e de maneira simples quando se tratava de corrente contínua utilizando os números reais. Porém quando começaram a desenvolver os circuitos de corrente alternada, no fim do séc. XIX, os números reais não conseguiam fazer isso de maneira simples, já que os valores de corrente e tensão varia com o tempo. E é aí que os números complexos entram em jogo, onde a parte real do par complexo corresponde o valor de pico (mais alto) da corrente/tensão, e a parte imaginária representa a fase (oscilação) do mesmo, podendo ser aplicado nas mesmas fórmulas desenvolvidas anteriormente.

Há também aplicações na física quântica para descrever o movimento das partículas subatômicas, em processamento de sinais em tecnologias Wi-Fi e GPS e na computação gráfica para criar efeitos visuais e animações. Na próxima vez que alguém disser que uma ideia é "inútil", terá pelos menos 3 exemplos mostrando ao contrário. A ciência básica não é um luxo, é a semente da inovação. E como vimos, as vezes é necessários esperar décadas para colher seus frutos. Afinal, qual é a ideia doida de hoje que será revolucionária amanhã?

terça-feira, 12 de novembro de 2024

Vinil x CD - Round One Fight!!!!

Devido à volta da indústria de vinil e ao aumento de comércio de LPs, é inevitável ressuscitar a velha disputa: Qual tem o melhor som Vinil ou CD??? E para podermos entender o que tem por trás dessa disputa teremos que rever o que é uma onda sonora, e as diferenças entre uma onda analógica e uma onda digital. E já antecipo aqui que usei o termo CD para remeter à rivalidade dos anos 90, mas poderia ser DVD, Bluray, MP3 ou qualquer outra mídia digital, pois a onda digital é a mesma nos diferentes meios digitais, só mudando detalhes técnicos de armazenamento/leituras das diferentes mídias.

Bom, e para entendermos as diferenças teremos que rever o conceito de onda e o conceito de sinais digitais. Ondas são perturbações (oscilações) que se propagam pelo espaço durante um tempo. Suas principais características são: amplitude A que é a altura máxima que a onda atinge; crista e vale que são locais de máximo e mínimo respectivamente; e comprimento de onda λ que é a distância entre 2 cristas ou vales consecutivos. Outras características são: frequência f que corresponde ao número de oscilação que ocorrem por segundo; período T que é ao tempo de um comprimento de onda; e velocidade v que é a velocidade que se propaga em um meio.

No caso de uma onda sonora, já que estamos falando de músicas, a frequência f é responsável por definir a nota musical pois cada nota tem sua frequência definida, por exemplo o Lá da 4º oitava é 440Hz, ou seja, a cada segundo ela oscila 440 vezes. A intensidade ou volume do som está ligada à amplitude da onda, quando maior a amplitude mais alto será o som emitido, menor amplitude, mais baixo será. E o timbre característico de cada instrumento está atrelado à pequenas alterações na onda, mas mantém a mesma frequência.

Já uma digital é uma representação em bits (0 e 1) de uma onda analógica, ou seja, desmontar a onda desenhada acima de forma que possa ser armazenada em bits (0 e 1), e depois remontar esses bits na onda original. E para realizar essa definir dois fatores: primeiro temos que definir a frequência de amostragem (sample rate), ou seja, quantas amostras iremos obter num determinado tempo; segundo é preciso definir o valor quantizado da amplitude, conhecido como profundidade de bits (bits depth), que é definir quantos bits serão usados para representar a amplitude A da onda.

Com esses dois fatores é possível representar uma onda analógica em uma onda digital, e assim poder armazenar em qualquer dispositivo digital e depois, pelo processo inverso, remontar a onda digital em analógica para reproduzir no aparelho de som. Na imagem ao lado é possível ver como se dá a digitalização da onda analógica: a taxa de amostragem representa o eixo X, quanto maior a taxa mais amostras teremos; e a profundidade (depth) de bits está no eixo Y, ou seja, qual a amplitude da onda daquela amostra. Nem sempre a amplitude da onda analógica será exatamente igual ao bit depth, então ela será aproximada ao bit mais próximo.

Então a qualidade do som digital está diretamente atrelada à essas duas características: quanto maior sample rate e o bit depth da onda digital mais próxima ela será da onda analógica; quanto menor forem mais aproximações ela fará e não será exatamente igual à onda original. Portanto para uma onda digital ser exatamente igual à uma onda analógica o ideal seria ter um sample rate infinito e um bits depth infinito, porém isso daria um grande problema de processamento e armazenamento. Aliás, para termos esses problemas nem precisaria ser infinito, valores muito altos desses fatores já traria problemas, pois quanto maior sample rate e bits depth, teremos mais dados para armazenar de uma mesma onda, o que ocuparia mais espaço num CD ou HD e processamento cada vez mais potente. Portanto a escolha desses parâmetros requer um equilíbrio entre a qualidade desejada e espaço de armazenamento disponível.

Quer dizer que uma onda digital nunca será igual à uma onda analógica, portanto um tocador de vinil sempre será melhor que um CD, certo? A resposta correta é: não necessariamente, pois existem muitos outros fatores que podem influenciar, o que torna a disputa bem mais complexa. Primeiramente, a onda análoga gravada em um vinil também não é exatamente igual à onda original, dependendo de vários critérios durante a gravação, como a qualidades dos equipamentos usado, das agulhas e do material do vinil. Também há o fator de estado de conservação dos vinil/CD a serem escutados, bem como o aparelho usado na reprodução do áudio (não adianta ter um vinil/CD de alta qualidade e ouvir em fone de ouvidos sem qualidade).

E há também um outro fator chamado de ouvido humano. Por mais perfeito que seja nosso ouvido ele não é capaz de captar e processar 100% do áudio recebido nos tímpanos, muito é perdido no meio do caminho (seja por problemas auditivos ou de percepção). Tanto que o exemplo de sample rate infinito que utilizei foi só para ilustrar o absurdo, pois numa determinada faixa já somos incapazes de perceber a diferença. Por exemplo, um arquivo MP3 podem variar sua bits depth entre 8 a 320 kbps e samples rate de 8kHz a 48kHz. Obviamente uma taxa de 8 bits seria muito ruim, tendo muitos arredondamentos da onda original, mas uma taxa de 192 kbps já é considerada muito boa, e provavelmente você nem perceberá diferença entre uma faixa gravada a 256 kbps e 320 kpbs.

Bom, quem chegou até aqui esperando que no final teria uma resposta simples já percebeu que não é bem assim. Diversos fatores influenciam a qualidade de som de ambos dispositivos, desde a qualidade de conservação dos discos de Vinil e CDs, até a marca do alto-falante afetam a experiência auditiva. E mesmo se considerarmos situação ideal, um vinil/CD bem conservado, tocado num aparelho de som de boa qualidade, usando uma agulha boa, caixas de sons de boa marca, provavelmente a diferença entre os dois será imperceptível para o ouvido humano.

quinta-feira, 12 de outubro de 2023

O caso dos dados astrômicos, Tycho Brahe e Johannes Kepler

Dois modelos de mundo dividiram opiniões por séculos: modelo Ptolomaico e o Modelo Copernicano. O modelo Ptolomaico foi formulado por Claudius Ptolomeu no final do séc I d.C., onde explica o movimento dos astros conhecidos na época tendo a Terra como o centro e o Sol, a Lua, os planetas e as estrelas girando em torno da Terra em esferas específicas. Já o modelo Copernicano, teve início com um astrônomo grego Aristarco de Samos, por volta do séc III a.C., sendo refinado matemáticamente por Copérnico em 1543, onde o Sol se posiciona no centro e a Terra e os planetas girando em volta do Sol. Durante todos esses séculos os dois modelos disputaram apoiadores, sendo que a Igreja Católica adoto o modelo Ptolomaico por este ser mais fiel às escrituras sagradas.

Se o sistema héliocentrico já era conhecido antes de Cristo, por quê houve essa disputa durante séculos entre os dois sistemas? Um dos principais fatores desta questão ter durado séculos eram os dados. Ou melhor, nesse caso os dados coletados até então eram imprecisos. As ferramentas para medir dados astronômicos até o final da idade média eram muitos precários, fazendo com que os dados tivessem uma alta incerteza, e assim poderiam ser "ajustados" facilmente em qualquer um dos dois modelos.

Para termos uma ideia, a incerteza das medições astronômica na época medieval era de dezenas de minutos de graus. Para entender essa unidade é necessário "dividir" toda a abóboda celeste por 360 (já que a volta completa é 360°). Cada grau é dividido por 60, o que dá os minutos de graus, e fazendo o mesmo para segundos. A lua ocupa no céu 1/2 grau, ou seja, 30 minutos de grau. Então a incerteza dos instrumentos medievais chegavam quase ao diâmetro da lua, o que é bem grande (atualmente a incerteza está abaixo de 0,1 segundos de arco).

E foi aí que, no início da renascença, surgiu um astrônomo decidido a acabar com esse problema. O astrônomo dinamarquês Tycho Brahe dedicou sua vida à construir os melhores e mais acurados equipamentos astronômicos, e coletar a maior quantidade possível de dados das posições dos astros por um grande período. Ele realizou observações detalhadas e precisas das posições dos planetas e de outras estrelas ao longo de quase de 20 anos. Tycho Brahe era Geocentrista e achava que com seus dados precisos ele iria finalmente conseguir provar que era o sol que girava em torno da Terra, e não o oposto. Infelizmente (ou felizmente, dependendo do ponto de vista), Tycho faleceu antes de ver o resultado de seus dados.

Para poder entender o que seus dados diziam, Tycho precisou contratar um matemático para realizar os cálculos de sua imensa quantidade de dados coletados. Então ele contratou um hábil matemático chamado Johannes Kepler (sim, apesar dele ser conhecido por suas leis da astronomia, Kepler era matemático e não um astrônomo) para realisar essa árdua tarefa. Pouco tempo após a contratação Tycho veio a falecer deixando o jovem Kepler com seus dados coletados por 20 anos, e Kepler começou então a tarefa de cálcular as órbitas dos astros e decidir que modelo eles se encaixavam.

Após muito tempo (e muitos cálculos) Kepler viu que eles não se encaixavam no modelo Geocentrico de Ptolomeu. Porém o modelo de Copérnico também não se encaixou perfeitamente nos dados calculados, foram necessários alguns ajustes no modelo de Copérnico (como alterar as órbitas circulares para elípticas) para que o modelo ajustasse com os dados observados.

Esse caso ilustra a importância da precisão e qualidade dos dados coletados, e como dados ruins podem gerar resultados ruins (obviamente). E tão obvio quanto é que todos os passos da ciência de dados são igualmente impotantes, cada etapa do processo científico, incluindo a coleta, análise e interpretação de dados, desempenha um papel crítico na obtenção de resultados confiáveis. Qualquer descuido em uma das fases poderá (e irá) influenciar no resultado final.

quarta-feira, 2 de agosto de 2023

A Floresta Sombria

O segundo livro da trilogia O Problema dos 3 Corpos chama-se A Floresta Sombria. Porém não vou aqui falar sobre o livro (ainda não terminei de ler) mas vou falar sobre o conceito da floresta sombria. E para podermos entender sobre o conceito de floresta sombria terei que falar um pouco sobre a Equação de Drake e a pergunta do físico italiano Enrico Fermi, conhecida como Paradoxo de Fermi.

A Equação de Drake, formulada em 1961, é uma equação probabilística para estimar o número de civilizações extraterrestes que poderíamos nos comunicar, ou seja, civilizações que tiveram evolução tecnológica suficiente para podemos manter uma comuniação. Para termos uma ideia nós só atingimos tal nível no final do séc. XIX, quando a humanidade inventou o rádio.

$N=R^{*}\times f_{p}\times n_{e}\times f_{l}\times f_{i}\times f_{c}\times L$

Acima temos a Equação de Drake, mas antes de explicar cada termo preciso lembrar que muitas das taxas não são conhecidas com precisão. N é o número total de civilizações que poderíamos ter contato. O primeiro termo, R* é a taxa de formação de estrelas da galáxia, f_p é a fração dessas estrelas que possuem planetas em sua órbita, n_e é o número médio de planetas com potencial para possuir vida, f_l é a fração dos planetas com potencial que realmente desenvolvem vida, f_i é a fração que desenvolve vida inteligente, f_c é a fração dessas civilizações que desenvolvem tecnologia e querem se comunicar e L é o tempo de vida dessas civilizações.

Como disse antes muitas dessas taxas não são conhecidas, podemos apenas comparar (e esperar) que sejam próximas com o nosso sistema solar. E foi exatamente isso que Drake fez. Baseado em suas pesquisas ele colocou em sua fórmula os seguintes valores: para R* estimou 1/ano, f_p estimado entre 0,2 e 0,5, n_e entre 1 e 5, f_l estimado em 1, f_i estimado em 1, f_c em 0,1 e 0,2 e L entre 1000 a 100.000.000 de anos. Os valores de R*, f_pe n_e são conhecidos pelas pesquisas ciêntíficas, os valore de f_patualmente é maior, pois já foram descobertos muito mais exoplanetas que se estimava em 1961. Drake afirmou que devido às incertezas que N varia entre 1.000 e 100.000.000 de civilizações na galáxia.

Onde eles estão? Foi a pergunta feita pelo físico italiano Enrico Fermi, em seu Paradoxo de Fermi, sobre a contradição entre as altas probabilidades estimadas para a possibilidades de vida extraterreste e a falta de evidências concretas (ou de contato) dessas civilizações.

Isso aconteceria devido à floresta sombria. Assim como numa floresta a noite está cheia de vida mas é silenciosa pois nenhum ser vivo lá que emitir barulho e virar jantar de um predador, a galáxia também estaria cheia de vida extraterrestre mas nenhuma delas quer dar algum sinal evitando que outra civilização venha a exterminá-lá. No final do livro o autor explica esse conceito, juntamente com o conceito de Sociologia Cósmica (criado pelo autor) onde usando os conceitos sociológicos estudados, extrapola para um ambiente galático (similar à Astrobiologia).

Mas claro, a resposta para o Paradoxo pode residir também nas grandes distâncias estelares, o que dificulta muito essa busca. No próprio livro, onde a civilização extraterreste encontra-se casualmente na estrela mais próximo (próxima centauri), que está a 4,2 anos-luz de distâncian já dá pra sentir o quanto é longe e complicado. Porém isso já seria assunto para outro post.

Até breve

quarta-feira, 26 de julho de 2023

O que é ciência de dados?

Um dos termos da moda hoje em dia, considerado a profissão mais "sexy" do século XXI e que mais tem crescido nos últimos anos, a ciência de dados ainda é um grande mistério para o grande público. Muitas dúvidas sobre os tema e confusões entre data science, data analytics, data engineering e diversas subáreas. Então o que é cada um desses termos?

A ciência de dados é uma área de estudos relativamente nova. Esse termo foi usado pela primeira vez em 2001 trabalho de William S. Cleveland "Ciência de Dados: Um Plano de Ação para Expandir as Áreas Técnicas dos Campos de Estatísticas", porém seus fundamentos já eram distutidos durante as décadas anteriores. A ciência de dados combina as áreas de estatística, computação, inteligência de negócios e tem como objetivo de colocar um olhar diferente nos dados para obter "insights" e poder tomar decisões mais acertivas do negócio. Os ciêntistas de dados usam diversas técnicas e ferramentas, mas antes de mostrar algumas delas vou dar uma visão mais geral citando alguns exemplos mais conhecidos.

De modo mais genérico um cientista de dados pega uns dados e aplicando seu método ciêntifico para tentar enxergar algo que não era possível ver antes. Um exemplo muito citado nas aulas e livros, é o caso de Abraham Wald, um matemático húngaro para a RAF - Royal Air Force na segunda guerra mundial (muito antes da ciência de dados existir oficialmente). Seu trabalho consistia em fazer uma análise estátistica dos buracos de bala nos bombardeiros que voltavam da guerra para que os mecânicos pudessem reforçar essas regiões a fim de evitar maiores perdas de aviões. Com base em informações visuais dos buracos de balas nos aviões a RAF pensou de forma óbvia em reforçar as regiões com maior número de buracos. Ao entregar o relatório final, Wald foi na contra-mão e sugeriu que as blindagens fossem colocadas nas regiões com menor número de buracos. Apontando uma falha crítica na análise Wald percebeu que os militares estavam esquecendo que seus dados não incluiam os aviões abatidos por inimigos, ou seja, os buracos analisados não derrubavam seus aviões e nas regiões onde faltavam dados era exatamente as regiões mais críticas.

Outro caso muito conhecido, porém alguns dizem que é apócrifo (há muita divergência nas histórias sobre data e local), é o famoso caso das fraldas e cerveja. A lenda diz que em 1997 uma grande varejista (Wal-Mart?) decidiu combinar os dados de seus clientes frequentes com os dados operacionais dos pontos-de-vendas. O primeiro sistema forneceu dados demográficos de seus clientes e o segundo sistemas dava os dados de quando, onde e o que era comprado. Após forem combinados, várias correlações foram encontrados, algumas óbvias como quem compra Gin também compra água com gás e limões, porém encontraram uma correlação inusitada: no final da sexta feira quem comprava fraldas também comprava cerveja, provavelmente era o horário que os pais saiam para comprar fraldas e aproveitavam para comprar cerveja. Após isso a Wal-Mart começou a posicionar a cerveja perto das fraldas para aumentar as vendas.

Dizem que se a versão é melhor que ao fato, que publique-se a versão. Parece que esse é um dos caos, porém a verdadeira história é menos empolgante que a real. Segundo Daniel Power (no link das referências), 1992 uma equipe do grupo de consultoria Teradata realizaram uma análise de 1,2 milhões de registros de cestas de compras de 25 lojas da Osco Drugs. Após realizar algumas consultas para tentar descobrir correlações perceberam que entre 17h e 19h os consumidores compravam fraldas e cervejas. Apesar de terem descoberto isso os gerentes não aproximaram as cervejas das fraldas para aumentar as vendas (mas sim, poderiam ter feito isso). Técnicas como Market Basket Analysis tentam encontrar correlação de cesta de compra, onde quem compra produto A e B também compra produto C, então se alguém colocar produto A e B na cesta já aparece a propaganda oferecendo o produto C.

Outro caso que ilustra o tema é o conhecido como "a vaca não é quadrada". Na indústria de couros do Rio Grande do Sul, o aproveitamento do recorte do couro da vaca é um dos problemas de produção pois como a "vaca não é quadrada" acabam sobrando muito retalhos não aproveitados. Normalmente a indústria conseguia ter um aproveitamente entre 75% a 80% do couro, sendo o restante disperdiçado. Porém um senhor no interior do RS (acho que em Bento Golçalves) que trabalhava a décadas na manufatura de couros conseguia obter cerca de 95% de aproveitamento. Um grupo de cientistas da computação foi então ao encontro do senhor para tentar entender como ele trabalhava e poder criar um algoritmo que pudesse fazer a otimização do corte de couro. Nas primeiras entrevistas o senhor, mostrando seu método de trabalho, começou a realizar os cortes da melhor maneira. Ao terminar, o grupo perguntou como ele tinha conseguir obter esse aproveitamento, e o senhor respondeu: "É simples, basta olhar." Para o senhor, que tinha décadas de experiência era fácil enxergar, porém nem ele conseguia explicar com palavra aquele conhecimento que ele adquiriu empiricamente. Foram necessário vários encontros para que o grupo finalmente conseguisse entender o procedimento e "enxergar" o melhor aproveitamento do processo.

Como vimos pelos exemplos, a ciência de dados é uma área interdiciplinar que abrange as áreas de tecnologia, mamemátie e inteligência de negócios, e usa o método ciêntífico para entender, coletar, tratar, explorar, análisar e visualizar conjuntos de dados para obter insights antes impossíveis de ser obtidos. Irei detalhar e aprofundar cada uma dessas etapas da ciência de dados em futuros posts.

Até lá.

Fontes:

https://portaldatascience.com/importancia-da-estatistica-na-guerra/

https://www.theregister.com/2006/08/15/beer_diapers/

http://www.dssresources.com/newsletters/66.php

segunda-feira, 8 de maio de 2023

Por que o DeLorean precisa estar à 88mph para viajar no tempo????

Apesar dos erros de ciência e de roteiro, é impossível negar que o filme De Volta para o Futuro é um dos grandes clássicos da ficção científica. Durante a trilogia, Doc Brown nunca nos explicou o motivo pelo qual o DeLorean precisa estar a 88 milhas por hora para poder viajar no tempo. Para poder explicar e mostrar os cálculos primeiramente precisamos entender como funciona a teoria da viagem no tempo usada no filme. Existem várias teorias que falam da possibilidade de viajar no tempo, irei pincelar algumas delas.

Mas começarei a teoria errada (ou quase errada). Quando eu estava no segundo grau um professor de matemática (talvez seja por isso o erro) explicou como funcionava a viagem no tempo em que o filme se baseava. E fazendo um movimento com um giz da lousa (saudades dos anos 90) em direção ao seu rosto ele explicou que, imaginando que o giz é uma onda de luz que refletiu num objeto e se dirige à nossa retina, se nós acelerássemos à velocidade da luz estaríamos exatamente acompanhando aquela onda de luz e assim tudo ficaria parado (foi com este raciocínio que Einstein criou a teoria da relatividade) e o tempo pararia para essa pessoa.

Se dermos um passo mais à frente na imaginação e acelerássemos mais que a velacidade da luz, ultrapassando-a, iríamos simplesmente voltar no tempo. Caso resolvessemos parar o tempo voltaria ao normal e todas ondas de luz que passamos iriam passar por nós novamente, revendo todo o passado. Essa não é a teoria usada no filme pois nesse caso de viagem do tempo nós só poderíamos rever o passado mas não interagir com ele, pois não estaremos em contato com a matéria mas somente recebendo suas ondas de luz novamente. E o ponto crucial é que, pela teoria da relatividade do Einstein, nada pode viajar mais rápido que a luz.

Albert Einsten e Kurt Gödel discutiram sobre a possibilidade da viagem no tempo através da rotação do universo (pretendo fazer um post sobre isso em breve). Outro teoria sobre viagem no tempo é a do Buraco Negro, que supostamente conecta à outra parte de universo em um Buraco Branco, ou seja, tudo que cai num Buraco Negro é cuspido pelo Buraco Branco em outro canto distante do universo. Caso acelerássemos um dos buracos à velocidade da luz o tempo iria diminuir para ele mas continuaria passando normal para o buraco parado criando uma distância temporal. Porém essa teoria funcionaria para apenas a partir do momento que os buracos fossem colocados em movimento, impossibilitando viagem para um tempo anterior.

Já no filme a teoria da viagem no tempo é a do Buraco de Minhoca, onde o espaço-tempo é dobrado criando um atalho entre o ponto A e B. É como se pegasse uma folha de papel com os pontos A e B nas extremidades opostas e dobrasse a folha aproximando os pontos. Qualque objeto que passase por um buraco esteria exposto à temperaturas extremamente baixas, próximas do zero absoluto (-273°C), por isso o DeLorean fica gelado após a viagem.

Buracos de minhocas necessitam de muita energia para serem criados (por isso o plutônio e o raio da torre) e são altamente instáveis, durando apenas uma fração de segundo. E é esse o motivo do DeLorean necessitar estar à 88mph. Acompanhe o cálculo abaixo:

88mph x 1,6 = 140,8 K/h

140,8 K/h ÷ 3,6 = 39,0 m/s

Ou seja, 88mph é igual a 140 K/h que é igual a 40 m/s aproximadamente, então a cada segundo o DeLorean move 40 metros. Já que o buraco de minhoca é instável e dura apenas uma fração de segundo, aproximadamente 0,1segundos então 40 m/s ÷ 0,1s = 4 metros, que é exatamente o comprimento de um DeLorean (e da maioria dos carros comuns). Então 88mph é a velocidade mínima necessária para que o DeLorean passe com os seus 4 metros de comprimento pelo buraco de minhoca em 0,1 segundo. Caso não atinga essa velocidade o buraco fechará e cortará o carro ao meio.

terça-feira, 2 de maio de 2023

Algoritmos de Destruição em Massa

Bom, para a retomada da nova versão do blog começo com o excelente livro "Algoritmo de Destruição em Massa", da autora Cathy O'Neil. Confesso que antes de ler tinha um certo receio de o tema fosse abordado de um modo terrorista (tentando assustar essa nova ciência) ou conspiracionista, porém não acontece isso. Sempre que ela mostra os riscos do uso do algoritmos é embasado com informação de quem tem anos de experiência na área.

Com Ph.D em Matemática pela Harvard, Cathy O'Neil largou a carreira acadêmica para entrar no mercado financeiro. Seu primeiro livro, Doing Data Science, tem uma abordagem mais didática sobre ciência de dados. Já no best seller ADM ela usa uma visão mercadológica do tema, mostrando suas aplicações e implicações. Inicio então abordando a silga ADM, que se ajusta tanto ao título da tradução (Algoritmo de Destruição em Massa) quando à tradução literal do título original (Armas de Destruição Matemática).

O livro dividido em capítulos, onde cada capítulo (tirando os dois primeiros que são introdutórios) é focado em um mercado (financeiro, educação, seguros, publicidade, justiça, seleção profissional, vida cívica e trabalho), iniciando sempre com uma explanação de como as ADMs funcionam em cada um desses mercados os prós e contras (foco sempre nos contras) desse uso. Os contras geralmente são os mesmos: as ADMs são enviesadas (nem todas), sempre favorecendo os que já são favorecidos e desfavorecendo os que mais precisam. Os vieses tem diversas origens, podendo ser pela região geográfica do indivíduo, ou por sua origem, posição social, etc.

Porém a grande conclusão do livro (****CONTÉM SPOILER - CASO NÃO QUEIRA PULE ESTE PARÁGRAFO****) é que as ADMs que são enviesadas são pelos mesmos motivos: opacidade, escala e dano. Opacidade ou falta de transparência pois essas ADMS são como uma caixa preta, fechada, onde não conseguimos entender como funcionam. Dados entram e cospem um resultado, mas como ninguém sabe ela chegou nesse resultado (somente a empresa que criou, porém não se importam muito com isso). Isso impede em entender quando uma ADM cometeu um erro e ,principalmente, poder ser corrigir. Juntandos essa opacidade e incapacidade de corrigir os erros, e aplicando em larga escala, o dano está feito.

Em cada capítulo então ela mostra como essa opacidade contribuem para os vieses das ADMs, dando vários exemplos ocorridos no território norte americano (porém se aplica a outras regiões), e exemplificando também casos em que ADMs abertas (não opacas) funcionam perfeitamente, onde é possível entender como funcionam, o porquê do resultado gerado, e corrigindo caso encontrado algum problema.

Por que ler este livro? Primeiramente para entender o que é e como funcionam as ADMs; para saber o que uma dieta única nacional tem a ver com ADMs; o que é o fechabrir (clopening); como as ADMs são responsáveis pela polarização nas redes sociais; como filtros de spam podem ser reorganizados para identificar o vírus da AIDS; o que é frenologia; a SKYNET está próxima?; e principalmente para poder fugir (quando possível) dos vieses da ADMs.

Marcadores