quinta-feira, 12 de outubro de 2023

O caso dos dados astrômicos, Tycho Brahe e Johannes Kepler

     Dois modelos de mundo dividiram opiniões por séculos: modelo Ptolomaico e o Modelo Copernicano. O modelo Ptolomaico foi formulado por Claudius Ptolomeu no final do séc I d.C., onde explica o movimento dos astros conhecidos na época tendo a Terra como o centro e o Sol, a Lua, os planetas e as estrelas girando em torno da Terra em esferas específicas. Já o modelo Copernicano, teve início com um astrônomo grego Aristarco de Samos, por volta do séc III a.C., sendo refinado matemáticamente por Copérnico em 1543, onde o Sol se posiciona no centro e a Terra e os planetas girando em volta do Sol. Durante todos esses séculos os dois modelos disputaram apoiadores, sendo que a Igreja Católica adoto o modelo Ptolomaico por este ser mais fiel às escrituras sagradas.

    Se o sistema héliocentrico já era conhecido antes de Cristo, por quê houve essa disputa durante séculos entre os dois sistemas?  Um dos principais fatores desta questão ter durado séculos eram os dados. Ou melhor, nesse caso os dados coletados até então eram imprecisos. As ferramentas para medir dados astronômicos até o final da idade média eram muitos precários, fazendo com que os dados tivessem uma alta incerteza, e assim poderiam ser "ajustados" facilmente em qualquer um dos dois modelos.

    Para termos uma ideia, a incerteza das medições astronômica na época medieval era de dezenas de minutos de graus. Para entender essa unidade é necessário "dividir" toda a abóboda celeste por 360 (já que a volta completa é 360°). Cada grau é dividido por 60, o que dá os minutos de graus, e fazendo o mesmo para segundos. A lua ocupa no céu 1/2 grau, ou seja, 30 minutos de grau. Então a incerteza dos instrumentos medievais chegavam quase ao diâmetro da lua, o que é bem grande (atualmente a incerteza está abaixo de 0,1 segundos de arco).

    E foi aí que, no início da renascença, surgiu um astrônomo decidido a acabar com esse problema. O astrônomo dinamarquês Tycho Brahe dedicou sua vida à construir os melhores e mais acurados equipamentos astronômicos, e coletar a maior quantidade possível de dados das posições dos astros por um grande período. Ele realizou observações detalhadas e precisas das posições dos planetas e de outras estrelas ao longo de quase de 20 anos. Tycho Brahe era Geocentrista e achava que com seus dados precisos ele iria finalmente conseguir provar que era o sol que girava em torno da Terra, e não o oposto. Infelizmente (ou felizmente, dependendo do ponto de vista), Tycho faleceu antes de ver o resultado de seus dados.

    Para poder entender o que seus dados diziam, Tycho precisou contratar um matemático para realizar os cálculos de sua imensa quantidade de dados coletados. Então ele contratou um hábil matemático chamado Johannes Kepler (sim, apesar dele ser conhecido por suas leis da astronomia, Kepler era matemático e não um astrônomo) para realisar essa árdua tarefa. Pouco tempo após a contratação Tycho veio a falecer deixando o jovem Kepler com seus dados coletados por 20 anos, e Kepler começou então a tarefa de cálcular as órbitas dos astros e decidir que modelo eles se encaixavam.

    Após muito tempo (e muitos cálculos) Kepler viu que eles não se encaixavam no modelo Geocentrico de Ptolomeu. Porém o modelo de Copérnico também não se encaixou perfeitamente nos dados calculados, foram necessários alguns ajustes no modelo de Copérnico (como alterar as órbitas circulares para elípticas) para que o modelo ajustasse com os dados observados.

    Esse caso ilustra a importância da precisão e qualidade dos dados coletados, e como dados ruins podem gerar resultados ruins (obviamente). E tão obvio quanto é que todos os passos da ciência de dados são igualmente impotantes, cada etapa do processo científico, incluindo a coleta, análise e interpretação de dados, desempenha um papel crítico na obtenção de resultados confiáveis. Qualquer descuido em uma das fases poderá (e irá) influenciar no resultado final.


quarta-feira, 2 de agosto de 2023

A Floresta Sombria


     O segundo livro da trilogia O Problema dos 3 Corpos chama-se A Floresta Sombria. Porém não vou aqui falar sobre o livro (ainda não terminei de ler) mas vou falar sobre o conceito da floresta sombria. E para podermos entender sobre o conceito de floresta sombria terei que falar um pouco sobre a Equação de Drake e a pergunta do físico italiano Enrico Fermi, conhecida como Paradoxo de Fermi.


    A Equação de Drake, formulada em 1961, é uma equação probabilística para estimar o número de civilizações extraterrestes que poderíamos nos comunicar, ou seja, civilizações que tiveram evolução tecnológica suficiente para podemos manter uma comuniação. Para termos uma ideia nós só atingimos tal nível no final do séc. XIX, quando a humanidade inventou o rádio.  

 


    Acima temos a Equação de Drake, mas antes de explicar cada termo preciso lembrar que muitas das taxas não são conhecidas com precisão. N é o número total de civilizações que poderíamos ter contato. O primeiro termo, R* é a taxa de formação de estrelas da galáxia, fp é a fração dessas estrelas que possuem planetas em sua órbita, ne é o número médio de planetas com potencial para possuir vida, fl é a fração dos planetas com potencial que realmente desenvolvem vida, fi é a fração que desenvolve vida inteligente, fc é a fração dessas civilizações que desenvolvem tecnologia e querem se comunicar e L é o tempo de vida dessas civilizações.

    Como disse antes muitas dessas taxas não são conhecidas, podemos apenas comparar (e esperar) que sejam próximas com o nosso sistema solar. E foi exatamente isso que Drake fez. Baseado em suas pesquisas ele colocou em sua fórmula os seguintes valores: para R* estimou 1/ano, fp estimado entre 0,2 e 0,5, ne entre 1 e 5, fl estimado em 1, fi estimado em 1, fc em 0,1 e 0,2 e L entre 1000 a 100.000.000 de anos. Os valores de R*, fp e ne são conhecidos pelas pesquisas ciêntíficas, os valore de fp atualmente é maior, pois já foram descobertos muito mais exoplanetas que se estimava em 1961. Drake afirmou que devido às incertezas que N varia entre 1.000 e 100.000.000 de civilizações na galáxia.

    Onde eles estão? Foi a pergunta feita pelo físico italiano Enrico Fermi, em seu Paradoxo de Fermi, sobre a contradição entre as altas probabilidades estimadas para a possibilidades de vida extraterreste e a falta de evidências concretas (ou de contato) dessas civilizações.

    Isso aconteceria devido à floresta sombria. Assim como numa floresta a noite está cheia de vida mas é silenciosa pois nenhum ser vivo lá que emitir barulho e virar jantar de um predador, a galáxia também estaria cheia de vida extraterrestre mas nenhuma delas quer dar algum sinal evitando que outra civilização venha a exterminá-lá. No final do livro o autor explica esse conceito, juntamente com o conceito de Sociologia Cósmica (criado pelo autor) onde usando os conceitos sociológicos estudados, extrapola para um ambiente galático (similar à Astrobiologia).

    Mas claro, a resposta para o Paradoxo pode residir também nas grandes distâncias estelares, o que dificulta muito essa busca. No próprio livro, onde a civilização extraterreste encontra-se casualmente na estrela mais próximo (próxima centauri), que está a 4,2 anos-luz de distâncian já dá pra sentir o quanto é longe e complicado. Porém isso já seria assunto para outro post.

    Até breve


quarta-feira, 26 de julho de 2023

O que é ciência de dados?

    Um dos termos da moda hoje em dia, considerado a profissão mais "sexy" do século XXI e que mais tem crescido nos últimos anos, a ciência de dados ainda é um grande mistério para o grande público. Muitas dúvidas sobre os tema e confusões entre data science, data analytics, data engineering e diversas subáreas. Então o que é cada um desses termos?

    A ciência de dados é uma área de estudos relativamente nova. Esse termo foi usado pela primeira vez em 2001 trabalho de William S. Cleveland "Ciência de Dados: Um Plano de Ação para Expandir as Áreas Técnicas dos Campos de Estatísticas", porém seus fundamentos já eram distutidos durante as décadas anteriores. A ciência de dados combina as áreas de estatística, computação, inteligência de negócios e tem como objetivo de colocar um olhar diferente nos dados para obter "insights" e poder tomar decisões mais acertivas do negócio. Os ciêntistas de dados usam diversas técnicas e ferramentas, mas antes de mostrar algumas delas vou dar uma visão mais geral citando alguns exemplos mais conhecidos.

    De modo mais genérico um cientista de dados pega uns dados e aplicando seu método ciêntifico para tentar enxergar algo que não era possível ver antes. Um exemplo muito citado nas aulas e livros, é o caso de Abraham Wald, um matemático húngaro para a RAF - Royal Air Force na segunda guerra mundial (muito antes da ciência de dados existir oficialmente). Seu trabalho consistia em fazer uma análise estátistica dos buracos de bala nos bombardeiros que voltavam da guerra para que os mecânicos pudessem reforçar essas regiões a fim de evitar maiores perdas de aviões. Com base em informações visuais dos buracos de balas nos aviões a RAF pensou de forma óbvia em reforçar as regiões com maior número de buracos. Ao entregar o relatório final, Wald foi na contra-mão e sugeriu que as blindagens fossem colocadas nas regiões com menor número de buracos. Apontando uma falha crítica na análise Wald percebeu que os militares estavam esquecendo que seus dados não incluiam os aviões abatidos por inimigos, ou seja, os buracos analisados não derrubavam seus aviões e nas regiões onde faltavam dados era exatamente as regiões mais críticas.

    Outro caso muito conhecido, porém alguns dizem que é apócrifo (há muita divergência nas histórias sobre data e local), é o famoso caso das fraldas e cerveja. A lenda diz que em 1997 uma grande varejista (Wal-Mart?) decidiu combinar os dados de seus clientes frequentes com os dados operacionais dos pontos-de-vendas. O primeiro sistema forneceu dados demográficos de seus clientes e o segundo sistemas dava os dados de quando, onde e o que era comprado. Após forem combinados, várias correlações foram encontrados, algumas óbvias como quem compra Gin também compra água com gás e limões, porém encontraram uma correlação inusitada: no final da sexta feira quem comprava fraldas também comprava cerveja, provavelmente era o horário que os pais saiam para comprar fraldas e aproveitavam para comprar cerveja. Após isso a Wal-Mart começou a posicionar a cerveja perto das fraldas para aumentar as vendas.

    Dizem que se a versão é melhor que ao fato, que publique-se a versão. Parece que esse é um dos caos, porém a verdadeira história é menos empolgante que a real. Segundo Daniel Power (no link das referências), 1992 uma equipe do grupo de consultoria Teradata realizaram uma análise de 1,2 milhões de registros de cestas de compras de 25 lojas da Osco Drugs. Após realizar algumas consultas para tentar descobrir correlações perceberam que entre 17h e 19h os consumidores compravam fraldas e cervejas. Apesar de terem descoberto isso os gerentes não aproximaram as cervejas das fraldas para aumentar as vendas (mas sim, poderiam ter feito isso). Técnicas como Market Basket Analysis tentam encontrar correlação de cesta de compra, onde quem compra produto A e B também compra produto C, então se alguém colocar produto A e B na cesta já aparece a propaganda oferecendo o produto C.

    Outro caso que ilustra o tema é o conhecido como "a vaca não é quadrada". Na indústria de couros do Rio Grande do Sul, o aproveitamento do recorte do couro da vaca é um dos problemas de produção pois como a "vaca não é quadrada" acabam sobrando muito retalhos não aproveitados. Normalmente a indústria conseguia ter um aproveitamente entre 75% a 80% do couro, sendo o restante disperdiçado. Porém um senhor no interior do RS (acho que em Bento Golçalves) que trabalhava a décadas na manufatura de couros conseguia obter cerca de 95% de aproveitamento. Um grupo de cientistas da computação foi então ao encontro do senhor para tentar entender como ele trabalhava e poder criar um algoritmo que pudesse fazer a otimização do corte de couro. Nas primeiras entrevistas o senhor, mostrando seu método de trabalho, começou a realizar os cortes da melhor maneira. Ao terminar, o grupo perguntou como ele tinha conseguir obter esse aproveitamento, e o senhor respondeu: "É simples, basta olhar." Para o senhor, que tinha décadas de experiência era fácil enxergar, porém nem ele conseguia explicar com palavra aquele conhecimento que ele adquiriu empiricamente. Foram necessário vários encontros para que o grupo finalmente conseguisse entender o procedimento e "enxergar" o melhor aproveitamento do processo.

 

    Como vimos pelos exemplos, a ciência de dados é uma área interdiciplinar que abrange as áreas de tecnologia, mamemátie e inteligência de negócios, e usa o método ciêntífico para entender, coletar, tratar, explorar, análisar  e visualizar conjuntos de dados para obter insights antes impossíveis de ser obtidos. Irei detalhar e aprofundar cada uma dessas etapas da ciência de dados em futuros posts.

Até lá.

 

Fontes:

https://portaldatascience.com/importancia-da-estatistica-na-guerra/

https://www.theregister.com/2006/08/15/beer_diapers/

http://www.dssresources.com/newsletters/66.php

segunda-feira, 8 de maio de 2023

Por que o DeLorean precisa estar à 88mph para viajar no tempo????


     Apesar dos erros de ciência e de roteiro, é impossível negar que o filme De Volta para o Futuro é um dos grandes clássicos da ficção científica. Durante a trilogia, Doc Brown nunca nos explicou o motivo pelo qual o DeLorean precisa estar a 88 milhas por hora para poder viajar no tempo. Para poder explicar e mostrar os cálculos primeiramente precisamos entender como funciona a teoria da viagem no tempo usada no filme. Existem várias teorias que falam da possibilidade de viajar no tempo, irei pincelar algumas delas.

    Mas começarei a teoria errada (ou quase errada). Quando eu estava no segundo grau um professor de matemática (talvez seja por isso o erro) explicou como funcionava a viagem no tempo em que o filme se baseava. E fazendo um movimento com um giz da lousa (saudades dos anos 90) em direção ao seu rosto ele explicou que, imaginando que o giz é uma onda de luz que refletiu num objeto e se dirige à nossa retina, se nós acelerássemos à velocidade da luz estaríamos exatamente acompanhando aquela onda de luz e assim tudo ficaria parado (foi com este raciocínio que Einstein criou a teoria da relatividade) e o tempo pararia para essa pessoa.

    Se dermos um passo mais à frente na imaginação e acelerássemos mais que a velacidade da luz, ultrapassando-a, iríamos simplesmente voltar no tempo. Caso resolvessemos parar o tempo voltaria ao normal e todas ondas de luz que passamos iriam passar por nós novamente, revendo todo o passado. Essa não é a teoria usada no filme pois nesse caso de viagem do tempo nós só poderíamos rever o passado mas não interagir com ele, pois não estaremos em contato com a matéria mas somente recebendo suas ondas de luz novamente. E o ponto crucial é que, pela teoria da relatividade do Einstein, nada pode viajar mais rápido que a luz.

    Albert Einsten e Kurt Gödel discutiram sobre a possibilidade da viagem no tempo através da rotação do universo (pretendo fazer um post sobre isso em breve). Outro teoria sobre viagem no tempo é a do Buraco Negro, que supostamente conecta à outra parte de universo em um Buraco Branco, ou seja, tudo que cai num Buraco Negro é cuspido pelo Buraco Branco em outro canto distante do universo. Caso acelerássemos um dos buracos à velocidade da luz o tempo iria diminuir para ele mas continuaria passando normal para o buraco parado criando uma distância temporal. Porém essa teoria funcionaria para apenas a partir do momento que os buracos fossem colocados em movimento, impossibilitando viagem para um tempo anterior.

    Já no filme a teoria da viagem no tempo é a do Buraco de Minhoca, onde o espaço-tempo é dobrado criando um atalho entre o ponto A e B. É como se pegasse uma folha de papel com os pontos A e B nas extremidades opostas e dobrasse a folha aproximando os pontos. Qualque objeto que passase por um buraco esteria exposto à temperaturas extremamente baixas, próximas do zero absoluto (-273°C), por isso o DeLorean fica gelado após a viagem.

    Buracos de minhocas necessitam de muita energia para serem criados (por isso o plutônio e o raio da torre) e são altamente instáveis, durando apenas uma fração de segundo. E é esse o motivo do DeLorean necessitar estar à 88mph. Acompanhe o cálculo abaixo:

    88mph x 1,6 = 140,8 K/h

    140,8 K/h ÷ 3,6 = 39,0 m/s

    Ou seja, 88mph é igual a 140 K/h que é igual a 40 m/s aproximadamente, então a cada segundo o DeLorean move 40 metros. Já que o buraco de minhoca é instável e dura apenas uma fração de segundo, aproximadamente 0,1segundos então 40 m/s ÷ 0,1s = 4 metros, que é exatamente o comprimento de um DeLorean (e da maioria dos carros comuns). Então 88mph é a velocidade mínima necessária para que o DeLorean passe com os seus 4 metros de comprimento pelo buraco de minhoca em 0,1 segundo. Caso não atinga essa velocidade o buraco fechará e cortará o carro ao meio.

terça-feira, 2 de maio de 2023

Algoritmos de Destruição em Massa


    Bom, para a retomada da nova versão do blog começo com o excelente livro "Algoritmo de Destruição em Massa", da autora Cathy O'Neil. Confesso que antes de ler tinha um certo receio de o tema fosse abordado de um modo terrorista (tentando assustar essa nova ciência) ou conspiracionista, porém não acontece isso. Sempre que ela mostra os riscos do uso do algoritmos é embasado com informação de quem tem anos de experiência na área.

    Com Ph.D em Matemática pela Harvard, Cathy O'Neil largou a carreira acadêmica para entrar no mercado financeiro. Seu primeiro livro, Doing Data Science, tem uma abordagem mais didática sobre ciência de dados. Já  no best seller ADM ela usa uma visão mercadológica do tema, mostrando suas aplicações e implicações. Inicio então abordando a silga ADM, que se ajusta tanto ao título da tradução (Algoritmo de Destruição em Massa) quando à tradução literal do título original (Armas de Destruição Matemática).

    O livro dividido em capítulos, onde cada capítulo (tirando os dois primeiros que são introdutórios) é focado em um mercado (financeiro, educação, seguros, publicidade, justiça, seleção profissional, vida cívica e trabalho), iniciando sempre com uma explanação de como as ADMs funcionam em cada um desses mercados os prós e contras (foco sempre nos contras) desse uso. Os contras geralmente são os mesmos: as ADMs são enviesadas (nem todas), sempre favorecendo os que já são favorecidos e desfavorecendo os que mais precisam. Os vieses tem diversas origens, podendo ser pela região geográfica do indivíduo, ou por sua origem, posição social, etc.

    Porém a grande conclusão do livro (****CONTÉM SPOILER - CASO NÃO QUEIRA PULE ESTE PARÁGRAFO****) é que as ADMs que são enviesadas são pelos mesmos motivos: opacidade, escala e dano. Opacidade ou falta de transparência pois essas ADMS são como uma caixa preta, fechada, onde não conseguimos entender como funcionam. Dados entram e cospem um resultado, mas como ninguém sabe ela chegou nesse resultado (somente a empresa que criou, porém não se importam muito com isso). Isso impede em entender quando uma ADM cometeu um erro e ,principalmente, poder ser corrigir. Juntandos essa opacidade e incapacidade de corrigir os erros, e aplicando em larga escala, o dano está feito.

    Em cada capítulo então ela mostra como essa opacidade contribuem para os vieses das ADMs, dando vários exemplos ocorridos no território norte americano (porém se aplica a outras regiões), e exemplificando também casos em que ADMs abertas (não opacas) funcionam perfeitamente, onde é possível entender como funcionam, o porquê do resultado gerado, e corrigindo caso encontrado algum problema.

    Por que ler este livro?  Primeiramente para entender o que é e como funcionam as ADMs; para saber o que uma dieta única nacional tem a ver com ADMs; o que é o fechabrir (clopening); como as ADMs são responsáveis pela polarização nas redes sociais; como filtros de spam podem ser reorganizados para identificar o vírus da AIDS; o que é frenologia; a SKYNET está próxima?; e principalmente para poder fugir (quando possível) dos vieses da ADMs.

Versão 2.0

 Olá doidinhos!!!!!

Após alguns anos de sumiço (devido a TCC, pós, iniciação científica, segunda graduação e diversas outras atividades) resolvi retomar o projeto e aproveitar então para atualizar a cara do site e dos assuntos. Com a finalização da minha pós em ciência de dados resolvi utilizar este meu canal para poder divulgar mais sobre ciência de dados (usarei o termo mais abrangente de ciência de dados mas quando necessário usarei os termos mais específicos das subáreas), mas também manterei e atualizarei os temas antigos que sempre gostei.

Quem se lembra do início do blog, criei com o objetivo de escrever sobre livros de divulgação científica que tinha lido, e fui agregando outros assuntos como biografia, filmes, humor, curiosidades e outros. Na verdade o objetivo principal do blog era exercitar a minha escrita, que sempre foi meu ponto fraco. Como a cara antiga do blog, era o Homem Vitruviano, então nada mais justo que na atualização seja o "Homem Vitruviano Matrix" (porém não abordarei aqui temas de "red pill/blue pill" e outras conspirações relacionadas ao filme).

Apesar de estar retornando a escrever aqui, minha rotina continua intensa (trabalho, graduação e iniciação científica), então certamente não conseguirei postar com tanta frequência quanto gostaria, mas me esforçarei para manter o blog atualizado.

Espero que apreciem lendo assim como aprecio escrevendo.