O que fazem os cientistas de dados?
Para responder para que serve a ciência de dados, vamos entender o que fazem os cientistas de dados, o texto abaixo é uma compilação e tradução de algumas entrevistas com cientistas de dados.
“Construí um motor de recomendação quando fazia parte de uma grande organização e trabalhei com diversos tipos de engenheiros e representantes de diferentes partes do problema. este é um dos que mais me agradou porque no fim das contas, cheguei a uma solução muito simples que é de fácil compreensão para todos, de executivos a engenheiros e desenvolvedores. Enfim, foi tão eficiente como algo realmente complexo, e eles poderiam ter gasto muito mais tempo.” (Stephen Sherman – Professor Assistente no Curso de Ciência da Computação da Universidade de Houston)
“Lá na universidade, tínhamos um problema onde precisávamos prever florações de algas. Estas florações de algas podem causar um aumento na toxidade da água e pode causar problemas para as companhias de tratamento de água. Nós não conseguíamos prever utilizando nosso conhecimento em engenharia química. Então usamos redes neurais artificiais para prever quando estas florações irão ocorrer. Assim as companhias de tratamento de água poderiam melhorar o controle desse problema.” (Rafael Belo da Silva – Data Specialist Consultant)
“Em Toronto, o trânsito é operado pela Toronto Transit Commission. Nós a chamamos de TTC. É uma das maiores autoridades de trânsito na região, na América do Norte. E um dia eles me contactaram e disseram, “Temos um problema.” E eu disse, “OK, qual é o problema?” Eles disseram, “Bem, nós temos dados de reclamações que gostaríamos de analisar e precisamos da sua ajuda.” Disse, “Que bom, ficaria muito feliz em poder ajudar.” Então perguntei, “Quantas reclamações vocês têm?” Eles responderam, “Um pouco.” Eu disse, “Quantas?” Talvez meio milhão. Respondi, “Bem, vamos começar a trabalhá-las.”
Então obtive os dados e comecei a analisá-los. Basicamente, eles fizeram um grande trabalho armazenando alguns dados em formato tabulado outros eram não-estruturados. E neste caso, os dados tabulados eram quando a reclamação chegou, quem a recebeu, qual o tipo de reclamação, se foi resolvida, quem era o responsável. E a parte não-estruturada era trocas de e-mails e faxes. Então, imagine olhar para meio milhão de trocas de e-mails e tentar obter algumas respostas disso. Então comecei a trabalhar esses dados. A primeira coisa que procurei saber era por que as pessoas reclamavam e se havia algum padrão ou se havia dias onde haviam mais reclamações que outros? E olhei para os dados e o analisei em diversos formatos, e não conseguia encontrar o ímpeto para que as reclamações fossem maiores em determinados dias e menores em outros. E isso se prolongou por um mês ou quase isso.
E então, um dia eu estava saindo de um ônibus em Toronto, e ainda estava pensando sobre isso. saí sem olhar para o chão, e pisei em uma poça, uma poça d’água. E agora meu tornozelo estava mergulhado nágua, era uma pé molhado e outro seco. E eu fiquei extremamente irritado. Estava caminhando novamente e de repente aquilo me pegou, E eu disse, “Bem, espere um minuto. Hoje choveu inesperadamente, e não estava preparado para isso. Foi por isso que me molhei, e não estava prevenido.” E se houvesse uma relação entre clima extremo e o tipo de reclamações que a TTC recebeu? Então fui até o site ambiental do Canadá, e obtive os dados sobre chuva e precipitação, vento e luminosidade.
E então, encontrei algo muito interessante. Os 10 maiores dias com excessivas reclamações. Os 10 dias quando as pessoas mais reclamavam eram os dias onde o clima estava ruim. Era uma chuva inesperada, queda extrema de temperatura, muita neve, um dia com muita ventania. Então voltei para os executivos da TTC e disse, “Tenho boas e más noticias.” A boa noticia é, sei porquê as pessoas reclamariam excessivamente em determinados dias. Sei quais as razões para isso. A má noticia é, não há nada que possam fazer a esse respeito.” (Murtaza Haider – Professor Associado da Ted Rogers School of Management Ryerson University)