Disciplina “Introdução à Ciência de Dados”

No segundo semestre de 2017 será oferecida, pela primeira vez na UFPel, a disciplina Introdução à Ciência de Dados. Esta disciplina tem como objetivo introduzir os principais conceitos, técnicas e ferramentas da Ciência de Dados, focando em aplicações, desafios e soluções da indústria. Interessados em cursar devem observar os pré-requisitos abaixo. Por ser a primeira edição da disciplina, alterações pontuais durante sua execução são esperadas.


Introdução à Ciência de Dados

Objetivos: introduzir os principais conceitos, técnicas e ferramentas da Ciência de Dados, focando em aplicações, desafios e soluções da indústria.

Ementa: conceitos principais; obtenção e preparação de dados; principais ferramentas; exploração de dados; visualização de dados; modelagem de dados; análise de redes; big data.

Pré-requisitos: Python será a linguagem de preferência e utilizada em exemplos e aplicações durante as aulas e conhecimentos de programação são importantes para o bom acompanhamento da disciplina. Conhecimentos básicos de estatística são necessários (distribuição normal, médias, medidas de variância). O material de apoio é exclusivamente em inglês.

Desenvolvimento: exposição teórica do conteúdo seguido de aplicações práticas em laboratório. Leituras, exercícios e trabalhos extra-classe a cada semana. Avaliação através de projetos desenvolvidos durante a disciplina.

Bibliografia: a disciplina não possui livro texto. Conteúdos da web serão disponibilizados no ambiente virtual de aprendizagem. Os seguintes livros são utilizados como apoio:

  • GRUS, Joel. Data Science from Scratch: First Principles with Python. O’Reilly Media, 2015.
  • RASCHKA, Sebastian. Python Machine Learning. Packt Publishing, 2015.
  • RUSSELL, Matthew. Mining the Social Web. O’Reilly Media, 2013.
  • YAU, Nathan. Visualize This: The FlowingData Guide to Design, Visualization, and Statistics. Wiley, 2011.
  • NEWMAN, Mark. Networks: an Introduction. Oxford Press, 2010.

Carga-horária: 4 créditos (68 horas), dois encontros semanais.

Regente: Prof. Ricardo Matsumura Araújo

Programa

  1. Conceitos fundamentais
    1. Dado, Informação, Conhecimento
    2. O que é a Ciência de Dados?
    3. Exemplos de aplicações
  2. Ferramentas
    1. Python / Jupyter
    2. R
    3. Orange
    4. Tableau
  3. Obtenção e preparação de dados
    1. Crawlers, Scrapers, Spiders 
    2. Open Data
    3. Python Pandas
  4. Exploração de dados
    1. Estatística básica
    2. Exploração de uma e duas variáveis
    3. Teste de hipóteses
  5. Visualização de dados
    1. Técnicas básicas
    2. Dados multidimensionais e redução dimensional
  6. Modelagem de dados
    1. Agrupamento
    2. Modelos preditivos
  7. Análise de redes
  8. Big Data