versão online do programa disponível em https://github.com/leobarone/FLS6397/
1o de 2017
Leonardo S. Barone e Fernando Limongi
Segundas-feiras, no período da manhã, das 9h às 13h
a definir
8
O curso oferece aos estudantes de pós-graduação em ciências sociais uma iniciação à lógica de programação e ao uso de ferramentas computacionais para (1) coleta (2) organização e preparação e (3) apresentação de dados para pesquisa social. O foco do curso é o desenvolvimento da habilidade de programação para solução de problemas diversos relacionados ao manejo de dados com fins de pesquisa. Note-se que não é um curso de metodologia de pesquisa, análise de dados ou de ciências sociais computacionais.
Este curso pretende preencher uma lacuna de formação comum em alun@s de pós-graduação em ciências sociais referente à habilidade de lidar com dados e ferramentas computacionais para a condução de suas pesquisas.
O curso está dividido em duas partes. A primeira parte do curso foca na preparação do ambiente computacional, apresentação de ferramentas e "alfabetização" e nas linguagens de programação utilizadas no curso -- R, Git, SQL, Markdown, etc. A segunda parte foca em aplicações das habilidades desenvolvidas a problemas de manipulação de grandes bases de dados, coleta de dados na internet e via uso de APIs de terceiros, organização de documentos para análise textual, confecção de gráficos e mapas ou demais tópicos de interesse da turma. Os tópicos serão apresentadas definitivamente no syllabus no começo do semestre e abaixo segue uma lista provisória.
As aulas serão compostas por breves apresentações dos tópicos e por longos laboratórios, com tutoriais para auto-aprendizado e acompanhamento dos instrutores e assistentes. Espera-se que a turma pratique exaustivamente, dentro e fora de sala de aula, as técnicas aprendidas.
Na versão final do programa serão indicadas leituras para cada tópico. O material de estudo básico, entretanto serão os tutoriais preparados para cada aula.
As 3 atividades abaixo (originalmente de uma oficina oferecida no DCP) são exemplos de tutoriais para auto-aprendizado que comporiam uma aula (clique no link da atividade):
- [Atividade 1] (https://github.com/leobarone/Webscraping_R_XML_Legislativo_2016_1/blob/master/Atividade_1.Rmd)
- [Atividade 2] (https://github.com/leobarone/Webscraping_R_XML_Legislativo_2016_1/blob/master/Atividade_2.Rmd)
- [Atividade 3] (https://github.com/leobarone/Webscraping_R_XML_Legislativo_2016_1/blob/master/Atividade_3.Rmd)
A cada semana haverá um desafio correspondente ao tópico. Exemplos de desafios: (1) organizar automaticamente dados eleitorais a partir do repositório de dados do TSE; (2) elaborar um mapa com dados municipais a partir do DATASUS; (3) criar um corpus de notícias da internet; (4) abrir e organizar os dados do ENEM ou Censo Populacional. Os desafios exigirão dedicação extra-classe e são parte fundamental do curso.
Entre aulas, tutoriais e desafios, espera-se que cada alun@ dedique de 8h a 12h por semana à disciplina.
A avaliação é composta pela entrega dos desafios e de um projeto final de organização de dados. A atribuição de nota para os desafios e projetos entregues priorizará o esforço e engenhosidade apresentados (leia-se "código com erros, mas bem elaborado") em detrimento da finalização do desafio (leia-se "código funcionando plenamente") como forma de encorajar estudantes iniciantes.
Não é necessário nenhum conhecimento prévio de programação, pacotes estatísticos ou manejo de conjuntos de dados. O curso é recomendado para tanto alun@s que já têm alguma noção quanto para estudantes que morrem de medo de computadores. O objetivo é criar um ambiente confortável para o aprendizado de técnicas programação, independentemente da habilidade d@s inscrit@s, e seguindo todos os passos desde a preparação do ambiente de computação até a apresentação de resultados.
É recomendado que @s alun@s inscrit@s já tenham concluído ou esteja cursando algum curso de métodos de pesquisa (de qualquer abordagem) ou de análise de dados, seja do programa ou da IPSA Summer School. É um curso adequado para estudantes em qualquer etapa do mestrado ou doutorado, desde que tenham disponibilidade para realizar as atividades extra-classe.
Estudantes do DCP-USP que podem se matricular regularmente não serão aceit@s como ouvintes.
A ser definina em breve.
- Básico da Programação em R
- Estruturas de dados e manipulação de bases em R
- Tabelas e Gráficos em R
- SQL e dados volumosos
- Git básico
- Markdown básico
- LaTex básico
- Captura de dados na internet
- Textos, corpus e processamento de linguagem natural
- Mapas e GIS
- Redes e grafos
- Jones, O., Maillardet, R., & Robinson, A. (2009). Introduction to Scientific Programming and Simulation Using R (1 edition). Boca Raton, FL: Chapman and Hall/CRC.
- Makhabel, B. (2015). Learning Data Mining with R. Packt Publishing Ltd.
- Munzert, S., Rubba, C., MeiBner, P., & Nyhuis, D. (2014). Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. John Wiley & Sons.
- Nolan, D., & Lang, D. T. (2013). XML and Web Technologies for Data Sciences with R. Springer Science & Business Media.
- Teetor, P. (2011). R Cookbook: Proven Recipes for Data Analysis, Statistics, and Graphics. O’Reilly Media, Inc.
- Wickham, Hadley. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2009.
- Wickham, Hadley and Francois, Romain (2016). dplyr: A Grammar of Data Manipulation. R package version 0.5.0. https://CRAN.R-project.org/package=dplyr
- Zuur, A., Ieno, E. N., & Meesters, E. (2009). A Beginner’s Guide to R (2009 edition). Dordrecht.; New York: Springer.
- Barone, Leonardo Sangali, Aslan, Alexia and McDonnell, Robert Myles (2016). bRasilLegis: R Tools for Brazilian Chamber of Deputies (Camara Dos Deputados) Data. R package version 1.0. https://CRAN.R-project.org/package=bRasilLegis
- Ingo Feinerer and Kurt Hornik (2015). tm: Text Mining Package. R package version 0.6-2. https://CRAN.R-project.org/package=tm
- Duncan Temple Lang and the CRAN Team (2016). XML: Tools for Parsing and Generating XML Within R and S-Plus. R package version 3.98-1.4. https://CRAN.R-project.org/package=XML