-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathtarefas_de_casa.qmd
135 lines (98 loc) · 4.92 KB
/
tarefas_de_casa.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
---
title: "Tarefas de casa"
lang: pt-br
---
Bem-vindo à página de tarefas de casa do curso! Aqui você
encontrará as tarefas de casa referentes a cada aula do curso,
juntamente com um link para o gabarito ao final.
As tarefas foram cuidadosamente selecionadas para ajudar você
a praticar e aplicar o conhecimento adquirido em cada aula,
e são uma parte importante do processo de aprendizado.
Certifique-se de completar todas as tarefas e utilizar o
gabarito para verificar suas respostas e entender qualquer
dúvida que possa ter.
Espero que você aproveite este recurso e
aprimore suas habilidades em R!
## Aula 1: R e RStudio
1. [Dê uma olhada no site do curso](https://brunomontezano.github.io/r-workshop/).
2. Crie um vetor de 1 a 25 e armazene em uma variável de nome
`sequencia` (lembre-se do operador `:`).
3. Crie um vetor de caractere de dois elementos com seu nome
e último nome (chamado `nome_completo`) e extraia seu
sobrenome usando `[]`.
4. Filtre a base `pixar_bilheteria` do pacote `dados`
e extraia apenas os filmes que tiveram orçamento menor que
100 milhões de dólares (lembre-se do `$`, do `<`, do `[]`
e da função `library()`).
[Acessar o gabarito.](gabaritos/1_r_e_rstudio/gabarito.html)
## Aula 2: Manipulação de dados
1. Escolha uma das bases de dados do pacote `dados` e utilize
ao menos uma vez as funções: `select()`, `mutate()`,
`filter()`, `arrange()`, `summarise()` e `group_by()` (as bases disponíveis podem ser acessadas no [site de referência do pacote](https://cienciadedatos.github.io/dados/reference/index.html)).
2. Nos dados `questionario` do pacote `dados`, crie um
subconjunto apenas com as observações do ano de 2014 e
armazene em um objeto chamado `dados_2014`.
[Acessar o gabarito.](gabaritos/2_manipulacao/gabarito.html)
## Aula 3: Visualização de dados
1. A partir dos dados `pinguins` do pacote `dados`, crie:
1. Um gráfico de pontos (dispersão)
2. Um box plot (variável numérica estratificada por
uma variável categórica)
3. Um histograma
2. Escolha um dos seus gráficos para ajustá-lo e deixá-lo
visualmente mais agradável. Isso pode incluir ajustar os
rótulos, tamanho da fonte, cores, adicionar título, e o
que mais você achar importante (lembre-se da função `labs()`
e família `theme_[estilo_do_tema]()`).
[Acessar o gabarito.](gabaritos/3_visualizacao/gabarito.html)
## Aula 4: Análise descritiva
A tarefa da Aula 4 deve ser realizada com os dados `pinguins`
do pacote `dados`.
1. Filtre a base para manter apenas as observações do ano de 2009.
2. Verifique se a variável `comprimento_bico` da base de
dados segue uma distribuição normal através de um histograma
e um teste de normalidade de Shapiro-Wilk.
3. Com a função `count()`, verifique a frequência da
variável `sexo` na base de dados.
4. Com a função `summarise()`, calcule a média, mediana e
desvio padrão da variável `comprimento_nadadeira`.
[Acessar o gabarito.](gabaritos/4_descritiva/gabarito.html)
## Aula 5: Inferência estatística
A partir da base dos `pinguins` do pacote `dados`:
1. Calcule a correlação produto momento de Pearson entre
o comprimento do bico e a profundidade do bico dos pinguins.
Crie um gráfico de pontos (dispersão) com `ggplot2` para
acompanhar sua análise exploratória.
2. Rode um teste *t* de duas amostras para verificar a
diferença na média do comprimento da nadadeira entre os
pinguins macho e fêmea.
Usando as funções `group_by()` e `summarise()` do pacote
`dplyr`, faça um resumo da média e da mediana dos
comprimentos das nadadeiras estratificando pelos grupos
(lembre-se que a base `pinguins` possui onze valores ausentes,
os conhecidos `NA`, na coluna do `sexo`).
3. Crie um modelo de ANOVA de uma via para verificar se
há diferenças na massa corporal dos pinguins baseado em
sua espécie.
Caso sim, rode um teste de Tukey para analisar quais
grupos diferenciam entre si.
[Acessar o gabarito.](gabaritos/5_inferencia/gabarito.html)
## Aula 6: Modelos de regressão
1. Ler Capítulo 8 do
[livro OpenIntro Statistics](https://www.openintro.org/book/os/)
sobre *Introduction to linear regression* (caso queira se
aprofundar, ler Capítulo 9 sobre
*Multiple and logistic regression*).
2. A partir dos dados `dados_iris` do pacote `dados`,
crie um modelo de regressão linear simples e um
modelo de regressão linear múltipla com as variáveis da
sua escolha (lembre-se que o desfecho deve ser contínuo,
ou seja, numérico).
3. Crie um gráfico de dispersão/pontos (*scatterplot*)
para acompanhar sua análise de regressão linear simples.
[Acessar o gabarito.](gabaritos/6_regressao/gabarito.html)
## Aula 7: Introdução ao aprendizado de máquina
* Dica de leitura: [An Introduction to Statistical Learning](https://www.statlearning.com/)
1. Rodar os códigos dos slides para tentar reproduzir o exemplo
- Lembre-se de instalar o pacote `tidymodels` caso não o tenha
[Acessar o gabarito.](gabaritos/7_intro_ml/gabarito.html)