Skip to content

Commit

Permalink
release v1.0.0
Browse files Browse the repository at this point in the history
  • Loading branch information
leovan committed Jan 10, 2021
1 parent 4bb2dab commit 5e69e8d
Show file tree
Hide file tree
Showing 86 changed files with 13,835 additions and 9,978 deletions.
1 change: 1 addition & 0 deletions .gitattributes
Original file line number Diff line number Diff line change
@@ -1 +1,2 @@
*.pdf filter=lfs diff=lfs merge=lfs -text
*.psd filter=lfs diff=lfs merge=lfs -text
19 changes: 15 additions & 4 deletions .gitignore
Original file line number Diff line number Diff line change
Expand Up @@ -6,12 +6,23 @@
# vscode
.vscode

# Python
.ipynb_checkpoints

# system
.DS_Store
*.log
*.dump

# slides source
/*/Slides/*
!/*/Slides/*.Rmd
!/*/Slides/images/
# base
base/fonts

# slide source
/*/slide/*_cache
/*/slide/*_files
/*/slide/libs
/*/slide/generated
/*/slide/*.html

# others
*.h5
94 changes: 60 additions & 34 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,46 +1,57 @@
# Data Science Introduction with R <img src="docs/images/web/data-science-introduction-with-r.png" align="right" alt="logo" height = "100" style = "border: none; float: right;">

[![License](https://img.shields.io/badge/license-CC%20BY--NC--SA%204.0-blue.svg)](LICENSE)
![Release](https://img.shields.io/github/release/leovan/data-science-introduction-with-r.svg)
![License](https://img.shields.io/badge/license-CC%20BY--NC--SA%204.0-blue.svg)
![Issues](https://img.shields.io/github/issues/leovan/data-science-introduction-with-r.svg)
[![Netlify Status](https://img.shields.io/netlify/22768c1a-8369-4035-b090-0cd0a0ad39af)](https://app.netlify.com/sites/ds-r/deploys)
![Netlify Status](https://img.shields.io/netlify/22768c1a-8369-4035-b090-0cd0a0ad39af)

---

## 简介 - Introduction

1. 本项目是一套以 R 为分析语言的数据科学入门教程。
2. 网站: https://ds-r.leovan.tech
2. 托管网站: https://ds-r.leovan.tech
3. Git 仓库目录结构:
- 一级目录为一个专题
- 二级目录:
- data: 数据文件目录,包含本节所需数据文件
- notebooks: 练习笔记目录,包含本节使用的笔记
- scripts: 代码脚本目录,包含本节所需的代码脚本
- slides: 幻灯片目录,包含本节幻灯片的源代码
- 幻灯片: 一级目录下的 PDF 文件即为本节课程的幻灯片
- docs 目录: 包含配置手册等其他资料
- base 目录:幻灯片相关配置文件
- docs 目录:其他资料
- 其他一级目录:
- 二级目录:
- *.pdf:本节课程幻灯片
- data:本节课程所需数据文件
- slide:本节课程幻灯片源代码
4. 本项目遵守 [CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) 协议。

## 准备 - Preparation

1. 操作系统: Windows 10+ (x64),macOS 10.12+,Ubuntu 16.04+
2. R: Microsoft R Open 最新版本 ([下载地址](https://mran.microsoft.com/download/),容易配置安装,自带 MKL 矩阵运算加速)
2. R 最新版本 ([下载地址](https://cloud.r-project.org/))
3. RStudio: 最新 Preview 版本 ([下载地址](https://www.rstudio.com/products/rstudio/download/preview/),Preview 版本有些新特性比较实用)
4. Visual Studio Code: 最新版本 ([下载地址](https://code.visualstudio.com/),用于代码浏览和编辑)
5. Python: 最新版本 Anaconda Python 3 ([下载地址](https://www.anaconda.com/download/),用于 Jupyter 基础环境)
6. Typora: 最新版本 ([下载地址](http://typora.io),用于 Markdown 浏览)
7. nteract: 最新版本 ([下载地址](https://nteract.io/),Jupyter Notebook 桌面客户端)
6. Visual Studio Code: 最新版本 ([下载地址](https://code.visualstudio.com/),用于代码浏览和编辑)
7. Typora: 最新版本 ([下载地址](http://typora.io),用于 Markdown 浏览)

## 参考书籍 - Reference

1. 《R语言实战》(R in Action),Robert I. Kabacoff 著,王小宁、刘撷芯、黄俊文 等 译
2. 《R数据科学》(R for Data Science),Hadley Wickham & Garrett Grolemund 著,陈光欣 译
3. 《高级R语言编程指南》(Advanced R),Hadley Wickham 著,潘文捷、许金炜、李洪成 译
4. 《基于R语言的机器学习》(Introduction to Machine Learning with R),Scott V. Burger 著,马晶慧 译
5. 《机器学习与R语言》(Machine Learning with R),Brett Lantz 著,李洪成、许金炜、李舰译 译
6. 《统计学习方法》李航 著
7. 《机器学习》周志华 著
8. 《深度学习》(Deep Learning),Ian Goodfellow, Yoshua Bengio & Aaron Courville 著,赵申剑、黎彧君、符天凡、李凯 译

## 数据科学简介 - Data Science Introduction

1. 数据科学概念
- 数据科学 (Data Science)
- 数据产品 (Data Product)
- 数据科学
- 数据产品
- 跨界
2. 数据科学工具箱
- 数据科学常用工具
- 数据科学之战:R 和 Python
- 为什么选择 R 语言
- 选择哪种语言
3. 数据科学分工与流程
- 数据科学分工
- 数据分析和挖掘流程
Expand All @@ -53,16 +64,23 @@
4. R 数据结构
5. R 语言编码风格

## 数据分析基础 - Data Analytics Introduction
## 数据分析基础 (上) - Data Analytics Introduction - Part 1

1. 大神的工具箱
2. R 基础数据处理
- 文件读取和保存
- 数据变换
- apply 函数族及其扩展
3. R 可视化
- ggplot2
- Plotly
2. 数据导入和导出
3. 数据转换和规整

## 数据分析基础 (下) - Data Analytics Introduction - Part 2

1. 关系数据处理
2. 不同类型数据处理
3. 函数式编程

## 数据可视化 - Data Visualization

1. 数据可视化
2. ggplot2
3. 基于 Web 的绘图库

## 统计分析基础 - Statistical Analytics Introduction

Expand All @@ -82,10 +100,11 @@

1. 数据预处理
- 数据清洗
- 采样
- 缺失值,重复值,异常值处理
- 数据采样,数据集分割
2. 特征变换和编码
- 无量纲化
- 离散化
- 分箱
- 哑变量化
3. 特征提取,选择和监控
- 特征提取
Expand All @@ -103,6 +122,9 @@
- 评估方法
- 偏差和方差
3. 超参数优化
- 搜索算法
- 进化和群体算法
- 贝叶斯优化

## 分类算法 (上) - Classification Algorithms - Part 1

Expand All @@ -120,6 +142,7 @@
1. 时间序列
2. ARIMA 模型
3. 季节性分析
4. Prophet

## 聚类算法 - Clustering Algorithms

Expand All @@ -129,12 +152,15 @@

## 可重复性研究 - Reproducible Research

1. Markdown
2. R Markdown
3. 报告和幻灯片
4. R Notebook
1. 可重复性研究
2. Markdown
3. R Markdown
4. Jupyter
5. 版本控制

## 其他算法 - Other Algorithms
## 深度学习算法 - Deep Learning Algorithms

1. 自然语言处理
2. 异常检测
1. 人工神经网络
2. 卷积神经网络
3. 循环神经网络
4. 深度学习框架
1 change: 1 addition & 0 deletions _redirects
Original file line number Diff line number Diff line change
@@ -1,2 +1,3 @@
# Netlify
https://ds-r.netlify.com/* https://ds-r.leovan.tech/:splat 301!
https://ds-r.netlify.app/* https://ds-r.leovan.tech/:splat 301!
Loading

0 comments on commit 5e69e8d

Please sign in to comment.