- 本项目是一套以 R 为分析语言的数据科学入门教程。
- 网站: https://ds-r.leovan.tech
- Git 仓库目录结构:
- 一级目录为一个专题
- 二级目录:
- data: 数据文件目录,包含本节所需数据文件
- notebooks: 练习笔记目录,包含本节使用的笔记
- scripts: 代码脚本目录,包含本节所需的代码脚本
- slides: 幻灯片目录,包含本节幻灯片的源代码
- 幻灯片: 一级目录下的 PDF 文件即为本节课程的幻灯片
- docs 目录: 包含配置手册等其他资料
- 本项目遵守 CC BY-NC-SA 4.0 协议。
- 操作系统: Windows 10+ (x64),macOS 10.12+,Ubuntu 16.04+
- R: Microsoft R Open 最新版本 (下载地址,容易配置安装,自带 MKL 矩阵运算加速)
- RStudio: 最新 Preview 版本 (下载地址,Preview 版本有些新特性比较实用)
- Visual Studio Code: 最新版本 (下载地址,用于代码浏览和编辑)
- Python: 最新版本 Anaconda Python 3 (下载地址,用于 Jupyter 基础环境)
- Typora: 最新版本 (下载地址,用于 Markdown 浏览)
- nteract: 最新版本 (下载地址,Jupyter Notebook 桌面客户端)
- 数据科学概念
- 数据科学 (Data Science)
- 数据产品 (Data Product)
- 跨界
- 数据科学工具箱
- 数据科学常用工具
- 数据科学之战:R 和 Python
- 为什么选择 R 语言
- 数据科学分工与流程
- 数据科学分工
- 数据分析和挖掘流程
- R 相关环境配置
- R 基础语法
- R 对象,函数和扩展包
- R 数据结构
- R 语言编码风格
- 大神的工具箱
- R 基础数据处理
- 文件读取和保存
- 数据变换
- apply 函数族及其扩展
- R 可视化
- ggplot2
- Plotly
- 探索性分析
- 描述性统计量
- 常用分布
- 实验设计
- 假设检验概念
- 常用假设检验
- 线性回归
- 一元线性回归
- 多元线性回归
- 广义线性回归
- 最小二乘法与梯度下降
- 数据预处理
- 数据清洗
- 采样
- 特征变换和编码
- 无量纲化
- 离散化
- 哑变量化
- 特征提取,选择和监控
- 特征提取
- 特征选择
- 特征监控
- 模型性能评估
- 回归问题
- 分类问题
- 聚类问题
- 模型生成和选择
- 过拟合问题
- 评估方法
- 偏差和方差
- 超参数优化
- 逻辑回归
- 决策树
- Bagging
- Boosting
- Stacking
- 时间序列
- ARIMA 模型
- 季节性分析
- K-means
- 层次聚类
- 基于密度的聚类
- Markdown
- R Markdown
- 报告和幻灯片
- R Notebook
- 自然语言处理
- 异常检测