Skip to content

dongyi1996/data-science-introduction-with-r

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

32 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Science Introduction with R logo

License Issues Netlify Status


简介 - Introduction

  1. 本项目是一套以 R 为分析语言的数据科学入门教程。
  2. 网站: https://ds-r.leovan.tech
  3. Git 仓库目录结构:
    • 一级目录为一个专题
    • 二级目录:
      • data: 数据文件目录,包含本节所需数据文件
      • notebooks: 练习笔记目录,包含本节使用的笔记
      • scripts: 代码脚本目录,包含本节所需的代码脚本
      • slides: 幻灯片目录,包含本节幻灯片的源代码
    • 幻灯片: 一级目录下的 PDF 文件即为本节课程的幻灯片
    • docs 目录: 包含配置手册等其他资料
  4. 本项目遵守 CC BY-NC-SA 4.0 协议。

准备 - Preparation

  1. 操作系统: Windows 10+ (x64),macOS 10.12+,Ubuntu 16.04+
  2. R: Microsoft R Open 最新版本 (下载地址,容易配置安装,自带 MKL 矩阵运算加速)
  3. RStudio: 最新 Preview 版本 (下载地址,Preview 版本有些新特性比较实用)
  4. Visual Studio Code: 最新版本 (下载地址,用于代码浏览和编辑)
  5. Python: 最新版本 Anaconda Python 3 (下载地址,用于 Jupyter 基础环境)
  6. Typora: 最新版本 (下载地址,用于 Markdown 浏览)
  7. nteract: 最新版本 (下载地址,Jupyter Notebook 桌面客户端)

数据科学简介 - Data Science Introduction

  1. 数据科学概念
    • 数据科学 (Data Science)
    • 数据产品 (Data Product)
    • 跨界
  2. 数据科学工具箱
    • 数据科学常用工具
    • 数据科学之战:R 和 Python
    • 为什么选择 R 语言
  3. 数据科学分工与流程
    • 数据科学分工
    • 数据分析和挖掘流程

R 语言简介 - R Language Introduction

  1. R 相关环境配置
  2. R 基础语法
  3. R 对象,函数和扩展包
  4. R 数据结构
  5. R 语言编码风格

数据分析基础 - Data Analytics Introduction

  1. 大神的工具箱
  2. R 基础数据处理
    • 文件读取和保存
    • 数据变换
    • apply 函数族及其扩展
  3. R 可视化
    • ggplot2
    • Plotly

统计分析基础 - Statistical Analytics Introduction

  1. 探索性分析
    • 描述性统计量
    • 常用分布
  2. 实验设计
    • 假设检验概念
    • 常用假设检验
  3. 线性回归
    • 一元线性回归
    • 多元线性回归
    • 广义线性回归
    • 最小二乘法与梯度下降

特征工程 - Feature Engineering

  1. 数据预处理
    • 数据清洗
    • 采样
  2. 特征变换和编码
    • 无量纲化
    • 离散化
    • 哑变量化
  3. 特征提取,选择和监控
    • 特征提取
    • 特征选择
    • 特征监控

模型评估 & 超参数优化 - Model Evaluation & Hyperparameter Optimization

  1. 模型性能评估
    • 回归问题
    • 分类问题
    • 聚类问题
  2. 模型生成和选择
    • 过拟合问题
    • 评估方法
    • 偏差和方差
  3. 超参数优化

分类算法 (上) - Classification Algorithms - Part 1

  1. 逻辑回归
  2. 决策树

分类算法 (下) - Classification Algorithms - Part 2

  1. Bagging
  2. Boosting
  3. Stacking

时间序列算法 - Time Series Algorithms

  1. 时间序列
  2. ARIMA 模型
  3. 季节性分析

聚类算法 - Clustering Algorithms

  1. K-means
  2. 层次聚类
  3. 基于密度的聚类

可重复性研究 - Reproducible Research

  1. Markdown
  2. R Markdown
  3. 报告和幻灯片
  4. R Notebook

其他算法 - Other Algorithms

  1. 自然语言处理
  2. 异常检测

About

R 语言数据科学导论 | Data Science Introduction with R

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 97.4%
  • JavaScript 1.8%
  • Other 0.8%