version2:
- base on framework
scrapy
- 爬取拼多多所有的商品信息
- python2
- 多代理
scrapy
- 在
proxy.py
里填入自己的代理ip的api地址 - 在
mongo_db.py
配置一下本地MongoDB数据库的信息 - 根据自己的代理、网络带宽、主机性能等情况修改
settings.py
中的并发请求数CONCURRENT_REQUESTS
- 进入到
pdd_spider_v2
目录下 - 先爬取所有二级、三级分类信息
scrapy crawl category_infos
- 爬取所有商品分类信息
scrapy crawl goods
- 爬取分类信息(一级-二级)
- MongoDB入库
- 入分类信息
- 爬取某一级分类下的所有商品信息
- 入库-入商品信息
- 入库-入offset_num信息
- 修改成scrapy框架
- 优化代码
- 减少页面的爬取
- 2018.8.4 18:16:
- goods num : 4312
- 2018.8.10 18:16:
- goods num : 20414
- 2018.8.31 18:16:
- goods num : 70w+
you can send email to me : NTI5ODgzNDA5QHFxLmNvbQ==