使用 Requests 请求 HTML 页面内容,使用 BeautifulSoup4 提取“豆瓣电影 Top250”电影元数据和每部电影的最新评论,并按电影分别保存 JSON。
.\.venv\Scripts\python.exe -m pip install -r requirements.txt如果需要爬取登录后才能访问的评论页,可以二选一:
- 在
douban_movie_scraper/config.py中填写:
DOUBAN_COOKIE = "你的豆瓣 Cookie"- 运行时传入:
.\.venv\Scripts\python.exe main.py --cookie "你的豆瓣 Cookie"爬取 Top 10 电影,每部电影前 2 页最新评论:
.\.venv\Scripts\python.exe main.py --top-m 10 --pages 2最新评论默认使用 --comment-sort time,如需改成豆瓣的其他排序参数,可以通过 --comment-sort 指定。
输出目录默认为 data/douban_movie_top250。每部电影单独保存为 {movie_id}.json,同时生成 movies_index.json 方便可视化云服务整体读取。
单部电影 JSON 格式:
{
"movie_id": "1292052",
"movie_title": "肖申克的救赎",
"movie_rating": 9.7,
"comment_list": [
{
"movie_comment_cid": "123456",
"movie_comment_timestamp": 1710000000,
"movie_comment_rating": 5,
"movie_comment_content": "评论内容"
}
]
}部分评论没有评分字段,默认使用 --rating-strategy drop 删除该评论。也可以使用:
--rating-strategy zero:缺失评分填充为0--rating-strategy none:保留为null