这是一个用于下载book118可预览文档的下载器(暂不支持ppt和收费才能预览的文件)。
该项目基于java开发,使用httpclient进行下载,使用itex进行pdf的生成。
-
下载链接 百度网盘
-
双击run.bat即可运行该软件,如果不能运行请检查是否已安装jre(Java Runtime Environment)。
-
文档编号是预览页链接中最后的数字如: https://max.book118.com/html/2017/0611/113657916.shtm ,文档编号就是113657916。
-
输入编好后需要获取下载链接,文件页数越多等待越长,请耐心等待,开始下载后会有进度提示。
-
下载完成的文件存放在out文件夹中。
做完没多久在freebuf看到有其他人的实现,做的没我好,所以自己也写了一篇,编辑答应帮我调格式我就没要稿费了。 《另一种绕过限制下载论文的思路》
该下载器的原理是通过模拟通过网页预览,获取文档的全部预览图片,然后将图片转换为pdf实现。
实现逻辑主要围绕网站的两个js函数展开,这两个函数在resources/temp.js中。 openFull用于获取预览起始页,getNextPage用于获取后面的页。通过这两个函数就可以获取到一个文档的全部预览图片的地址。