上海交通大学有一个硕士博士学位论文系统,里面有所有的硕士博士学位论文,但是由于其网站速度非常慢(论文拆分成一张一张图片),经常打开的时候挂了,严重影响体验。所以写了这么一个批量下载某个专业所有硕士或者博士学位论文的小工具。
说是为了版权保护,反正使用体验像屎一样。
项目地址:https://github.com/olixu/SJTU_Thesis_Crawler
解决方案:
使用PyMuPDF
对图片进行合并
安装依赖:
1 |
|
使用方式:
1 |
|
ToDo List
如何解决
thesis.lib.sjtu.edu.cn
限制访问次数的问题引入协程,提高并发(以前试过,不过由于网站太慢了,并行就崩了),多进程的版本可以看commit
改进交互能力及已存在的bug