bookget数字图书馆(古籍)下载工具
🏷️ bookget是Windows的命令行下载工具,支持下载国内外多家数字图书馆
🚨 来源
项目:https://github.com/deweizhu/bookget
🤡 用户手册
1. 支持的数字图书馆
- 中国国家图书馆
- 哈佛大学图书馆 或哈佛燕京图书馆藏
- 中国台北图书馆
- hathitrust数字图书馆
- 普林斯顿大学图书馆
- 日本京都大学图书馆
- 美国国会图书馆
- 日本国立国会图书馆
- 日本E国宝e-Museum
- 日本宫内厅书陵部
- 日本东京大学东洋文化研究所
- 中国香港中文大学图书馆
- 牛津大学博德利图书馆
- 日本国立公文书馆(内库文库)
- 日本东洋文库
- 日本早稻田大学图书馆
- 韩国国家图书馆 或开放数据
- 新日本古典籍综合数据库
- 德国柏林国立图书馆
- 日本京都大学人文科学研究所 - 东方学数字图书博物馆
- 英国图书馆(藏有手稿本)
- 中国香港科技大学图书馆
- 中国台北故宫博物院 – 善本古籍
- 日本国立历史民俗博物馆
- 日本本市立米泽图书馆
- 日本庆应义塾大学图书馆
- 日本关西大学图书馆
- 中国河南省洛阳市图书馆
- 中国浙江省温州市图书馆-瓯越记忆
- 巴伐利亚州立图书馆
- 斯坦福大学图书馆
- 中国广东省深圳市图书馆-古籍
- familysearch.org 中國族譜收藏 1239-2014年
familysearch.org 家譜圖像 - 中国广东省广州大典
2. 支持的数字图书馆URL格式
在urls.txt文件中,毎行一个URL,回车换行,可以有多个URL。 原则上,以你能在浏览器中【在线阅读】书籍正文的URL为下载地址
- 中国国家图书馆:
整书多册URL:http://read.nlc.cn/allSearch/searchDetail?searchType=1002&showType=1&indexName=data_892&fid=411999021002
或者单册URL:http://read.nlc.cn/OutOpenBook/OpenObjectBook?aid=403&bid=70621.0
- hathitrust 数字图书馆-图书单册URL
https://babel.hathitrust.org/cgi/pt?id=uc1.c087423515&view=1up&seq=1&skin=2021
- 哈佛大学图书馆-图书在线阅读(分享)URL
- 日本京东大学图书馆-图书在线阅读URL
- 日本京都大学人文科学研究所-图书在线阅读URL
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/toho/ShiSanJingZhuShu/html/A002menu.html
- 美国国会图书馆
注:中国大陆访问此网站需自备海外网络,免海外网络方法需要cookie.txt,方法参考:cookie.md
- 普林斯顿大学图书馆 – 图书在线阅读URL
https://catalog.princeton.edu/catalog/9940468523506421 https://dpul.princeton.edu/catalog/99915a8b423b596e47540e3feeee19b8
- 日本国立国会图书馆 – 部分图书在线阅读URL(其它的可以手动打印下载)
- 中国台北图书馆古典与特藏文献 –(白天很慢,可夜间或清晨下载)
- 日本E国宝 – 画册在线阅读URL(部分单图有误,暂未修复)
https://emuseum.nich.go.jp/detail?content_base_id=100168&content_part_id=009&langId=zh&webView=
- 日本宫内厅书陵部 – 图书在线阅读URL
https://db2.sido.keio.ac.jp/kanseki/T_bib_frame.php?id=006754
- 日本东京大学东洋文化研究所 汉籍善本 – 图书在线阅读URL
http://shanben.ioc.u-tokyo.ac.jp/main_p.php?nu=C5613401&order=rn_no&no=00870
- 中国香港中文大学图书馆 – 图书在线阅读URL(需自备海外网络,从海外访问)
https://repository.lib.cuhk.edu.hk/sc/item/cuhk-412225#page/1/mode/2up
- 牛津大学博德利图书馆 – 图书在线阅读URL
https://digital.bodleian.ox.ac.uk/objects/310cb04e-6bce-44e3-85b5-03417c9644a8/
- 日本国立公文书馆(内库文库) - 图书在线阅读URL
- 日本早稻田大学图书馆 – 图书在线阅读URL
日本东洋文库(丝绸之路项目) - 图书在线阅读URL
韩国国家图书馆 (必须参考pdf文档)
新日本古典籍综合数据库(必须参考pdf文档)
https://kotenseki.nijl.ac.jp/biblio/100270332/viewer/1 https://kotenseki.nijl.ac.jp/biblio/100270332
德国柏林图书馆URL
https://digital.staatsbibliothek-berlin.de/werkansicht?PPN=PPN3343671770 https://digital.staatsbibliothek-berlin.de/werkansicht?PPN=PPN3343671770&PHYSID=PHYS_0001
英国图书馆URL(只生成dezoomify-rs.urls文件,生成后,请双击它下载)
http://www.bl.uk/manuscripts/Viewer.aspx?ref=or_6814!1_fs001r
中国香港科技大学图书馆URL
日本国立历史民俗博物馆
单册URL: https://khirin-a.rekihaku.ac.jp/sohanshiki/h-172-1 https://khirin-a.rekihaku.ac.jp/sohanshiki/h-173-1
多册URL,使用和“批量下载”相同格式,但是无需修改config.ini中配置。 如:第1-9册,第10-90册。用圆括号包围数字。
https://khirin-a.rekihaku.ac.jp/sohanshiki/h-172-(1-90) https://khirin-a.rekihaku.ac.jp/sohankanjo/h-173-(1-61)日本本市立米泽图书馆
https://www.library.yonezawa.yamagata.jp/dg/AA001_view.html https://www.library.yonezawa.yamagata.jp/dg/AA002_view.html
日本庆应义塾大学图书馆
日本关西大学图书馆
https://www.iiif.ku-orcas.kansai-u.ac.jp/books/210185040#?page=1
中国河南省洛阳市图书馆
中国浙江省温州市图书馆 - 瓯越记忆(自动下载相关资源分卷分册)
https://oyjy.wzlib.cn/resource/?id=61e4c764505415b2e6921e5e https://oyjy.wzlib.cn/resource/?id=62c56bb357de1ef36b1f5614
巴伐利亚州立图书馆
斯坦福大学图书馆
中国广东省深圳市图书馆-古籍
https://yun.szlib.org.cn/stgj2021/srchshowbook?type=4&book_id=18269 https://yun.szlib.org.cn/stgj2021/srchshowbook?type=1&book_id=18017
familysearch.org 中國族譜收藏 1239-2014年
注:此站点需要cookie.txt,方法参考:cookie.mdhttps://www.familysearch.org/ark:/61903/3:1:3QS7-L9SM-C8KN?wc=3X27-MNY%3A1022211401%2C1021934502%2C1021937102%2C1021937602%2C1022419701&cc=1787988
https://www.familysearch.org/ark:/61903/3:1:3QS7-L9SM-CRG9?wc=3X2Q-BZ7%3A1022211401%2C1021934502%2C1021937102%2C1021937602%2C1022421801&cc=1787988https://www.familysearch.org/ark:/61903/3:1:3QS7-L9S9-WS92?view=explore&groupId=M94X-6HR
https://www.familysearch.org/records/images/image-details?rmsId=M94F-78D&jiapuOnly=true&surname=%E6%9C%B1&place=2013&showUnknown=true&page=1&pageSize=100&imageIndex=0中国广东省广州大典(http://gzdd.gzlib.gov.cn/Hrcanton/)
注:此站点需要cookie.txt,方法参考:cookie.mdhttp://gzdd.gzlib.gov.cn/Hrcanton/Search/ResultDetail?BookId=GZDD022601004
http://gzdd.gzlib.gov.cn/Hrcanton/Search/ResultSummary?bookid=GZDD022601004&filename=GZDD022601004#中国台北故宫博物院-善本古籍URL
3. IIIF自动检测
IIF是一种业界标准,凡使用此标准的网站,都有提供IIIF Manifest 链接,如哈佛大学、牛津大学等图书馆。适用性更广,理论上所有支持IIIF的图书馆都可以下载
使用方法
启用自动检测功能,需要在config.ini中找到 AutoDetect = 0 改为 2,保存文件。
AutoDetect = 2
设置为2以后,就关闭了内置支持的二十多个图书馆。用完以后,不要忘记再改为0。
复制包含IIIF Manifest链接的网页URL,或者直接复制IIIF Manifest的URL, 粘贴到urls.txt中保存,运行bookget即可自动检测识别。
如果检测成功,你会看到类似以下内容的提示。
2022/03/27 08:00:54 Auto Detect 0001 https://dcollections.lib.keio.ac.jp/ja/kanseki/110x-24-1
2022/03/27 08:00:55 Get 0001 https://dcollections.lib.keio.ac.jp/sites/default/files/iiif/KAN/110X-24-1/manifest.json
2022/03/27 08:00:56 A total of 46 pages.
2022/03/27 08:00:56 Save as D:\src\bookget\Downloads\book.110X-24-1\dezoomify-rs.urls.bat (5.38 KB)
2022/03/27 08:00:56 Get 0001 https://iiif.lib.keio.ac.jp/iipsrv/KAN/110X-24-1/tif/001.tif/full/full/0/default.jpg
附:已通过测试的URL如下 第一种:IIIF Manifest 的URL(推荐手动找URL)
https://iiif.lib.harvard.edu/manifests/drs:53262215
https://digicoll.lib.berkeley.edu/nanna/iiif/91514/manifest
https://khirin-a.rekihaku.ac.jp/iiif/rekihaku/H-173-1/manifest.json
https://khirin-a.rekihaku.ac.jp/manifests/sohan_shiki/H-172-01.json
https://dcollections.lib.keio.ac.jp/sites/default/files/iiif/KAN/110X-24-1/manifest.json
https://iiif.bodleian.ox.ac.uk/iiif/manifest/310cb04e-6bce-44e3-85b5-03417c9644a8.json
https://api.digitale-sammlungen.de/iiif/presentation/v2/bsb11129280/manifest
https://figgy.princeton.edu/concern/scanned_resources/e5313f5e-f2fc-4bdd-a894-7cffac271dfd/manifest
第二种:包含IIIF Manifest链接的网页URL
https://dcollections.lib.keio.ac.jp/ja/kanseki/110x-24-1
https://khirin-a.rekihaku.ac.jp/sohanshiki/h-172-1
https://khirin-a.rekihaku.ac.jp/sohankanjo/h-173-1
4. 通用批量下载(http/https链接)
因考虑到bookget不可能支持无穷数量的网站,特别提供通用批量下载功能。当然,这个功能在很多下载工具中都有了,
bookget只是提供自动生成 0001/0002这样的顺序下载,以保证批量下载时文件名不乱
使用方法:
启用此功能,需要在config.ini中找到 AutoDetect = 0 改为 1,保存文件。
AutoDetect = 1
设置为1以后,就关闭了内置支持的二十多个图书馆。用完以后,不要忘记再改为0。
例如: 第1页网址是
https://lbezone.ust.hk/obj/6/o/b1129168/ebook/pg00001.jpg
第2页网址是
…… 第84页网址是
那么,你可以在【urls.txt】文件中填写以下URL,即可下载全部84页。
https://lbezone.ust.hk/obj/6/o/b1129168/ebook/pg000(01-84).jpg
注解:支持(01-100) 、(1-100)、(001-100)等格式通配符写法。
如果你想下载第31-40页,可以使用以下URL
https://lbezone.ust.hk/obj/6/o/b1129168/ebook/pg000(31-40).jpg
如果你只想下载第1页,可以使用以下URL:
5. 高级:自定义用户cookie
部分网站下载,需要身份鉴权,可以在用户登录后复制浏览器中的cookie,给 bookget 创建 cookie.txt 模拟浏览器下载
🛠️ 实际操作
- 测试环境:Windows
打开 最新正式版网页, 下载匹配你操作系统的版本 (Windows, MacOS, 或 Linux)
🔸 下载:https://wwc.lanzoul.com/iVMIp099rc8b
解压缩到电脑中任意文件夹下。
以 Windows 用户为例,下载中国国家图书馆的书 —— 欽定古今圖書集成。
只需在urls.txt
文件中填写图书网址(以下简称URL),并保存文件。
如需批量下载多本图书,可以填写多行下载地址,每行一个URL
- 按 快捷键
Windows 图标 + R
打开运行
对话框 ,并输入CMD
- 如下图所示,找到 bookget.exe 拖拽到黑色窗口中,回车即可运行。
- 等待下载完成,程序会自动退出。请到
Downloads
目录下查看已下载文件。
注:ctrl + c 可终止下载任务
- 下载的文件