我用 Python 抓取了 7000 多本电子书

头两天神游网上，无意间发现个可以免费下载电子书的网站，一下子就勾起了我的收藏癖，心痒痒的要把这些书下载下来，正好前不久 requests的作者 kennethreitz 出了一个新库 requests-html ，它不仅可以请求网页，还可以解析 html 文档，话不多说，咱开始吧。
安装
安装很简单，只要执行：
pip install requests-html
就可以了。
分析页面结构
通过浏览器审查元素可以发现这个电子书网站是用 wordpress 搭建的，首页列表元素很简单，很规整，
所以我们可以查找 .entry-title > a获取所有图书详情页的链接，接着我们进入详情页，来寻找下载链接，由下图
可以发现 .download-links > a里的链接就是该书的下载链接，回到列表页可以发现该站一共 700 多页，由此我们便可以循环列表获取所有的下载链接。
requests-html 快速指南
发送一个 get 请求：
from requests_html import htmlsessionsession = htmlsession()r = session.get('.links# 会返回 {'//docs.python.org/3/tutorial/', '/about/apps/'}# 获取页面的所有的绝对链接：r.html.absolute_links# 会返回 {' # 获取 .about 的 htmlabout.find('a') # 获取 .about 下的所有 a 标签
构建代码
from requests_html import htmlsessionimport requestsimport timeimport jsonimport randomimport syssession = htmlsession()list_url = '.find('.entry-title a') # 获取页面所有图书详情链接 for link in all_link: getbookurl(link.attrs['href'])# 获取图书下载链接def getbookurl(url): response = session.get(url) l = response.html.find('.download-links a', first=true) if l is not none: # 运行后发现有的个别页面没有下载链接，这里加个判断 link = l.attrs['href']; download(link)#下载图书def download(url): # 随机浏览器 user-agent headers={ user-agent:random.choice(user_agents) } # 获取文件名 filename = url.split('/')[-1] # 如果 url 里包含 .pdf if .pdf in url: file = 'book/'+filename # 文件路径写死了，运行时当前目录必须有名 book 的文件夹 with open(file, 'wb') as f: print(正在下载 %s % filename) response = requests.get(url, stream=true, headers=headers) # 获取文件大小 total_length = response.headers.get('content-length') # 如果文件大小不存在，则直接写入返回的文本 if total_length is none: f.write(response.content) else: # 下载进度条 dl = 0 total_length = int(total_length) # 文件大小 for data in response.iter_content(chunk_size=4096): # 每次响应获取 4096 字节 dl += len(data) f.write(data) done = int(50 * dl / total_length) sys.stdout.write(\r[%s%s] % ('=' * done, ' ' * (50-done)) ) # 打印进度条 sys.stdout.flush() print(filename + '下载完成！')if __name__ == '__main__': #从这运行，应为知道列表总数，所以偷个懒直接开始循环 for x in range(1,756): print('当前页面: '+ str(x)) get_list(list_url+str(x))
运行效果：