博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第一课 爬虫基础
阅读量:4685 次
发布时间:2019-06-09

本文共 1480 字,大约阅读时间需要 4 分钟。

 一、小说下载

小说网址是:http://www.biqukan.com

import requestsfrom bs4 import BeautifulSoupclass downloader(object):        def __init__(self):        self.url = 'http://www.biqukan.com/1_1408/'        self.serve = 'http://www.biqukan.com'        self.page_url = []        self.page_name = []     #获取每个章节的链接和章节名字    def get_page_url(self):        html = requests.get(self.url)        soup = BeautifulSoup(html.text,'lxml')        url_list = soup.find_all('div',class_="listmain")        url_list = BeautifulSoup(str(url_list[0]))        a = url_list.find_all('a')        for each in a[12:]:            self.page_url.append(self.serve + each.get('href'))            self.page_name.append(each.string)      #小说页面的内容    def get_html(self,url):        html = requests.get(url)        soup = BeautifulSoup(html.text,'lxml')        content = soup.find_all('div',class_="showtxt")        content = content[0].text        content = content.replace('
','\n\n') return content #写入txt文件中 def writer(self,path,name,text): with open(path,'a',encoding='utf-8') as f: f.write(name+'\n') f.write(text) f.write('\n\n') if __name__ == '__main__': dl = downloader() #实例化类 dl.get_page_url() #运行获取章节名称,url的函数 name = dl.page_name #获取到的章节名称和url赋值给name,url url = dl.page_url for i in range(len(name)): dl.writer('小说.txt',name[i],dl.get_html(url[i]))

 

转载于:https://www.cnblogs.com/slowlyslowly/p/8651082.html

你可能感兴趣的文章
正则表达式(笔记)
查看>>
中山大学2007级硕士研究生泛函分析考试题
查看>>
[Everyday Mathematics]20150114
查看>>
linux进程篇 (三) 进程间的通信1 管道通信
查看>>
mysql清表数据
查看>>
.NET Core微服务之基于Polly+AspectCore实现熔断与降级机制
查看>>
1 Acid burn ★ Nag,Name/Serial,Serial
查看>>
DELL服务器iDRAC相关设置
查看>>
Vue实例详解与生命周期
查看>>
8-21收集不错的帖子汇总
查看>>
模块化的理解
查看>>
JVM探索之Class文件结构解析
查看>>
Firebug
查看>>
团体程序设计天梯赛-练习集L2-003. 月饼
查看>>
通过反射找到并执行方法
查看>>
Modelsim SE仿真---库的添加
查看>>
网站列目录问题
查看>>
30个电商主题界面设计示例
查看>>
技术简报 2014-1-30
查看>>
EXCLE 导入 或 导出
查看>>