python学习笔记基础学习笔记

admin 2023-07-26 10:35:40 举报

python学习笔记基础学习笔记

描述：

1.某子网站的爬虫只实现了一个页面。已经是凌晨两点了，又饿又困。先睡觉，明天再写总结！

2.我明天，我来写总结！

3.该网站的结构如下：

python学习笔记基础学习笔记

主页：

首页-第1页-漫画1封面-漫画1地址-漫画2封面-漫画2地址-漫画3封面-漫画4封面-漫画5地址-第2页-漫画1封面-漫画1地址-漫画2封面-漫画2地址-漫画3封面-漫画3地址-漫画4封面-漫画4地址

点击漫画封面后：

漫画1-页1-图片地址1-页2-图片地址2-页3-页4-页n-图片地址n

4.首先获取首页的html，因为上半部分和侧边栏有一些推荐的漫画，不需要，所以处理html，只保留主漫画的html代码。

5.定期匹配首页html，获取每个封面漫画的名称和地址。名字用来命名文件夹，地址用来打开每个漫画，得到每个漫画的html。

6.遍历首页所有封面漫画，定期匹配每幅漫画的html，得到第一幅图片的总页数(数组)和真实地址(数组)，其中需要从真实地址中提取两个数。

7.开始新建一个文件夹，跳转到这个文件夹(记得下载每个文件夹的图片后跳转到上面的文件夹，否则会一直创建子文件夹，导致目录过深，系统报错)

8.遍历总页数，拼接每张漫画每张图片的真实地址，下载到当前创建的文件夹。同时，检查下载进度(正在下载的页面的名称和数量)

9.遍历后，返回上级目录。

注意：

1.如果要添加退出功能，只能通过任务管理器关闭。我和REPL一起经营。如果它是空闲的，它可以直接关闭。但是，我想按esc退出。不知道能不能实现。

2.现在只是首页第一页，后面还需要下载更多的页面。给定一个参数n，下载n页。

3.组织成功能。

45#获取漫画网首页HTML 6 URL=' http://www.yaoqmh.net/shaonvwanhua/list _ 4 _ 1 . HTML ' 7标题={ '用户代理' : ' Mozilla/5.0(Windows NT 6.1；WOW64RV :23.0)Gecko/20100101 Firefox/23.0 ' }

8 req=URL lib . request . request(URL=URL，标头=标头)

9 response=URL lib . request . URL open(URL)

10html=response.read()。解码(' utf-8 ')

11#处理html，只保留中间笔记本，不要用12startNum=html.find('mainleft ')做侧边和顶边笔记本

13endNum=html.find('mainright ')

14 html=html[startnum : endnum]

151617#从html获取这个子编号。名称18 # a href='/shanvmanhua/8389 . html ' class=' picshow ' title=' Lifan H ' target=' _ blank ' span class=' Bt ' Lifan H '中少女漫画的发情关系/span class=' BG '/spangmgclass=' scrolling ' src=' http://pic.taov5.com/1/615/183-1.jpg' xsrc=' http://pic.taov5.com/1/615/183-1.jpg' alt=' Lifan H '少女漫画宽度='150 '高度=' 185 '/a19 # 20 #width=' 150 ' height=' 185 ' 21 RegBookNum=r ' href='/shanon manhua/(\ d)\ 0。html''22regName=r'title='(。)‘’23 booknums=re . findall(regBookNum，html)

24 bookname=re . findall(RegName，html)

25 # print(booknums)26 # print(bookname)2728 #打开每个子页面，获取总页数。第一张图片的网址是29#imgalt='日班H少女漫画的发情期' src=' http://pic.taov5.com/1/615/143.jpg' 30 for

31urlBook=' http://www . Yao qmh . net/shaonvnmanhua/' bookNums[I]'。html ' 32 ReqBook=urllib . request . request(URL=urlBook，headers=headers)

33 response book=URL lib . request . URL open(req book)

34 html book=response bok . read()。解码(' utf-8 ')

35 regpagenums=r魏冄(\d)-什么3330 ' 36 regimgstart 1=r ' http://pic \。TAV 5 .com/1/(\ d)/(d)？\ .jpg ' 37 regimgstart 2=r ' http://pic \。TAV 5 .com/1/\d？/\ d？)\ .jpg ' 38 pagenums=re。findall(regpagenums，htmlBook)#阿金，范仲淹？范仲淹，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是，我的意思是39 img start 1=re。find all(regimstart 1，htmlBook)#喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，findall菲兰达40 img start 2=re。find all(regim start 2，htmlBook)#喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂，喂41#朱庇特朱庇特朱庇特阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹，你是说.朱庇特？朱庇特？朱庇特！42os . mkdir(bookname[I])#康瑞金康瑞金43 OS . chdir(BookName[I])贺盛瑞是贺盛瑞44#喂喂喂喂喂喂喂喂！4546#喂喂喂喂喂喂喂喂47rangeMin=int(imgStart2[0])

48范围max=int(img start 2[0])int(页码[0])

49页码=int(页码[0])

50 #打印(最小范围)51 #打印(最大范围)52 #打印(最小范围)53 #阿盛瑞阿盛瑞阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡阿贡，你是说.54print('阿云：'书名(一)#云娥？云娥55 forjinrange(页码):

56 urlimg=' http://pic。TAV 5。com/1/' img start 1[0]/' str(range min j)" .jpg ' 57 req img=URL lib。请求。请求(URL=URL img，标头=标头)

58响应mg=URL lib。请求。打开网址

59img=打开(str(j)" .jpg '，' wb '

60克。write(响应mg。read())

61img.close()

62print('何西%d-什么，魏冄%d-什么“% J1，页码”)#哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟，唉哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟哟63 # OS。系统(“暂停”)64操作系统。chdir(OS。路径。dirname(OS。get wd()))#号文件阿如斯阿如斯？阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯阿如斯65#贺盛瑞阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇阿吉耶维奇，你好，python拜仁拜仁拜仁拜仁