文章详情页

html - 为什么BeautifulSoup find_all 返回的list都不是按照网页显示顺序排序的？

浏览：261日期：2023-10-13 17:52:01

问题描述

我想爬糗百的段子，显示作者，和对应的段子，先只爬第一面

import requestsfrom bs4 import BeautifulSoup as bspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))soup = bs(r.content,'html.parser')names = []for n in soup.find_all('a',{'href':True,'target':True,'title':True}): names += [n.h2.get_text()]print(names)

print 结果：

[’威信红包接龙关注’, ’ZBZBZBZ’, ’养贼专业户’, ’柱流年’, ’大风起兮雪飞扬’, ’依然家的麦芽糖’, ’小小&妖精’, ’苍南下山耍流氓，黑衣格哥买红糖’, ’九妹妹～’, ’亲爱de橄榄绿’, ’有点胖的妮妮’, ’污奇奇’, ’没办法就是这么帅’, ’亦龙’, ’哇噻～桃宝’, ’单名一个饭字’, ’ni敢拿命疼我吗？’, ’许我三日暖’, ’半阙词曲丶’, ’谁动了我的粮食？’]

html.fromstring xpath 也这样

from lxml import htmlimport requestspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))tree = html.fromstring(r.content)print(tree.xpath(’//*[@class='article block untagged mb15']/p[1]/a[2]/h2/text()’))

print 结果：

[’威信红包接龙关注’, ’ZBZBZBZ’, ’养贼专业户’, ’大风起兮雪飞扬’, ’柱流年’, ’依然家的麦芽糖’, ’小小&妖精’, ’苍南下山耍流氓，黑衣格哥买红糖’, ’九妹妹～’, ’亲爱de橄榄绿’, ’有点胖的妮妮’, ’污奇奇’, ’没办法就是这么帅’, ’亦龙’, ’单名一个饭字’, ’ni敢拿命疼我吗？’, ’许我三日暖’, ’半阙词曲丶’, ’根@儿’, ’我是你的绝无仅有’]

但网页的实际显示顺序是:

[’威信红包接龙关注’, ’养贼专业户’, ’ZBZBZBZ’, ’柱流年’, ’有点胖的妮妮’, ’依然家的麦芽糖’, ’小小&妖精’, ’大风起兮雪飞扬’, ’苍南下山耍流氓，黑衣格哥买红糖’, ’九妹妹～’, ’亦龙’...]

如何让返回的list的元素的顺序和网页显示顺序相同？

问题解答

回答1：

应该是因为它页面的内容的排序是在变动的。他的排序是根据评论里面的个“好笑”数来排的，好笑数字接近的，顺序变化正常，而且有时有新的段子加入这页。你浏览器取得页面的时间，和爬虫爬取的时间不一样，看到的段子顺序不一样很正常。

HTML

上一条：java - 正则表达式如何对字符串取反？下一条：java - 求算法. 在球面上取随机N个均匀的点(或者间距不小于某距离的点)

相关文章：

1. 数组 - mysql 輸出到 php array 然後印出?2. python - 正则表达式匹配和原生字符的问题3. 数据结构 - java翻转链表是如何实现的?4. python - pymysql建立连接出错5. javascript - vue webpack打包问题6. nginx反向代理配置访问后台，基础问题？7. javascript - VUE 递归写的树状组件，怎么向外传递事件？8. javascript - 修改表单多选项时和后台同事配合的问题。9. CSS3中background-size的问题10. mysql - 订单表,我把它分成好几个,我要查询订单,怎么用一条sql语句高效查询

排行榜

					
					数组 - mysql 輸出到 php array 然後印出?
python - pymysql建立连接出错
python - 正则表达式匹配和原生字符的问题
javascript - vue webpack打包问题
数据结构 - java翻转链表是如何实现的?
javascript - 修改表单多选项时和后台同事配合的问题。
nginx反向代理配置访问后台，基础问题？
javascript - VUE 递归写的树状组件，怎么向外传递事件？
CSS3中background-size的问题
css - input中transition 设置background-color过渡，chrome浏览器页面初始化渲染会有过度效果
java - web端百度网盘的一个操作为什么要分两次请求服务器, 有什么好处吗
				

热门标签