文章详情页
python - 请教如何爬取简书某一时间段发帖。
浏览:147日期:2022-07-11 10:45:01
问题描述
我想爬取简书在某一时间段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想尝试的思路如下:
百度
利用百度的 site 语法
限定日期
观察大约有 70 个帖子
google 的 site 语法
限定日期
观察大约有 120 个帖子
实现:用 Python 直接请求搜索的结果,然后把得到的网址重定向一下得到真正的简书网址,然后对真正的网址进行请求
问题
用这种方法得到的结果是否靠谱?请问有更靠谱的方法吗?
用 Google 还是用百度呢?
问题解答
回答1:为了全面,你可以把主流的搜索引擎接口都拿来用,不一定要限制在某个搜索引擎接口上。我们有队友搜索某些话题就是这么干的,因为有的网站站内没提供满足需求的搜索方式,这个时候也只有借助搜索引擎了。不过通过搜索引擎搜索的方式信息可能不全面,robots协议规定了不能搜索的,搜索引擎不会收录
相关文章:
1. css3 - 请问一下在移动端CSS布局布局中通常需要用到哪些元素,属性?2. android - 使用vue.js进行原生开发如何进行Class绑定3. 网页爬虫 - python requests爬虫,如何post payload4. PHP能实现百度网盘的自动化么?5. node.js - 微信的自动回复问题6. javascript - 百度图片切换图片时url会改变,但无刷新,没用hash,IE8也支持,请问是用了什么技术?7. MySQL 水平拆分之后,自动增长的ID有什么好的解决办法?8. 我正在使用jsp / jstl / spring动态生成css和js。如何将此结果放置在头部的链接标签中。不在头部的脚本标签中9. angular.js - 各位大神们,你们混合开发,web方式中更推荐用什么框架呀? react?vue?angular?谢谢~10. mysql如何添加索引的时候指定索引方式
排行榜
