a标签 url 正则怎么写(python 或者js)
问题描述
<a target='blank'href='http://a.b.c.d/abc.php?viewkey=11111111111d5c2a51d1e2&page=1&viewtype=basic&category=rf'></a><a target='blank'href='http://a.b.c.d/abc.php?viewkey=6d7a7f6a6e9c2a5191e2&page=1&viewtype=basic&category=rf'></a><a target='blank'href='http://a.b.c.d/abc.php?viewkey=6d7a7f6a6e9c2a5191e2&page=1&viewtype=basic&category=rf'></a><a target='blank'href='http://a.b.c.d/abc.php?viewkey=6d7a7f6a6e9c2a5191e2&'></a><a target='blank'href='http://a.b.c.d/abc'></a><a target='blank'href='http://a.b.c.d/123'></a>
我要取 href里的链接
6个链接 前三个符合条件 正则怎么写(即链接中必须带有参数viewkey page viewtype category)
第二个和第三个链接相同 怎么去重复(python下)
问题解答
回答1:# python 2.7import rea = ’’’<a target='blank'href='http://a.b.c.d/abc.php?viewkey=11111111111d5c2a51d1e2&page=1&viewtype=basic&category=rf'></a><a target='blank'href='http://a.b.c.d/abc.php?viewkey=6d7a7f6a6e9c2a5191e2&page=1&viewtype=basic&category=rf'></a><a target='blank'href='http://a.b.c.d/abc.php?viewkey=6d7a7f6a6e9c2a5191e2&page=1&viewtype=basic&category=rf'></a><a target='blank'href='http://a.b.c.d/abc.php?viewkey=6d7a7f6a6e9c2a5191e2&'></a><a target='blank'href='http://a.b.c.d/abc'></a><a target='blank'href='http://a.b.c.d/123'></a>’’’print set(re.findall(’’’(?=.*(?:viewkey))(?=.*(?:page))(?=.*(?:viewtype))(?=.*(?:category))href=['’]([^’']+)’’’, a))回答2:
提取前三个链接:
links= re.findall(r’href='https://www.haobala.com/wenda/(.*?=rf)'’,l_string,re.S)
去重:
new_links=set(links)
相关文章:
1. css3 - 微信前端页面遇到的transition过渡动画的bug2. javascript - 请教如何获取百度贴吧新增的两个加密参数3. 网页爬虫 - Python 爬虫中如何处理验证码?4. mysql - 分库分表、分区、读写分离 这些都是用在什么场景下 ,会带来哪些效率或者其他方面的好处5. Python爬虫如何爬取span和span中间的内容并分别存入字典里?6. javascript - 关于css绝对定位在ios浏览器被橡皮筋遮挡的问题7. mysql 一个sql 返回多个总数8. css - input间的间距和文字上下居中9. (python)关于如何做到按win+R再输入文件文件名就可以运行?10. Python如何播放还存在StringIO中的MP3?
