python - pythoh3 下 ’<abc>’ 遇到这样的html转义符如何自动转义呢?
问题描述
初学python,在使用scray 爬虫时,遇到html的特殊字符,于是百度搜看了下文档:
import HTMLParser html_parser = HTMLParser.HTMLParser() s = ’&l t;abc&g t;&nbs p;’ #避免网页转义留了个空格s = html_parser.unescape(s)
运行时提示:import markupbaseImportError: No module named ’markupbase’
借助翻译软件,看HTMLParser官方文档找了第二种方法
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data): print(data) return data
parser = MyHTMLParser()s = ’&l t;abc&g t;&nbs p;’ #避免网页转义留了个空格ss=parser.feed(s)
第二种方法测试成功,遇到的问题是,return data 这一句,返回数据是无效的?
请问,有没有就几句代码解决转义的,如果没有第二种方法里如何才有返回值?
问题解答
回答1:from html.parser import HTMLParserhtml_parser = HTMLParser()s = ’<abc> ’txt = html_parser.unescape(s)print(txt)# 结果:<abc>
相关文章:
1. mysql - 在不允许改动数据表的情况下,如何优化以varchar格式存储的时间的比较?2. javascript - 网页打印页另存为pdf的代码一个问题3. vim - docker中新的ubuntu12.04镜像,运行vi提示,找不到命名.4. docker网络端口映射,没有方便点的操作方法么?5. css - chrome下a标签嵌套img 显示会多个小箭头?6. java中返回一个对象,和输出对像的值,意义在哪儿7. css3 - 纯css实现点击特效8. javascript - 关于apply()与call()的问题9. 推薦好用mysql管理工具?for mac和pc10. javascript - 有适合开发手机端Html5网页小游戏的前端框架吗?
