您的位置:首页技术文章
文章详情页

python - pythoh3 下 ’<abc>’ 遇到这样的html转义符如何自动转义呢?

浏览:76日期:2022-06-28 18:47:10

问题描述

初学python,在使用scray 爬虫时,遇到html的特殊字符,于是百度搜看了下文档:

import HTMLParser html_parser = HTMLParser.HTMLParser() s = ’&l t;abc&g t;&nbs p;’ #避免网页转义留了个空格s = html_parser.unescape(s)

运行时提示:import markupbaseImportError: No module named ’markupbase’

借助翻译软件,看HTMLParser官方文档找了第二种方法

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_data(self, data): print(data) return data

parser = MyHTMLParser()s = ’&l t;abc&g t;&nbs p;’ #避免网页转义留了个空格ss=parser.feed(s)

第二种方法测试成功,遇到的问题是,return data 这一句,返回数据是无效的?

请问,有没有就几句代码解决转义的,如果没有第二种方法里如何才有返回值?

问题解答

回答1:

from html.parser import HTMLParserhtml_parser = HTMLParser()s = ’&lt;abc&gt;&nbsp;’txt = html_parser.unescape(s)print(txt)# 结果:<abc>

标签: Python 编程
相关文章: