python - lxml.etree为什么会自动加上加上</i>?
问题描述
正在学习lxml,代码如下:
from lxml import etreetext = ’’’<i class='cell maincell'> <p class='title'><a target='_blank' href='https://itjuzi.com/company/60321'> <span>洋鼹鼠</span></a> </p> <p><span class='tags t-small c-gray-aset'> <a href='https://itjuzi.com/investevents?scope=145'>电子商务</a></span><span class='loca c-gray-aset t-small'> <a href='https://itjuzi.com/investevents?prov=天津'>天津</a></span> </p></i>’’’html = etree.HTML(text)print(etree.tostring(html,encoding=’utf-8’).decode(’utf-8’))
输出如下:
<html><body><i class='cell maincell'> </i><p class='title'><a target='_blank' href='https://itjuzi.com/company/60321'> <span>洋鼹鼠</span></a> </p> <p><span class='tags t-small c-gray-aset'> <a href='https://itjuzi.com/investevents?scope=145'>电子商务</a></span><span class='loca c-gray-aset t-small'> <a href='https://itjuzi.com/investevents?prov=天津'>天津</a></span> </p></body></html>
主要不理解为什么<i>标签那里会出错呢?请问怎么解决这个问题?谢谢~
问题解答
回答1:主要是因为
p元素内容分类 Flow content, palpable content.允许的内容 Phrasing content.允许的父元素任何接受flow content的元素
i元素Content catergories Flow content, phrasing content, palpable content.允许量 phrasing content.
很显然P元素的父元素应该是flow content类型的,然而i并不满足条件,也就是说这是不符合规范的。解决办法就是i直接换为p。
相关文章:
1. python - 求一个在def中可以实现调用本def满足特定条件continue效果的方法(标题说不太清楚,请见题内描述)2. $fields = $values = [];这条代码一直定义不了,一直报错,老师的源码也是被报错的,执行不了,请问该怎么解决这个问题3. java - mybatis怎么实现在数据库中有就修改,没有就添加4. MYSQL新建用户设置可以远程访问的问题5. mysql多表联合查询优化的问题6. MySQL中的enum类型有什么优点?7. mysql字符串排序问题8. 数据库设计 - MySQL数据库主键问题9. linux - 为什么我在mysql的my.cnf下找不到bind-address?10. mysql 5.7单表300万数据,性能严重下降,如何破?
![$fields = $values = [];这条代码一直定义不了,一直报错,老师的源码也是被报错的,执行不了,请问该怎么解决这个问题](http://www.haobala.com/attached/image/news/202205/093622cb60.png)