python - lxml.etree为什么会自动加上加上</i>?
问题描述
正在学习lxml,代码如下:
from lxml import etreetext = ’’’<i class='cell maincell'> <p class='title'><a target='_blank' href='https://itjuzi.com/company/60321'> <span>洋鼹鼠</span></a> </p> <p><span class='tags t-small c-gray-aset'> <a href='https://itjuzi.com/investevents?scope=145'>电子商务</a></span><span class='loca c-gray-aset t-small'> <a href='https://itjuzi.com/investevents?prov=天津'>天津</a></span> </p></i>’’’html = etree.HTML(text)print(etree.tostring(html,encoding=’utf-8’).decode(’utf-8’))
输出如下:
<html><body><i class='cell maincell'> </i><p class='title'><a target='_blank' href='https://itjuzi.com/company/60321'> <span>洋鼹鼠</span></a> </p> <p><span class='tags t-small c-gray-aset'> <a href='https://itjuzi.com/investevents?scope=145'>电子商务</a></span><span class='loca c-gray-aset t-small'> <a href='https://itjuzi.com/investevents?prov=天津'>天津</a></span> </p></body></html>
主要不理解为什么<i>标签那里会出错呢?请问怎么解决这个问题?谢谢~
问题解答
回答1:主要是因为
p元素内容分类 Flow content, palpable content.允许的内容 Phrasing content.允许的父元素任何接受flow content的元素
i元素Content catergories Flow content, phrasing content, palpable content.允许量 phrasing content.
很显然P元素的父元素应该是flow content类型的,然而i并不满足条件,也就是说这是不符合规范的。解决办法就是i直接换为p。
相关文章:
1. html5 - javascript写业务有用到什么编程范式没?2. javascript - 一排三个框,各个框的间距是15px,距离外面的白框间距也是15px,这个css怎么写?3. javascript - vue 手机端项目在进入主页后 在进入子页面,直接按返回出现空白情况4. 用CSS3 box-sizing 属性实现两个并排的容器,如果想让容器中间有间隔该如何实现5. javascript - jQuery post()方法,里面的请求串可以转换为GBK编码么?可以的话怎样转换?6. javascript - nodejs调用qiniu的第三方资源抓取,返回401 bad token,为什么7. python3.x - python 中的maketrans在utf-8文件中该怎么使用8. javascript - immutable配合react提升性能?9. html5 - vue-cli 装好了 新建项目的好了,找不到项目是怎么回事?10. mysql - C#连接数据库时一直这一句出问题int i = cmd.ExecuteNonQuery();

网公网安备