文章详情页

Python基于pandas爬取网页表格数据

浏览：45日期：2022-07-25 18:56:39

以网页表格为例：https://www.kuaidaili.com/free/

该网站数据存在table标签，直接用requests，需要结合bs4解析正则/xpath/lxml等，没有几行代码是搞不定的。

今天介绍的黑科技是pandas自带爬虫功能，pd.read_html()，只需传人url，一行代码搞定。

原网页结构如下：

Python基于pandas爬取网页表格数据

python代码如下：

import pandas as pdurl=’http://www.kuaidaili.com/free/’df=pd.read_html(url)[0] # [0]：表示第一个table，多个table需要指定，如果不指定默认第一个# 如果没有【0】，输入dataframe格式组成的listdf

输出dataframe格式数据

Python基于pandas爬取网页表格数据

再次保存到本地，csv格式，注意中文编码：utf_8_sig

print(type(df))df.to_csv(’free ip.csv’,mode=’a’, encoding=’utf_8_sig’, header=1, index=0)print(’done!’)

查看csv文件

Python基于pandas爬取网页表格数据

先来了解一下read_html函数的api:

pandas.read_html(io, match=’.+’, flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=’, ’, encoding=None, decimal=’.’, converters=None, na_values=None, keep_default_na=True, displayed_only=True)

常用的参数：

io:可以是url、html文本、本地文件等； flavor：解析器； header：标题行； skiprows：跳过的行； attrs：属性，比如 attrs = {’id’: ’table’}； parse_dates：解析日期

注意：返回的结果是**DataFrame**组成的**list**。

若要dataframe，直接取list【0】

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

Python 编程

上一条：Python基于codecs模块实现文件读写案例解析下一条：python中sort sorted reverse reversed函数的区别说明

相关文章：

1. 使用Python webdriver图书馆抢座自动预约的正确方法2. vue实现列表拖拽排序的功能3. IDEA 通过docker插件发布springboot项目的详细教程4. Java ThreadLocal的使用场景总结5. 利用Python发送邮件或发带附件的邮件6. python exit出错原因整理7. python3更改word指定表格单元格内容步骤分享8. python中的插入排序的简单用法9. Java大文本并行计算实现过程解析10. SpringBoot Mybatis如何配置多数据源并分包

排行榜

					
					vue实现列表拖拽排序的功能
python exit出错原因整理
利用Python发送邮件或发带附件的邮件
使用Python webdriver图书馆抢座自动预约的正确方法
SpringBoot Mybatis如何配置多数据源并分包
Java大文本并行计算实现过程解析
python中的插入排序的简单用法
IDEA 通过docker插件发布springboot项目的详细教程
Java ThreadLocal的使用场景总结
python3更改word指定表格单元格内容步骤分享
Android打包篇:Android Studio将代码打包成jar包教程
				

热门标签