文章详情页

python - sklearn如何训练大规模数据集

浏览：235日期：2022-06-27 16:56:25

问题描述

问题一：

现在我有40多万条的数据，需要对该数据使用某种机器学习分类算法建立模型，遇到的问题是因为数据过于庞大不能一次性的进行数据的读取，所以想问一下该如何处理数据？

问题二：

关于sklearn交叉验证有个疑问：假如我有10000个训练数据，由交叉验证原理可以将这一万个训练数据集使用KFold方法分成n组训练(train数据占0.7)，现在搞不明白的就是我对第一组的训练集进行fit()，然后对测试集进行预测验证得到预测的准确率，但是得到预测准确率有什么用呢？会对下一次的训练有影响吗？还有就是上一次的训练模型会被用到下一次的fit()函数吗？

问题解答

回答1：

我最近在学大数据的数据挖掘与分析这一块，对于问题一，我有个思路你参考一下:既然无法一次性读取，可以建立分布式数据模型，分次读取数据，确定地址datanode（可以是某个变量名），建立一个namenode（名字与该地址对应的表），然后获取数据的时候，先在namenode中确认地址（需要的是哪一个变量对应的数据），再访问该地址获取数据进行处理。由于初学，我只是提供下我个人的思路，答案不唯一，仅供参考，各路大牛不喜勿喷。

回答2：

40万没多少啊，顶多几G吧......如果真的是内存小到8G也没有，那还是得看你具体场景啊，举个列子，单纯算tf-idf，一个generator，内存中只有最后的tf-idf字典。

交叉验证只是为了选取误差最小的一个，你提到的前面的影响后面，是boosting的概念。

回答3：

這種問答網站最好是一個問題一個坑，必要時兩個分開的問題給連結連相關性，避免 Double-barreled question

(1) 見How to optimize for speed，你會發現有很多可以調控試驗的方式，包括(a)儘量使用簡單的演算法計巧 (b)針對現實狀況做記憶体使用及速度的側寫 (c)試著用Numpy陣列取代所有nested loops (d)必要時使用Cython Wrapper 去調更有效率的C/C++函數庫。這些只是基本原則和方向，實際上還是要看你要操作問題的瓶頸分析，是速度還是空間，把代碼最佳化後再考慮是否要用平行計算等手段

(2) 你這問題得區分數學和實證上要求的差異，希望你對过拟合(overfitting)及 underfitting的實證及數學意義有所掌握，這裡的問答還蠻不錯的，讀一下有幫助的。

Python 编程

上一条：selenium - 请教一下 Python 爬虫工具下一条：python - 爬取微信公众号文章需要输入验证码问题

相关文章：

1. nignx - docker内nginx 80端口被占用2. css - 图片的宽度发生变化而高度却没有相应变？3. dockerfile - 为什么docker容器启动不了？4. 垃圾回收 - java 如何手动回收对象5. mysql - 请问有innodb 引擎的表导入900w 的数据，用了快9个小时。有什么快速的方法吗。正常是多少小时一般。6. javascript - vue中input的blur影响了下拉的点击事件如何解决7. javascript - chart.js如何修改某个指定bar的颜色8. php - 注册验证邮箱失效后操作问题9. mysql - 一个sql的问题10. angular.js - 在ionic下，利用javascript导入百度地图，pc端可以显示，移动端无法显示

排行榜

					
					nignx - docker内nginx 80端口被占用
dockerfile - 为什么docker容器启动不了？
垃圾回收 - java 如何手动回收对象
css - 图片的宽度发生变化而高度却没有相应变？
angular.js - 在ionic下，利用javascript导入百度地图，pc端可以显示，移动端无法显示
angular.js - angular ui bootstrap 中文显示问题
javascript - 图片无法正常加载
mysql - 一个sql的问题
使用git管理webpack的代码时多人怎么协作？一般托管哪些文件？
html5 - angularjs中外部模版加载无法使用
运维 - java tomcat多个小项目共存问题
				

热门标签