文章详情页

java - 读取大于内存的大文件怎么读？

浏览：173日期：2023-12-28 16:57:06

问题描述

参考：有一个1G大小的一个文件，内存限制大小是10M，有序返回频数最高的50个词，该怎么做？

网上有很多该问题的解决方案，都是用分而治之的思想，提到了遍历整个文件。

那么我的问题是：如果单纯地逐行读取大文件，算是把1G文件全都加载进内存吗？或者说是读取大于内存的文件应该怎么读？

问题解答

回答1：

在这里内存就像一条管道，逐行读是把1G文件在内存里过一遍而已，10M表示管道的粗细。所以，逐行读是把1G文件加载进去过内存。

回答2：

try (BufferedReader in = new BufferedReader(new FileReader(file))) { String line; while ((line = in.readLine()) != null) {// parse line }}

file再大，只要每一行的长度有限，整个文件读完会需要不少的时间，但不会占用太大的内存。

回答3：

分块读，每读一个块一个结果集，最后对结果集聚合处理文本的话，知道行数会更好

回答4：

linux上面有个指令叫做split可以并发快速把大文本分割成小的文件,然后处理就方便了呀,这种算法叫做外排序

回答5：

内存就好比草稿纸，写满一篇就翻篇。用过、没用的数据就扔掉了。

简单举例，创建一个变量 buff,设定好它的大小，打开文件流往里填，填满以后查你要的内容，查到就统计到另外一个变量里计数。然后清空buff,继续之前读取的位置再次装载内容…… 直到读取完毕，统计也就完成了。

回答6：

针对不同的系统，都会提供一个API来操作大于内存的文件，也就是将文件当做内存来处理：

内存映射

mmap

CreateFileMapping

java

上一条：javascript - ant-design中的table组件怎么清空里面所有的数据(包括别的组件比如input)下一条：java返回java.lang.NumberFormatException异常

相关文章：

1. golang - 用IDE看docker源码时的小问题2. mysql - 请教一个Java做数据库缓存的问题3. docker容器呢SSH为什么连不通呢？4. docker api 开发的端口怎么获取？5. 请问一下各位老鸟我一直在学习独孤九贱现在是在tp5 今天发现这个系列视频没有实战6. docker绑定了nginx端口外部访问不到7. Python两个list互换,两种不同的操作结果有差异，原因是什么呢？8. docker网络端口映射，没有方便点的操作方法么？9. angular.js - Angularjs中点击事件传递参数给class更换样式。10. angular.js - 关于指令link 中的创建变量问题

排行榜

					
					docker绑定了nginx端口 外部访问不到
docker容器呢SSH为什么连不通呢？
docker api 开发的端口怎么获取？
golang - 用IDE看docker源码时的小问题
docker网络端口映射，没有方便点的操作方法么？
请问一下各位老鸟 我一直在学习独孤九贱 现在是在tp5 今天发现 这个系列视频没有实战
mysql - 请教一个Java做数据库缓存的问题
Python两个list互换,两种不同的操作结果有差异，原因是什么呢？
angular.js - 关于指令link 中的创建变量问题
docker安装后出现Cannot connect to the Docker daemon.
javascript - 想要用Ajax 即时返回XML 中的数据，前后端怎么选择？
				

热门标签