java读取大文件内容（手把手教你java处理超大csv文件）

小多多 • 2021年12月13日下午8:41 • 杂谈

前言

我最近在优化我的PDF转word的开源小工具，有时候会遇到一个问题，就是如果我的PDF文件比较大，几百兆，如何更快更节省内存的读取它。于是我分析对比了四种常见的读取文件的方式，并使用javaVisualVM工具进行了分析。最后得出的结论是commons-io时间和空间都更加的高效。研究分析依然来自哪位baeldung国外大佬。

下面我会给出几种常见的读取大文件的方式。

读取大文件的四种方式

首先我自己在本地压缩了一个文件夹，大概500M左右。虽然不是很大但是，相对还可以。

方法1：Guava读取

Stringpath="G:\java书籍及工具.zip";Files.readLines(newFile(path),Charsets.UTF_8);

使用guava读取比较简单，一行代码就搞定了。

下面去jdk的bin目录找到javaVisualVM工具，然后双击运行即可。

从上图可以看到：

时间消耗：17秒

堆内存：最高2.5G

CPU消耗：最高50%，平稳运行25%左右

这种方式和上面那种基本上消耗差不多，肯定不是我想要的。

方式3：java文件流

FileInputStreaminputStream=null;Scannersc=null;try{inputStream=newFileInputStream(path);sc=newScanner(inputStream,"UTF-8");while(sc.hasNextLine()){Stringline=sc.nextLine();//System.out.println(line);}if(sc.ioException()!=null){throwsc.ioException();}}finally{if(inputStream!=null){inputStream.close();}if(sc!=null){sc.close();}}

这种方式其实就是java中最常见的方式，然后我们运行分析一波：

从上图可以看到：

时间消耗：16秒，最低

堆内存：最高650M，少了一半

CPU消耗：平稳运行25%左右

OK，就它了，牛。

结论

通过以上的分析，我们可以得出一个结论，如果我们想要读取一个大文件，选择了错误的方式，就有可能极大地占用我的内存和CPU，当文件特别大时，会造成意向不到的问题。

因此为了去解决这样的问题，有四种常见的读取大文件的方式。通过分析对比，发现，Apache Commons IO流是最高效的一种方式。

小多多创始人

0 0

chrome添加扩展程序出现错误(谷歌浏览器无法添加扩展程序怎么办)

Chrome 扩展程序非常有用，它允许您向浏览器添加其他功能。但是，如果您安装了许多扩展程序，您可能会看到一个杂乱的工具栏，而且更难找到您想要的东西。幸运的是，您可以选择将哪些扩展…

小多多
杂谈 2021年12月13日
抖音二狗怎么不更新了（网红刘二狗何许人也，竟然惊动散打圈集体讨伐！）

在K手上有一个粉丝过百万的的大网红，名叫刘二狗。

小多多
杂谈 2022年2月19日
iphone定时关机设置方法(电脑怎么设置定时关机)

睡觉了，可是电脑还在运行着。一看到电费的缴费单，oh，shit！这时我们就可以对电脑设置定时关机了，可对于不懂电脑知识的小白来说要如何设置定时关机呢？其实电脑设置定时关机的方法并不…

小多多
杂谈 2021年12月13日
杂谈

2021正规一清pos名单(银联pos刷卡机安全吗)

2018年3月中旬中国银联发布了《通过银联卡受理终端安全认证的产品列表》，79款智能pos产品通过银联卡受理终端安全认证。银联卡受理终端设备安全认证在之前开展的“银联卡受理终端P…

小多多
2021年12月13日
eclipse怎么部署tomcat服务器（讲解eclipse配置tomcat环境）

Tomcat服务器是一个免费的开放源代码的Web应用服务器。因为Tomcat技术先进、性能稳定，而且免费，因而深受Java爱好者的喜爱并得到了部分软件开发商的认可，是目前比较流行的…

小多多
2021年12月13日 • 杂谈
保险公司投诉电话（12363投诉信用卡有用吗）

12378热线是中国银保监局的电话，是专门监管银行和保险行业的监管部门。所以如果你遇到任何关于银行和保险业务的问题，都可以拨打这个电话进行投诉。接通客服后，告知对方你遇到的问题，以…

小多多
杂谈 2021年12月10日
新浪播客为什么停止服务（新浪博客宣布关闭的原因揭秘）

播客是个面对「真需求」的「慢赛道」，唯有规模化的好内容才可以点燃。播客应用「小宇宙」上架应用商店的第一天，吴珂经朋友推荐开始下载试用。「终于有了好用的中文播客产品」，朋友这么向…

小多多
2021年12月13日 • 杂谈
静安寺小朋友需要门票吗

静安寺对应1米2以下的小朋友是不需要门票费用的，但是超过1米2的孩子需要购买成人票价格是一张50元。静安寺简介静安寺，又称静安古寺，位于上海市静安区，其历史相传最早可追溯至三国…

季候
杂谈 2022年4月6日
京东积分兑换京豆比例（手机京东积分商城入口）

能赚“钱”的路由器，想必很多小伙伴已经入手了来自京东的京东云无线路由器，这款产品在上市之前就备受关注，京东在去年年底发售了京东云无线宝，强大的边缘计算技术与京东的平台对接，通过路由…

小多多
2021年12月13日 • 杂谈
这家实体女装店巧用赠品策略，客流不断，年赚50万

首先，李老板在店门口放置了一批十分精美、时尚的女性袜子、发夹、发圈等产品。在这些产品的上方，写着几个大字：今天你可以免费拿走他们！这些精美、时尚的女性袜子、发夹、发圈，就是用来…

小多多
杂谈 2021年12月13日
android 数据库操作（常见的数据库管理系统）

ndroid 数据库Room的开发使用详解一.简介： Room 在SQLite上提供了一个抽象层，以便在充分利用SQLite的强大功能的同时，能够流畅地访问数据库。 Room包含…

小多多
2021年12月13日 • 杂谈
银河麒麟操作系统怎么联网（中标麒麟与银河麒麟的区别）

盘点2020年发生的重大网络攻击黑客访问GoDaddy的服务器并窃取用户登录凭据全球最大的托管服务提供商之一GoDaddy通知其一些客户，GoDaddy托管环境中的SSH文件被…

小多多
2021年12月13日 • 杂谈
联想y510p笔记本电脑参数(联想笔记本y510p配置)

在很多人还没用上第四代智能酷睿处理器产品的时候，2015年初英特尔又发布了第五代智能酷睿处理器产品，该家族涵盖了14款面向消费级和企业级的处理器，其中10款功耗为15W的处理器采用…

小多多
杂谈 2021年12月13日
gta5打电话输入秘籍(gta5怎么打电话引爆)

GTA5的雪天现在已经离我们而去，每年圣诞节之际洛圣都就会开始下雪，这一下可就是好多天啊，根据洛圣都的时间来计算的话，那就是两三个月的样子，当然中间还是会停几天的，为的就是让一些玩…

小多多
杂谈 2021年12月13日
杂谈

1万小投资加盟开店条件(1～3万投资加盟零食店)

现在市场上创业者有很多，几乎每个人都想找一个靠谱、投入又少的项目。于是乎，在了解很多行业之后，很多投资人终于知道加盟模式，这种让他们更容易成功的模式，但不知道开店要投资哪些行业和…

郭强
2021年12月13日

发表回复

登录后才能评论

java读取大文件内容（手把手教你java处理超大csv文件）

前言

读取大文件的四种方式

方法1：Guava读取

方式3：java文件流

结论

相关推荐

发表回复