架构师_程序员_码农网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 8395|回复: 0

[资料] 从Hadoop HDFS中直接下载文件

[复制链接]
发表于 2019-7-10 14:20:11 | 显示全部楼层 |阅读模式
从HDFS下载大文件

我从HDFS客户端获得了一个大文件(大约2GB)的DataInputStream,我需要将它作为文件存储在我的主机上。

我正在考虑使用apache常见的IOUtils并做这样的事情......


我一直在寻找比这种方法更好的其他解决方案。主要关心的是在输入和IOUtils.copy中使用缓冲.

对于大于2GB的文件,建议使用IOUtils.copyLarge()(如果我们谈论相同的IOUtils:org.apache.commons.io.IOUtils)

IOUtils中的副本使用4Kb的默认缓冲区大小(尽管您可以指定另一个缓冲区大小作为参数)。

copy()和之间的区别copyLarge()是返回结果。

因为copy(),如果流大于2GB,您将成功使用副本,但结果为-1。

对于copyLarge()该结果是完全复制的字节数。

请参阅此处的文档中的更多内容:


http://commons.apache.org/proper/commons-io/apidocs/org/apache/commons/io/IOUtils.html#copyLarge(java.io.InputStream,%20java.io.OutputStream)



如何通过Spring Rest Api检查文件是否已完全下载

我创建了简单的rest api来从hdfs提供文件(文件很大,我不想在本地复制它们)。

我想记录文件下载成功完成的信息,即读取整个流,但我不知道如何。我只能记录文件下载开始的信息。

我将不胜感激任何帮助。


您可以尝试在InputStream上创建一个包装器,并在流close(close())上触发一些标志。

例如,您可以ProxyInputStream作为基础:








上一篇:分享几个实测的在线接收短信验证码的网站
下一篇:JS--插件: 树Tree 开发与实现 附件可下载!!
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:help@itsvse.com

QQ|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2024-4-17 04:12

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表