架构师_程序员

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 359|回复: 0

[资料] 从Hadoop HDFS中直接下载文件

[复制链接]
跳转到指定楼层
楼主
发表于 2019-7-10 14:20:11
从HDFS下载大文件

我从HDFS客户端获得了一个大文件(大约2GB)的DataInputStream,我需要将它作为文件存储在我的主机上。

我正在考虑使用apache常见的IOUtils并做这样的事情......


  1. File temp = getTempFile(localPath);
  2. DataInputStream dis = HDFSClient.open(filepath); // around 2GB file (zipped)
  3. in = new BufferedInputStream(dis);
  4. out = new FileOutputStream(temp);
  5. IOUtils.copy(in, out);
复制代码
我一直在寻找比这种方法更好的其他解决方案。主要关心的是在输入和IOUtils.copy中使用缓冲.

对于大于2GB的文件,建议使用IOUtils.copyLarge()(如果我们谈论相同的IOUtils:org.apache.commons.io.IOUtils)

IOUtils中的副本使用4Kb的默认缓冲区大小(尽管您可以指定另一个缓冲区大小作为参数)。

copy()和之间的区别copyLarge()是返回结果。

因为copy(),如果流大于2GB,您将成功使用副本,但结果为-1。

对于copyLarge()该结果是完全复制的字节数。

请参阅此处的文档中的更多内容:


http://commons.apache.org/proper/commons-io/apidocs/org/apache/commons/io/IOUtils.html#copyLarge(java.io.InputStream,%20java.io.OutputStream)



如何通过Spring Rest Api检查文件是否已完全下载

我创建了简单的rest api来从hdfs提供文件(文件很大,我不想在本地复制它们)。

我想记录文件下载成功完成的信息,即读取整个流,但我不知道如何。我只能记录文件下载开始的信息。

我将不胜感激任何帮助。


  1. @Autowired
  2.     private FileDownloadService fds;

  3.     @RequestMapping(value = GET_FILE_PATH, method = RequestMethod.GET)
  4.     @Produces(MediaType.APPLICATION_OCTET_STREAM_VALUE)
  5.     public ResponseEntity getFileStream(@RequestParam("name") String name) {
  6.         LOG.info("Processing for filename: " + name);
  7.         try {
  8.             Path p = fds.getFilePath(name);
  9.             org.apache.hadoop.fs.FSDataInputStream is = fds.getFileStream(p);

  10.             return ResponseEntity.ok().header("Content-Disposition", "attachment; filename="" + p.getName() + ""'").contentLength(fds.getFileLength(p))
  11.                     .contentType(MediaType.APPLICATION_OCTET_STREAM).body(new InputStreamResource(is));

  12.         } catch (Exception e) {
  13.             LOG.error(e.getLocalizedMessage(), e);
  14.             return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR).body("Internal Server Error");
  15.         } finally {
  16.            LOG.info("File: " + name + " download started");
  17.         }
  18.     }
复制代码
您可以尝试在InputStream上创建一个包装器,并在流close(close())上触发一些标志。

例如,您可以ProxyInputStream作为基础:


  1. ProxyInputStreamis = new ProxyInputStream(fds.getFileStream(p)) {
  2.     @Override
  3.     public void close() throws IOException {
  4.             super.close();
  5.             // some trigger
  6.     }
  7. };
复制代码






上一篇:分享几个实测的在线接收短信验证码的网站
下一篇:JS--插件: 树Tree 开发与实现 附件可下载!!
帖子永久地址: 

架构师_程序员 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
2、本站所有主题由该帖子作者发表,该帖子作者与架构师_程序员享有帖子相关版权
3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和架构师_程序员的同意
4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
7、架构师_程序员管理员和版主有权不事先通知发贴者而删除本文

码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。

Mail To:help@itsvse.com

QQ|Archiver|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2019-10-19 18:17

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表