从Hadoop HDFS中直接下载文件

小渣渣 · 发表于 2019-7-10 14:20:11

从HDFS下载大文件

我从HDFS客户端获得了一个大文件（大约2GB）的DataInputStream，我需要将它作为文件存储在我的主机上。

我正在考虑使用apache常见的IOUtils并做这样的事情......

我一直在寻找比这种方法更好的其他解决方案。主要关心的是在输入和IOUtils.copy中使用缓冲.

对于大于2GB的文件，建议使用IOUtils.copyLarge()（如果我们谈论相同的IOUtils：org.apache.commons.io.IOUtils）

IOUtils中的副本使用4Kb的默认缓冲区大小（尽管您可以指定另一个缓冲区大小作为参数）。

copy()和之间的区别copyLarge()是返回结果。

因为copy()，如果流大于2GB，您将成功使用副本，但结果为-1。

对于copyLarge()该结果是完全复制的字节数。

请参阅此处的文档中的更多内容：

超链接登录可见。

如何通过Spring Rest Api检查文件是否已完全下载

我创建了简单的rest api来从hdfs提供文件（文件很大，我不想在本地复制它们）。

我想记录文件下载成功完成的信息，即读取整个流，但我不知道如何。我只能记录文件下载开始的信息。

我将不胜感激任何帮助。

登录可见。

您可以尝试在InputStream上创建一个包装器，并在流close（close()）上触发一些标志。

例如，您可以ProxyInputStream作为基础：

登录可见。

		自动登录	找回密码
密码			注册[Register]

[资料] 从Hadoop HDFS中直接下载文件

相关帖子