架构师_程序员_码农网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 5595|回复: 0

Hadoop入门前的了解

[复制链接]
发表于 2017-12-8 13:33:48 | 显示全部楼层 |阅读模式

hadoop是什么?
(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。
(2)Hadoop就是一个分布式计算的解决方案.

hadoop能做什么?
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中    的 自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)
hadoop最新版本下载地址:http://hadoop.apache.org/releases.html

在Windows上构建和安装Hadoop 2.x或更新版本,链接:https://wiki.apache.org/hadoop/Hadoop2OnWindows

1.介绍

Hadoop版本2.2以上包括对Windows的本机支持。 官方Apache Hadoop版本不包括Windows二进制文件(截至2014年1月)。 但是,从源代码构建Windows包相当简单。

Hadoop是一个包含许多组件的复杂系统。 在尝试构建或安装之前,或者第一次在高级别上进行一些熟悉是有帮助的。 如果您需要排除故障,则需要熟悉Java。


Hadoop开发人员在开发和测试过程中使用了Windows Server 2008和Windows Server 2008 R2。 由于Win32 API与相应服务器SKU的相似性,Windows Vista和Windows 7也可能工作。 我们还没有在Windows XP或Windows的任何早期版本上进行测试,这些都不太可能。 在Windows XP或更早版本中报告的任何问题将被视为无效。

不要尝试在Cygwin中运行安装。 Cygwin既不要求也不支持。







上一篇:C# winform中listview排序
下一篇:国内优秀npm镜像推荐及使用
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:help@itsvse.com

QQ|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2024-4-26 15:30

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表