`
Imagination_Fly
  • 浏览: 22455 次
  • 性别: Icon_minigender_1
  • 来自: 山城
社区版块
存档分类
最新评论

hadoop大数据处理工具

阅读更多
    Apache Hadoop:http://hadoop.apache.org/在近几年已成为大数据行业发展背后的驱动力。各行业对hadoop的广泛应用以及开发出自己的大数据产品.Hadoop带来了廉价的处理大数据(数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据。但成本昂贵。Hadoop核心还是一套批处理系统,数据加载进HDFS、处理然后检索。
    该项目包括如下模块:
        Hadoop Common: 支持其它hadoop模块的公用工具.
        Hadoop Distributed File System (HDFS™):分布式文件系统。
        Hadoop YARN: 负责作业调度和集群资源管理的框架
        Hadoop MapReduce: 基于YARN并行处理大型数据集系统
    其它相关的项目包括:
         Ambari™:基于web的工具,用于配置、管理和监控Apache Hadoop集群,包括Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop的支持。
         Avro™-数据序列化系统。
         Cassandra™:没有单点故障可伸缩的多主机数据库
         Chukwa™:管理大量分布系统的数据采集系统
         HBase™:支持结构化数据存储的可伸缩的、分布式数据库
         Hive™:数据仓库基础设施提供了数据查询等
         Mahout™:可扩展的机器学习和数据挖掘库
         Pig™:用于并行计算的高级数据流语言和执行框架
         ZooKeeper™:为高性能分布式应用程序的协调服务
     核心记忆下Hadoop系统的组成部分及功能
     1、MapReduce—Hadoop的核心
          具体流程:输入文件 ->映射阶段(map)->存储->归并阶段(reduce)->输出文件
          MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题,这时候分布式计算优势就体现出来了
     2、HDFS
          具体流程:NameNode -> hdfs ->map/reduce工作
          各台服务器必须具备对数据的访问能力,这就是HDFS所起到的作用.HDFS与MapReduce的结合是强大的。在处理大数据的过程中,当Hadoop集群中的服务器出现错误时,整个计算过程并不会终止。同时 HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求,数据可 以是非结构化或其它类别。
     3、PIG和HIVE
          PIG是一种编程语言,Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(比如:日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
         Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询(HiveQL)。跟Pig类似,Hive的核心功能也是可扩展的。
         Hive具备的友好SQL查询是与繁多数据库的理想结合点,数据库工具通过JDBC或ODBC数据库驱动程序连接。
     4、HBase
          HBase作为面向列的数据库运行在HDFS之上。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。HBase利用MapReduce来处理内部的海量数据。同 时Hive和Pig都可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的相对要简单。HBase不适合用于ad-hoc分析,HBase更适合整合大数据作为大 型应用的一部分,包括日志、计算以及时间序列数据
     5、Sqoop
          主要是从关系数据库导入数据到Hadoop,并可直接导入到HFDS或Hive
     6、ZooKeeper(负责协调工作流程)
          大数据处理系统需要ZooKeeper负责协调工作,计算节点的增多,集群成员需要彼此同步并了解去哪里访问服务和如何配置
     7、MHout
          Mahout提供一些可扩展的机器学习领域经典算法的实现。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。

分享到:
评论

相关推荐

    Hadoop大数据处理实战

    Hadoop的基础内容 一.搭建hadoop分布式环境 二.eclipse/IDEA配置开发环境并实现wordcount 程序 1.演示Hadoop自带的单词统计程序...2.使用eclipse开发工具新建Map/Reduce项目“WordCount“单词统计 3.在虚拟机上部署hive

    大数据分析技术基础教学课件3-大数据处理平台Hadoop.pptx

    大数据处理平台Hadoop Friday, December 23, 2022 大数据分析技术基础教学课件3-大数据处理平台Hadoop全文共27页,当前为第1页。 Hadoop—大数据时代的火种 摩尔定律 1965年4月19日,仙童半导体公司工程师,后来创建...

    基于Hadoop豆瓣电影数据分析实验报告

    我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等...

    大数据处理工具Hadoop的使用文档概述

    数据量大:大数据指的是数据集的规模非常庞大,远远超出了传统数据处理工具的能力范围。这些数据集可能包含数十亿甚至数万亿的记录。 复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型...

    Hadoop海量数据处理技术详解与项目实战

    第12章 实现数据分析工具模块 第13章 实现业务数据的数据清洗模块 第14章 实现点击流日志的数据清洗模块 第15章 实现购书转化率分析模块 第16章 实现购书用户聚类模块 第17章 实现调度模块 结束篇:总结和展望 第18...

    Hadoop的数据处理解决方案Cascalog.zip

    Cascalog 是 Hadoop 上的数据处理解决方案,无需 hassle。 Cascalog 是 Clojure 或者 Java 的全功能数据处理和查询库。Cascalog 主要的作用是处理 Hadoop 上的“大数据”或者分析你的本地电脑, Cascalog 是替代 Pig...

    3-大数据处理架构Hadoop.ppt

    Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop

    数据算法:Hadoop、Spark大数据处理技巧

    如果你准备深入研究MapReduce框架来处理大数据集,本书非常实用,通过提供丰富的算法和工具,它会循序渐进地带你探索MapReduce世界,用Apache Hadoop或Apache Spark构建分布式MapReduce应用时通常都需要用到这些算法...

    Hadoop权威指南 中文版

    本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...

    Hadoop知识点梳理

    Hadoop 的学习和使用需要一定的技术基础和专业知识,熟悉分布式系统和大数据处理的概念和技术。对于小规模数据集或简单的数据处理需求,可能不需要使用 Hadoop,而可以选择其他更简单的工具和技术。

    大数据分析-网站日志数据文件(Hadoop部署分析资料)

    至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始...

    Hadoop豆瓣电影分析可视化源码

    我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等...

    大数据安全hadoop面临的安全挑战

    大数据分析处理日渐成为企业的主流业务,而Hadoop了成为了大数据处理的主要工具,但它却存在安全风险。

    A毕业设计:基于 Hadoop 的游戏数据分析系统

    基于Hadoop的游戏数据分析系统是一种利用Hadoop生态系统技术进行大规模游戏数据处理和分析的平台。这种系统结合了Hadoop分布式计算框架的能力,可处理庞大的游戏数据集,并提供多维度的数据分析功能。以下是这种系统...

    基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc

    第二步:使用python开发的mapper reducer进行数据处理。 第三步:创建hive数据库,将处理的数据导入hive数据库 第四步:将分析数据导入mysql 3. 详细实现步骤操作纪要 3.1 hadoop环境准备 首先开启Hadoop集群:...

    机器学习算法的网络大数据级应用实践

    搭建,包括底层的硬件平台以及基于 hadoop 的数据处理工具; 以基于物品的协同过滤推荐算法———slopeone 算法为核心实现 了协同过滤推荐并设计了整套实验流程,实验选择了一个具有代表性开放数据源作为处理对象,...

    论文研究-Hadoop海量数据迁移系统开发及应用.pdf

    当前高能物理实验产生的数据量越来越大,利用大数据处理平台Hadoop进行高能物理数据处理时,面临数据迁移的实际需求,而现有迁移工具不支持HDFS与其他文件系统间的数据传输,性能存在明显缺陷。从高能物理数据同步、...

    HADOOP_SPARK

    数据算法-Hadoop/saprk大数据处理技巧,基础工具书,很实用

    Hadoop部署脚本

    Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计...

    Hadoop权威指南 第二版(中文版)

     Nutch系统利用Hadoop进行数据处理的精选实例  总结  Rackspace的日志处理  简史  选择Hadoop  收集和存储  日志的MapReduce模型  关于Cascading  字段、元组和管道  操作  Tap类,Scheme对象和Flow对象 ...

Global site tag (gtag.js) - Google Analytics