Hadoop

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

org.apache.hadoop.hdfs.DFSClient.getKeyProvider()问题的解决

 我采用的是Hadoop2.5.2,Hive1.1.0,当执行load data local inpath \'/mydir/student.txt\' into table person;时报如下的错误: java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.D

2015-07-21 10:16:27

Hadoop API 使用介绍

Hadoop API 使用介绍 Hadoop API被分成(divide into)如下几种主要的包(package) org.apache.hadoop.conf     定义了系统参数的配置文件处理API。 org.apache.hadoop.fs    &nbsp

2015-07-21 10:16:26

Hadoop初学(3)_ant编译eclipse-plugin

昨天在使用ant生成eclipse-plugin的时候,直接进入到${HADOOP_ROOT}/src/contrib/eclipse-plugin下使用ant命令,发现无法生成,之后在网上找到了一篇针对hadoop-1.1.2版本进行ant编译的文章,虽然我使用的是hadoop1.0.0,但是依照文中指定位置的文件,分别进行修改,确实可以成功编译了。故将这

2015-07-21 10:16:26

hadoop之WordCount代码编写

hadoop之WordCount代码编写 WCMapper.java package hadoop.mr; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.

2015-07-21 10:16:26

Hadoop源码阅读之三个核心模块代码组织情况(一)

(一)Hadoop下三大核心项目说明: 1.Common----Hadoop项目的core部分更名为Hadoop Common。Common为Hadoop的其他项目提供了一些常用的工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们在通用硬件上搭建云计算环境提供的基本的服

2015-07-21 10:16:25

hadoop 文件append异常

一、现象 大量的小文件采用append的方式合并到大文件中。偶尔抛出异常: 2015-04-2917:00:00,038 INFO  - ++you does not havecombine_lock:99996/oivscore 2015-04-2917:00:47,436 INFO  - Could not co

2015-07-21 10:16:24

Win7下用virtualbox 虚拟3台虚拟机搭建hadoop集群

 用了这么久的hadoop,只会使用streaming接口跑任务,各种调优还不熟练,自定义inputformat , outputformat, partitioner 还不会写,于是干脆从头开始,自己搭一个玩玩,也熟悉一下整体架构。 整体环境: 主机Win7 i5 4核 8G内存 笔记本; 虚拟机(客户机)采用Centos5.9 ( 用这个

2015-07-21 10:16:23

Hadoop添加新的节点

1.修改host 1) 新的slave的ip添加到master/etc/hosts中 2) 新的slave的ip添加到slaves的/etc/hosts中 3) 将master及其他slave的ip  hostname对 添加到新的slave的/etc/hosts中 2.修改namenode的配置文件/app/hadoop/

2015-07-21 10:16:23

第一章 Apache Hadoop的介绍

1,什么是Hadoop 它是一个可靠的,可扩展,分布式计算的开源软件。 2,Hadoop四大模块 1.       Hadoop Common: 公共工具模块,支持其它模块。 2.       Had

2015-07-21 10:16:22

基于C++的Hadoop Map/Reduce框架--HCE

Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及读取、排序、归并、压缩、写入等具体阶段。 HCE计算框架是一个开源项目,旨在通过优化任务执行

2015-07-21 10:16:21

C++ Hadoop实战备忘

前言:hadoop用于解决大数据处理问题。 看到这么火,咱也来凑把热闹,瞧瞧到底是什么神奇的技术。 实战过程,还是很波折。 毕竟,对这些hadoop的命令不是很熟。 所幸,天不负有心人,终于跑通了第一个示例。 对我而言,这个的意义,不亚于输出了开天辟地的“hello world”。 配置过程中出错时,不要泄气,一般是由于路径配置不对引起,可与

2015-07-21 10:16:21

Hadoop学习笔记二---HDFS

HDFS的概念 1、数据块      HDFS跟磁盘一样也有块的概念,磁盘上块的大小一般为512字节,而文件系统的块则一般是磁盘块的整数倍,比如我当前centos块的大小事4096 也就是4K,而HDFS块的大小由参数dfs.block.size 设定默认是64M,但是与单一磁盘文件系统相似,HDFS上的文

2015-07-21 10:16:20

大数据架构hadoop

摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公

2015-07-21 10:16:19

centos集群上安装ganglia-3.6.0监控hadoop-2.2.0和hbase-0.96.0

Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Gangl

2015-07-21 10:16:19

hadoop的集群copy

hadoop不同版本之间的集群复制。 1.基础 使用hadoop distcp 来进行集群间的数据复制。 2.实战 如果两个集群之间版本不一样,应该这样来复制。 hadoop  distcp   hftp://source/source  hdfs://dest:9000/source 为啥是hftp呢,因

2015-07-21 10:16:18

hadoop tez hive

终于把tez环境配置好了,所用版本为hadoop2.4,tez0.4.0,hive0.13.1,试了hive0.12,同样的配置不行,无法启动tez的mrr。 本机测试了一下速度,两个表关联测试,不用tez的hadoop2.3用时660秒,这个配置好了用了840秒。也不知道是不是自己的机器不行,放到服务器上再测试了。 最终是看了这个网址才配好的:ht

2015-07-21 10:16:18

hadoop2.6.0的maven的pom配置

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.

2015-07-21 10:16:17

hadoop日志文件_奇怪的时间

在hadoop性能优化的实验中,碰到一个奇怪的问题,描述如下: 在shell端显示                  job先执行时间:13:53:32~13:57:18(3m46s,根据shell终端显示计算)       &nbs

2015-07-21 10:16:17

Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

      纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。       通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及

2015-07-21 10:16:16

零基础学习hadoop到上手工作线路指导(编程篇)

2.hadoop编程需要注意哪些问题? 5.如何编译hadoop源码?   零基础学习hadoop到上手工作线路指导(初级篇) http://www.aboutyun.com/thread-6920-1-1.html 这一篇我们使用什么开发工具,甚至考虑使用什么操作系统。然后就是Java基础知识篇,包括变量、函数等。 学习h

2015-07-21 10:16:16