分类存档: 大数据 - 第2页

ElasticSearch 6.8.3 for CentOS6.5 安装

作者: LoserZhao 日期: 2021年5月28日没有评论 | 118 views

1. 集群环境及安装包

1.1. 集群环境

主机名
IP
系统版本
部署服务

hadoop32
192.168.0.32
CentOS6.5_64
ES Node

hadoop33
192.168.0.33
CentOS6.5_6[……]

Yarn的内存超出指定的 yarn.nodemanager.resource.memory-mb 的解决过程

作者: LoserZhao 日期: 2021年5月28日 1 条评论 | 1,842 views

背景

集群背景：48Core，256GMem，24台节点的集群。每台节点给Nodemanager分配了128G。

问题

结果一次大型任务运行时，150亿的表和400亿的表做join时，每台节点的内存居然100%打满了。我这里的100%是整个节点的100%，而我们给所有大数据的组件内存才不到20[……]

Hive UDF、UDAF、UDTF使用

作者: LoserZhao 日期: 2021年5月28日没有评论 | 504 views

1. 目录

[TOC]

2. UDF

注：UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF

package cn.com.edata.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

/**
 * @author zhaominmail@vip.qq.com
 * @Date 2016年5月9日 下午2:28:36
 * @Describe
 */
public class HelloUDF extends UDF {

    public String evaluate(String str) {
        try {
            return "HelloWorld " + str;
        } catch (Exception e) {
            return null;
        }
    }
}

package cn.com.edata.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

/**

* @author zhaominmail@vip.qq.com

* @Date 2016年5月9日下午2:28:36

* @Describe

public class HelloUDF extends UDF {

public String evaluate(String str) {

try {

return "HelloWorld " + str;

} catch (Exception e) {

return null;

}

3. UDAF

package cn.com.edata.udf;

import org.apache.hadoop.hive.ql.exec.NumericUDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.hadoop.hive.serde2.io.DoubleWritable;

/**
 * @author zhaominmail@vip.qq.com
 * @Date 2016年5月10日 下午6:26:15
 * @Describe 自定义HiveUDAF
 * 1.需要import org.apache.hadoop.hive.ql.exec.UDAF以及org.apache.hadoop.hive.ql.exec.UDAFEvaluator,这两个包都是必须的
 * 2.函数类需要继承UDAF类，内部类Evaluator实现UDAFEvaluator接口
 * 3.Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数
 */
public class SumUDAF extends NumericUDAF {
    public static class Evaluator implements UDAFEvaluator {
        private boolean mEmpty;
        private double mSum;

        public Evaluator() {
            super();
            init();
        }

        // 1）init函数类似于构造函数，用于UDAF的初始化
        public void init() {
            mSum = 0;
            mEmpty = true;
        }

        // 2）iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean
        public boolean iterate(DoubleWritable o) {
            if (o != null) {
                mSum += o.get();
                mEmpty = false;
            }
            return true;
        }

        // 3）terminatePartial无参数，其为iterate函数轮转结束后，返回乱转数据，iterate和terminatePartial类似于hadoop的Combiner
        public DoubleWritable terminatePartial() {
            return mEmpty ? null : new DoubleWritable(mSum);
        }

        // 4）merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean
        public boolean merge(DoubleWritable o) {
            if (o != null) {
                mSum += o.get();
                mEmpty = false;
            }
            return true;
        }

        // 5）terminate返回最终的聚集函数结果
        public DoubleWritable terminate() {
            return mEmpty ? null : new DoubleWritable(mSum);
        }

    }

}

package cn.com.edata.udf;

import org.apache.hadoop.hive.ql.exec.NumericUDAF;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

import org.apache.hadoop.hive.serde2.io.DoubleWritable;

/**

* @author zhaominmail@vip.qq.com

* @Date 2016年5月10日下午6:26:15

* @Describe 自定义HiveUDAF

* 1.需要import org.apache.hadoop.hive.ql.exec.UDAF以及org.apache.hadoop.hive.ql.exec.UDAFEvaluator,这两个包都是必须的

* 2.函数类需要继承UDAF类，内部类Evaluator实现UDAFEvaluator接口

* 3.Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数

public class SumUDAF extends NumericUDAF {

public static class Evaluator implements UDAFEvaluator {

private boolean mEmpty;

private double mSum;

public Evaluator() {

super();

init();

}

// 1）init函数类似于构造函数，用于UDAF的初始化

public void init() {

mSum = 0;

mEmpty = true;

}

// 2）iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean

public boolean iterate(DoubleWritable o) {

if (o != null) {

mSum += o.get();

mEmpty = false;

}

return true;

}

// 3）terminatePartial无参数，其为iterate函数轮转结束后，返回乱转数据，iterate和terminatePartial类似于hadoop的Combiner

public DoubleWritable terminatePartial() {

return mEmpty ? null : new DoubleWritable(mSum);

}

// 4）merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean

public boolean merge(DoubleWritable o) {

if (o != null) {

mSum += o.get();

mEmpty = false;

}

return true;

}

// 5）terminate返回最终的聚集函数结果

public DoubleWritable terminate() {

return mEmpty ? null : new DoubleWritable(mSum);

}

4. U[……]

Read more

HBase BulkLoad

作者: LoserZhao 日期: 2021年5月28日没有评论 | 611 views

1. 数据导入流程

一般数据存放在关系型数据库，Oracle、MySQL中。如果数据量不大，少于30G，量少于5000万条，可以用Sqoop 直接 Oracle -> HBase。
量大的话，HBase 性能会严重影响，建议
1、Sqoop Oracle -> HDFS；
2、HDFS -> HFi[……]

编译 HBase 0.98.13 基于 Hadoop 2.6.0

作者: LoserZhao 日期: 2021年5月28日没有评论 | 552 views

1. 目录

[TOC]

2. 基本环境

应用
版本
位数
备注

系统
CentOS 6.5
64

JDK
1.7.0_79
64

Maven
3.3.3

Hadoop
2.6.0
64[……]

Hadoop2.6.5源码分析-NameNode核心启动流程

作者: LoserZhao 日期: 2021年5月28日没有评论 | 779 views

1. 概述

我们要分析HDFS-NameNode的启动流程，就得从启动脚本开始一步步分析，当然开始之前，我们需要编译Hadoop的源码，具体的编译流程请参考我另外一篇博客 hadoop2.6.5源码编译。

2. start-dfs.sh

2.1. 介绍

我们启动Hadoop在2[……]

CDH 5.16.2 安装 Kafka

作者: LoserZhao 日期: 2021年5月28日没有评论 | 802 views

1. 下载Kafka Parcel包

1.1. CDH Kafka兼容性

Kafka兼容性列表可以参考Cloudera的官方手册：
https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolid[……]

CentOS6.5 CDH5.16.2离线安装

作者: LoserZhao 日期: 2021年5月28日没有评论 | 705 views

1. 集群环境及安装包

1.1. 集群环境

主机名
IP
系统版本
部署服务

hadoop32
192.168.0.32
CentOS6.5_64
CM Server、Agent、MySQL

hadoop33
192.168.0.33[……]

LoserZhao – 诗和远方

分类存档: 大数据 - 第2页

ElasticSearch 6.8.3 for CentOS6.5 安装

1. 集群环境及安装包

1.1. 集群环境

Yarn的内存超出指定的 yarn.nodemanager.resource.memory-mb 的解决过程

背景

问题

Hive UDF、UDAF、UDTF使用

1. 目录

2. UDF

3. UDAF

4. U[……]

Read more

HBase BulkLoad

1. 数据导入流程

编译 HBase 0.98.13 基于 Hadoop 2.6.0

1. 目录

2. 基本环境

Hadoop2.6.5源码分析-NameNode核心启动流程

1. 概述

2. start-dfs.sh

2.1. 介绍

CDH 5.16.2 安装 Kafka

1. 下载Kafka Parcel包

1.1. CDH Kafka兼容性

CentOS6.5 CDH5.16.2离线安装

1. 集群环境及安装包

1.1. 集群环境

近期文章

分类目录

文章归档

技术链接

访问排名

近期评论

功能

分类存档: 大数据 - 第2页

1. 集群环境及安装包

1.1. 集群环境

背景

问题

1. 目录

2. UDF

3. UDAF

4. U[……] Read more

1. 数据导入流程

1. 目录

2. 基本环境

1. 概述

2. start-dfs.sh

2.1. 介绍

1. 下载Kafka Parcel包

1.1. CDH Kafka兼容性

1. 集群环境及安装包

1.1. 集群环境

近期文章

分类目录

文章归档

标签云

技术链接

访问排名

近期评论

功能

4. U[……]

Read more