分类存档: 大数据 - 第2页

ElasticSearch 6.8.3 for CentOS6.5 安装

1. 集群环境及安装包

1.1. 集群环境

主机名
IP
系统版本
部署服务

hadoop32
192.168.0.32
CentOS6.5_64
ES Node

hadoop33
192.168.0.33
CentOS6.5_6[……]

Read more

Yarn的内存超出指定的 yarn.nodemanager.resource.memory-mb 的解决过程

背景

集群背景:48Core,256GMem,24台节点的集群。每台节点给Nodemanager分配了128G。

问题

结果一次大型任务运行时,150亿的表和400亿的表做join时,每台节点的内存居然100%打满了。我这里的100%是整个节点的100%,而我们给所有大数据的组件内存才不到20[……]

Read more

Hive UDF、UDAF、UDTF使用

1. 目录

[TOC]

2. UDF

注:UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF

3. UDAF

4. U[……]

Read more

HBase BulkLoad

1. 数据导入流程

一般数据存放在关系型数据库,Oracle、MySQL中。如果数据量不大,少于30G,量少于5000万条,可以用Sqoop 直接 Oracle -> HBase。
量大的话,HBase 性能会严重影响,建议
1、Sqoop Oracle -> HDFS;
2、HDFS -> HFi[……]

Read more

编译 HBase 0.98.13 基于 Hadoop 2.6.0

1. 目录

[TOC]

2. 基本环境

应用
版本
位数
备注

系统
CentOS 6.5
64

JDK
1.7.0_79
64

Maven
3.3.3

Hadoop
2.6.0
64[……]

Read more

Hadoop2.6.5源码分析-NameNode核心启动流程

1. 概述

我们要分析HDFS-NameNode的启动流程,就得从启动脚本开始一步步分析,当然开始之前,我们需要编译Hadoop的源码,具体的编译流程请参考我另外一篇博客 hadoop2.6.5源码编译

2. start-dfs.sh

2.1. 介绍

我们启动Hadoop在2[……]

Read more

CDH 5.16.2 安装 Kafka

1. 下载Kafka Parcel包

1.1. CDH Kafka兼容性

Kafka兼容性列表可以参考Cloudera的官方手册:
https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolid[……]

Read more

CentOS6.5 CDH5.16.2离线安装

1. 集群环境及安装包

1.1. 集群环境

主机名
IP
系统版本
部署服务

hadoop32
192.168.0.32
CentOS6.5_64
CM Server、Agent、MySQL

hadoop33
192.168.0.33[……]

Read more