3.3k 3 分钟

# Value 类型 # sample(withReplacement, fraction, seed) 作用:以指定的随机种子随机抽样出数量为 fraction 的数据,withReplacement 表示是抽出的数据是否放回,true 为有放回的抽样,false 为无放回的抽样,seed 用于指定随机数生成器种子 需求:创建一个 RDD(1-10),从中选择放回和不放回抽样 代码 package com.yaindream.bigdata.sparkimport org.apache.spark.{SparkConf,...
1.4k 1 分钟

# 什么是 Spark # 定义 Spark 是一种基于内存的快速、通用、可扩展的大数据分析引擎 # 历史 2009 年诞生于加州大学伯克利分校 AMPLab,项目采用 Scala 编写 2010 年开源 2013 年 6 月成为 Apache 孵化项目 2014 年 2 月成为 Apache 顶级项目 # Spark 内置模块 # Spark Core 实现了 Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集 (Resilient Distributed DataSet,简称 RDD) 的 API...
2.6k 2 分钟

# Spark 下载地址 官网地址 http://spark.apache.org/ 文档查看地址 https://spark.apache.org/docs/2.1.1/ 下载地址 https://spark.apache.org/downloads.html 我使用的 spark 版本是 2.1.1,如果想和我使用一样的版本,可以从这个百度云链接获取 https://pan.baidu.com/s/1ZDMKSeGofCfQZFo95DGvVw 提取码:bu90 # Spark 的重要角色 # Driver 驱动器 Spark 的驱动器是执行开发程序中的 main...
3.1k 3 分钟

# 准备工作 查看 HBase 的 MapReduce 任务执行时的 ClassPath [root@hadoop02 hbase-1.3.1]# hbase mapredcpSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/module/hbase-1.3.1/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in...
3.3k 3 分钟

# 前言 目标:实现将 HDFS 中的数据写入到 HBase 表中 构建 Mapper 用于读取 HDFS 中的文件数据 package com.yaindream.mr1;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/** * Created with IntelliJ IDEA. * User: WangYu * Date: 2020/6/15 *...
3.2k 3 分钟

# 前言 目标:将 HBase 的 fruit 表中的数据,通过 MR 筛选处理,导入到 HBase 中的 fruit2 表中 构建 Mapper 类,用于读取 fruit 表中的数据 package com.yaindream.mr2;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import...
311 1 分钟

真的是太坑了 这些天在学习大数据相关的框架,为了有更好的体验,所以就用学生身份租了三台服务器体验完全分布式环境 但是我的阿里云服务器却频繁的遭到黑客攻击,我真的吐血了,为啥要攻击我这个菜鸟啊,我只是想学习啊呜呜呜呜 真的吐血 每次被攻击,服务器都是直接崩掉。远程连接也是直接崩掉,连都连不上,咋办,重启。阿里云控制台也是一堆警告爆红,能看到详细信息却不能一键修复。想要修复得要购买企业版的服务,一个月几百我真的,打扰了,我玩不起了,退了。 真欺负我网络安全知识懂得不多 这个仇我记下了...
2.3k 2 分钟

# 创建 Admin 对象 private static Connection connection = null;private static Admin admin = null;static { try { // 获取配置文件信息 Configuration configuration = HBaseConfiguration.create(); configuration.set("hbase.zookeeper.quorum", "hadoop02,hadoop03,hadoop04"); // 创建连接对象...
3.2k 3 分钟

# 创建 connection 对象 private static Connection connection = null;private static Admin admin = null;static { try { // 获取配置文件信息 Configuration configuration = HBaseConfiguration.create(); configuration.set("hbase.zookeeper.quorum", "hadoop02,hadoop03,hadoop04"); //...
2.4k 2 分钟

# 基本操作 进入 HBase 客户端命令行 [root@hadoop02 hbase-1.3.1]# bin/hbase shell 查看帮助命令 hbase(main):001:0> help 查看当前数据库中有哪些表 hbase(main):002:0> list # 表的操作 创建表 hbase(main):003:0> create 'student','info' 插入数据到表 hbase(main):008:0> put...