2k 2 分钟

# 前言 Part 1 有三大必考话题:work /studies, hometown, accommodation。当询问 work 或 studies 时,可能会遇到以下几个问题 # Do you work or are you a student? 你工作了还是你是学生? 这个问题不能直接用 Yes / No 来回答,而应该试着展开来说,否则无法展示语言水平。下面是几种不同身份的回答思路。 本科生 I'm a student. I study ... at ... University. 我是学生,在 ... 大学学习。 I'm majoring in ... at...
959 1 分钟

# 前言 雅思口语考试包含 Part 1, Part2, Part3 三个部分。从 Part1 到 Part3,难度是逐渐加深的,考察的话题方向涵盖生活各个领域,比较灵活,因此想要完全靠提前背诵范文来达到理想成绩是十分困难的。在备考过程中,考生应该合理规划备考,在掌握技巧的同时,真正提升语言水平。 # Part1 考察点 Introduction and interview 相当于热身环节 3 个日常生活话题,每个话题 3 ~ 4 个问题 4 ~ 5 分钟 # ID check 环节 在正式进入 Part1 的提问之前,会有一个 ID check...
2.1k 2 分钟

# 考试整体概况 雅思考试(国际英语语言测试系统)是听说读写四项英语交流能力的测试。每年,全球有超过 270 万人次在 140 个国家和地区参加雅思考试。 雅思已成为全球英语测评领导者。全球超过 9000 所院校机构所认可。无论你想留学、移民、就业,还是检测英语水平;无论你想去英国、美国、加拿大、澳大利亚、新西兰,还是荷兰法国、德国、新加坡等,只需要通过一项英语考试 —— 雅思考试。 雅思考试是为那些打算在以英语作为交流语言的国家和地区留学或就业的人们设置的英语水平考试。其主要分为两大版本: Academic(A 类 /...
1.7k 2 分钟

# 前言 GeoMesa 是一个运行在分布式计算系统上,支持大规模时空矢量数据查询和分析的开源工具。 # 下载 从 GitHub 上下载最新的发行版本,上传至服务器,并解压到相关目录 # 配置环境变量 注意把路径替换成自己的路径 export HADOOP_HOME=/path/to/hadoop export HBASE_HOME=/path/to/hbase export GEOMESA_HBASE_HOME=/opt/geomesa export...
610 1 分钟

# GDELT 介绍 GDELT 是国外一个大数据存储项目,它提供了自 1979 年至今的全球广播、印刷和网络新闻媒体报道的事件,并按时间和位置索引。其数据量十分庞大,类别也很丰富。本篇使用使用 2020 年 6 月 15 日的数据进行试验。 # 下载数据 wget http://data.gdeltproject.org/gdeltv2/20200615000000.export.CSV.zip # 将数据解压并上传到 HDFS 中 [root@hadoop02 home]# hadoop fs -put 20200615000000.export.CSV...
1.5k 1 分钟

# 前言 Apache Zeppelin 是一款基于 web 的 notebook(类似于 ipython 的 notebook),支持交互式地数据分析。原生就支持 Spark、Scala、SQL、shell、markdown 等。 对于 Zeppelin 而言,并不依赖 Hadoop 集群环境,我们可以部署到单独的节点上进行使用~ # 版本选择 zeppelin 每个版本分别对应两种版本:netinst 和 all。 主要区别是:netinst 是 net -install 的简写,就是 Interpreters 自己通过网络安装,具体安装教程可以查阅官方文档。 而 all 版本则是...
1.2k 1 分钟

# 什么是 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 # RDD 的属性 一组分区(Partition),即数据集的基本组成单位 一个计算每个分区的函数 RDD 之间的依赖关系 一个 Partitioner,即 RDD 的分片函数 一个列表,存储存取每个 Partition 的优先位置(preferred location) # RDD 的特点 RDD 表示只读的分区的数据集,对 RDD 进行改动,只能通过 RDD...
5k 5 分钟

# 编程模型 在 Spark 中,RDD 被表示为对象,通过对象上的方法调用来对 RDD 进行转换。经过一系列的 transformations 定义 RDD 之后,就可以调用 actions 触发 RDD 的计算,action 可以是向应用程序返回结果(count, collect 等),或者是向存储系统保存数据(saveAsTextFile 等)。在 Spark 中,只有遇到 action,才会执行 RDD 的计算 (即延迟计算),这样在运行时可以通过管道的方式传输多个转换。 # RDD 的转换算子 整体上可分为 Value 类型和 Key-Value 类型 # Value 类型 #...