# 前言
Apache Zeppelin 是一款基于 web 的 notebook(类似于 ipython 的 notebook),支持交互式地数据分析。原生就支持 Spark、Scala、SQL、shell、markdown 等。
对于 Zeppelin 而言,并不依赖 Hadoop 集群环境,我们可以部署到单独的节点上进行使用~
# 版本选择
zeppelin 每个版本分别对应两种版本:netinst 和 all。
主要区别是:netinst 是 net -install 的简写,就是 Interpreters 自己通过网络安装,具体安装教程可以查阅官方文档。
而 all 版本则是 Interpreters 都集成在压缩包中,无需网络安装了。
这里我选择 0.9.0 的 all 版本进行安装
# 安装配置
下载地址
http://zeppelin.apache.org/download.html
文件比较大,有 1.5 个 G 左右,所以要耐心等待。
上传至服务器并解压
配置环境变量
[root@hadoop02 zeppelin-0.9.0-preview1-bin-all]# vim /etc/profile # ZEPPELIN_HOME export ZEPPELIN_HOME=/opt/module/zeppelin-0.9.0-preview1-bin-all export PATH=$PATH:$ZEPPELIN_HOME/bin [root@hadoop02 zeppelin-0.9.0-preview1-bin-all]# source /etc/profile
修改 zeppelin 配置
对配置文件重命名
[root@hadoop02 conf]# cp zeppelin-env.sh.template zeppelin-env.sh
[root@hadoop02 conf]# cp zeppelin-site.xml.template zeppelin-site.xml
修改 zeppelin-env.sh。添加路径,注意换成自己的路径
export JAVA_HOME=/opt/module/jdk1.8.0_144 export SPARK_HOME=/opt/module/spark-2.1.1-bin-hadoop2.7
修改 zeppelin-site.xml。更改服务器地址和端口,保证端口不被其他进程占用
<property>
<name>zeppelin.server.addr</name>
<value>hadoop02</value>
<description>Server binding address</description>
</property>
<property>
<name>zeppelin.server.port</name>
<value>8090</value>
<description>Server port.</description>
</property>
启动
[root@hadoop02 zeppelin-0.9.0-preview1-bin-all]# zeppelin-daemon.sh start
jps 查看
[root@hadoop02 zeppelin-0.9.0-preview1-bin-all]# jps
7008 DataNode
7362 NodeManager
25939 HMaster
4873 QuorumPeerMain
6906 NameNode
26074 HRegionServer
35562 Jps
35340 ZeppelinServer
web 端查看
接下来就可以很方便的使用 spark 对数据库的数据进行分析了~