Debian 10 安装和设置 Apache Spark

[*]
[*]Apache Spark 是一个免费的、开源的、通用的集群计算框架。 它专为提高速度而设计,用于机器学习以流式处理复杂的 SQL 查询。 它能够跨多台计算机分析大型数据集并并行处理数据。 Apache Spark 为多种编程语言提供 API,包括 Python、R 和 Scala。 它还支持更高级别的工具,包括 GraphX、Spark SQL、MLlib 等。

[*]在这篇文章中,我们将向我们展示 Debian 10 上安装和配置 Apache Spark。

先决条件

  • 云平台上的全新 Debian 10 服务器
  • 在我们的服务器上配置的 root 密码

第 1 步 – 创建 云服务器

[*]首先,登录到我们的 云服务器。 创建一个新服务器,选择 Debian 10 作为至少 2GB RAM 的操作系统。 通过 SSH 连接到我们的云服务器并使用页面顶部突出显示的凭据登录。

[*]登录到 Debian 10 服务器后,运行以下命令以使用最新的可用软件包更新基本系统。

apt-get update -y

第 2 步 – 安装 Java

[*]在开始之前,我们需要安装 Java 以运行 Apache Spark。 我们可以使用以下命令安装它:

apt-get install default-jdk -y

[*]安装 Java 后,使用以下命令验证 Java 安装:

java --version

[*]我们应该看到以下输出:

openjdk 11.0.11 2021-04-20
OpenJDK Runtime Environment (build 11.0.11+9-post-Debian-1deb10u1)
OpenJDK 64-Bit Server VM (build 11.0.11+9-post-Debian-1deb10u1, mixed mode, sharing)

第 3 步 – 安装 Scala

[*]我们还需要安装 Scala 才能运行 Apache Spark。 我们可以使用以下命令安装它:

apt-get install scala -y

[*]安装 Scala 后,使用以下命令验证 Scala 安装:

scala -version

[*]我们应该得到以下输出:

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

第 4 步 – 安装 Apache Spark

[*]首先,我们需要从其官方网站下载最新版本的 Apache Spark。 我们可以使用以下命令下载它:

wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

[*]下载完成后,使用以下命令提取下载的文件:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

[*]接下来,将提取的目录移动到 /opt:

mv spark-3.1.2-bin-hadoop3.2 /opt/spark

[*]接下来,我们需要定义一个环境变量来运行 Spark。

[*]我们可以在 ~/.bashrc 文件中定义它:

nano ~/.bashrc

[*]添加以下行:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

[*]保存并关闭文件,然后使用以下命令激活环境变量:

source ~/.bashrc

第 5 步 – 启动 Apache Spark 集群

[*]至此,Apache spark 安装完成。 我们现在可以使用以下命令启动 Apache Spark:

start-master.sh

[*]我们应该得到以下输出:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out

[*]默认情况下,Apache Spark 侦听端口 8080。我们可以使用以下命令检查它:

ss -tunelp | grep 8080

[*]我们应该得到以下输出:

tcp   LISTEN 0      1                                   *:8080            *:*    users:(("java",pid=5931,fd=302)) ino:24026 sk:9 v6only:0 <->                   

第 6 步 – 启动 Apache Spark 工作进程

[*]接下来,使用以下命令启动 Apache Spark 工作进程:

start-worker.sh spark://debian10:7077

[*]我们应该得到以下输出:

starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out

第 7 步 – 访问 Apache Spark

[*]我们现在可以使用 URL http://wer-server-ip:8080 访问 Apache Spark Web 界面。 我们应该在以下屏幕上看到 Apache Spark 仪表板:[*]
Apache Spark 仪表板

第 8 步 – 访问 Apache Spark Shell

[*]Apache Spark 还提供了一个命令行界面来管理 Apache Spark。 我们可以使用以下命令访问它:

spark-shell

[*]连接后,我们应该获得以下外壳:

Spark context Web UI available at http://debian10:4040
Spark context available as 'sc' (master = local[*], app id = local-1627197681924).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.11)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

[*]如果要停止 Apache Spark 集群,请运行以下命令:

stop-master.sh

[*]要停止 Apache Spark 工作器,请运行以下命令:

stop-worker.sh

[*]恭喜! 我们已在 Debian 10 上成功安装和配置 Apache Spark。本指南将帮助我们在开始配置 Spark 集群和执行高级操作之前执行基本测试。 立即在我们的专用服务器上试用!

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论