RockyLinux 8 安装 Apache Spark

Apache Spark 是一个开源框架,用于在集群计算环境中分析大数据。 一般用于 Hadoop 中以提高数据处理速度。 它支持多种编程语言,包括 Java、Scala、Python 和 R。Apache Spark 可以轻松地在多台计算机上处​​理和分发大型数据集的工作。 数据科学家和工程师使用它对大量数据执行操作。

在这篇文章中,我们将向我们展示 Rocky Linux 8 上安装 Apache Spark。

先决条件

  • 在 云平台上运行 Rocky Linux 8 的服务器
  • 在我们的服务器上配置的 root 密码

第 1 步 – 创建 云服务器

首先,登录到我们的 云服务器。 创建一个新服务器,选择 Rocky Linux 8 作为至少 2GB RAM 的操作系统。 通过 SSH 连接到我们的云服务器并使用页面顶部突出显示的凭据登录。

登录到服务器后,运行以下命令以使用最新的可用软件包更新基本系统。

dnf update -y

第 2 步 – 安装 Java

Apache Spark 是一个基于 Java 的应用程序,因此我们需要将 Jave 安装到我们的服务器上。 我们可以通过运行以下命令来安装它:

dnf install java-11-openjdk-devel -y

安装 Java 后,使用以下命令验证 Java 版本:

java --version

我们将获得以下输出:

openjdk 11.0.12 2021-07-20 LTS
OpenJDK Runtime Environment 18.9 (build 11.0.12+7-LTS)
OpenJDK 64-Bit Server VM 18.9 (build 11.0.12+7-LTS, mixed mode, sharing)

第 3 步 – 安装 Spark

首先,使用以下命令下载最新版本的 Apache Spark for Apache 网站:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

下载完成后,使用以下命令提取下载的文件:

tar -xvf spark-3.1.2-bin-hadoop3.2.tgz

接下来,使用以下命令将提取的目录移动到 /opt:

mv spark-3.1.2-bin-hadoop3.2 /opt/spark

接下来,为 Apache Spark 创建一个专用用户并为 /opt 目录设置适当的所有权:

useradd spark
chown -R spark:spark /opt/spark

第 4 步 – 为 Apache Spack 创建一个 Systemd 服务文件

接下来,我们需要为 Apache Spark Master 和 Slave 创建一个 systemd 服务文件。

首先,使用以下命令为 Master 创建一个 systemd 服务文件:

nano /etc/systemd/system/spark-master.service

添加以下行:

[Unit]
Description=Apache Spark Master
After=network.target

[Service]
Type=forking
User=spark
Group=spark
ExecStart=/opt/spark/sbin/start-master.sh
ExecStop=/opt/spark/sbin/stop-master.sh

[Install]
WantedBy=multi-user.target

保存并关闭文件,然后为 Slave 创建一个 systemd 服务文件:

nano /etc/systemd/system/spark-slave.service

添加以下行:

[Unit]

Description=Apache Spark Slave

After=network.target

[Service]
Type=forking
User=spark
Group=spark
ExecStart=/opt/spark/sbin/start-slave.sh spark://wer-server-ip:7077
ExecStop=/opt/spark/sbin/stop-slave.sh

[Install]
WantedBy=multi-user.target

保存并关闭文件,然后重新加载 systemd 守护程序以应用更改。

systemctl daemon-reload

接下来,启动 Spark Master 服务并使其在系统重新启动时启动:

systemctl start spark-master
systemctl enable spark-master

要验证主服务的状态,请运行以下命令:

systemctl status spark-master

我们将获得以下输出:

● spark-master.service - Apache Spark Master
   Loaded: loaded (/etc/systemd/system/spark-master.service; disabled; vendor preset: disabled)
   Active: active (running) since Tue 2021-10-12 14:46:35 UTC; 8s ago
  Process: 11967 ExecStart=/opt/spark/sbin/start-master.sh (code=exited, status=0/SUCCESS)
 Main PID: 11978 (java)
    Tasks: 32 (limit: 23695)
   Memory: 169.0M
   CGroup: /system.slice/spark-master.service
           └─11978 /usr/lib/jvm/java-11-openjdk-11.0.12.0.7-0.el8_4.x86_64/bin/java -cp /opt/spark/conf/:/opt/spark/jars/* -Xmx1g org.apache.s>

Oct 12 14:46:33 RockyLinux8 systemd[1]: Starting Apache Spark Master...
Oct 12 14:46:33 RockyLinux8 start-master.sh[11967]: starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-spark-org>
Oct 12 14:46:35 RockyLinux8 systemd[1]: Started Apache Spark Master.

第 5 步 – 访问 Apache Spark

此时,Apache Spark 已启动并侦听端口 8080。我们可以使用 URL http://wer-server-ip:8080 访问它。 我们应该看到以下页面:
Apache Spark 仪表板

现在,启动 Spark Slave 服务并使其在系统重新启动时启动:

systemctl start spark-slave
systemctl enable spark-slave

我们可以使用以下命令检查从服务的状态:

systemctl status spark-slave

样本输出:

● spark-slave.service - Apache Spark Slave
   Loaded: loaded (/etc/systemd/system/spark-slave.service; disabled; vendor preset: disabled)
   Active: active (running) since Tue 2021-10-12 14:48:47 UTC; 16s ago
  Process: 12064 ExecStart=/opt/spark/sbin/start-slave.sh spark://69.28.84.173:7077 (code=exited, status=0/SUCCESS)
 Main PID: 12077 (java)
    Tasks: 35 (limit: 23695)
   Memory: 190.6M
   CGroup: /system.slice/spark-slave.service
           └─12077 /usr/lib/jvm/java-11-openjdk-11.0.12.0.7-0.el8_4.x86_64/bin/java -cp /opt/spark/conf/:/opt/spark/jars/* -Xmx1g org.apache.s>

Oct 12 14:48:44 RockyLinux8 systemd[1]: Starting Apache Spark Slave...
Oct 12 14:48:44 RockyLinux8 start-slave.sh[12064]: This script is deprecated, use start-worker.sh
Oct 12 14:48:44 RockyLinux8 start-slave.sh[12064]: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-spark-org.>

现在,重新加载我们的 Apache Spark 仪表板。 我们应该在以下页面上看到我们的工作人员:
Apache Spark Worker 添加到仪表板

现在,单击 Worker。 我们应该在以下屏幕上看到 Worker 的详细信息:
Apache Spark 工作器信息

恭喜! 我们已经在 RockyLinux 8 上成功安装了 Apache Spark。我们现在可以在 Hadoop 中使用 Apache Spark 来提高数据处理速度。 在 的专用服务器上试一试!

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论