大连市网站制作电话,wordpress 标签特效,网站优化外包推荐,wordpress设置联系表格一、Spark安装
1.相关链接
Spark安装和编程实践#xff08;Spark3.4.0#xff09;_厦大数据库实验室博客 (xmu.edu.cn)
2.安装Spark#xff08;Local模式#xff09;
按照文章中的步骤安装即可
遇到问题#xff1a;xshell以及xftp不能使用
解决办法#xff1a;
在…一、Spark安装
1.相关链接
Spark安装和编程实践Spark3.4.0_厦大数据库实验室博客 (xmu.edu.cn)
2.安装SparkLocal模式
按照文章中的步骤安装即可
遇到问题xshell以及xftp不能使用
解决办法
在linux使用镜像网站进行下载wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.5.1/spark-3.5.1-bin-without-hadoop.tgz
二、编程实践
1.使用sbt对Scala独立应用程序进行编译打包
同样在Linux中使用wget下载sbt安装文件sbt-1.9.0.tgz
wget https://github.com/sbt/sbt/releases/download/v1.9.0/sbt-1.9.0.tgz
注意由于sbt没有国内镜像下载较慢大概两个小时
2.其他按照上面教程中安装即可
3.实验报告要求
读取HDFS系统文件“/user/hadoop/test.txt”如果该文件不存在请先创建
1方法 1使用 hadoop fs -put 命令上传本地文件 1.首先你需要有一个本地文件假设你有一个名为 local_test.txt 的本地文件其中包含你想要写入 HDFS 的内容。 2.使用以下命令将本地文件上传到 HDFS 如果你是集群需要打开所有几点再启动hadoop,否则报错处于安全模式 hadoop fs -put /path/to/local_test.txt /user/data/test.txt将 /path/to/local_test.txt 替换为你的本地文件的实际路径。
2方法 2直接在 HDFS 上创建文件并写入内容 1.使用 hadoop fs -cat 命令直接在 HDFS 上创建文件并写入内容
hadoop fs -cat /user/data/test.txt这将创建一个名为 test.txt 的空文件。 2.现在你可以写入内容到这个文件中。输入你想要写入的内容然后按 CtrlD 结束输入。
This is the content of the test.txt file.3.按 CtrlD 结束输入后test.txt 文件将包含你刚刚输入的内容。 请注意这些命令需要在 Hadoop 集群的节点上运行或者你需要通过 SSH 登录到集群中的一个节点。如果你的 Hadoop 集群配置了 Web 界面如 Hue 或 Ambari你也可以通过 Web 界面来上传文件和查看文件内容。
4.通过如下代码将整个应用程序打包成 JAR首次运行同样需要下载依赖包
/usr/local/sbt/sbt package
注意这一步要保证你的Linux系统中所有文件夹名称为英文
5.建立一个名为 SimpleApp.scala 的文件
相关代码
/* SimpleApp.scala */
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.conf.Configurationobject SimpleApp {def main(args: Array[String]): Unit {val conf new Configuration()val fs FileSystem.get(conf)val path new Path(/user/data/test.txt)val isExists fs.exists(path)if (!isExists) {val outputStream fs.create(path)outputStream.close()}val inputStream fs.open(path)val lineCount scala.io.Source.fromInputStream(inputStream).getLines().sizeprintln(sFile line count: $lineCount)inputStream.close()}
}注意上述代码中的val path new Path(/user/data/test.txt)要替换为你的test.txt的路径
6.在simple.sbt中添加如下内容声明该独立应用程序的信息以及与 Spark 的依赖关系
name : Simple Project
version : 1.0
scalaVersion : 2.12.18
libraryDependencies org.apache.hadoop % hadoop-client % 2.10.1注意你的scala和hadoop版本要与代码中的相同 7.通过 spark-submit 运行程序
教程给的指令缺少文件编码格式需要指定编码格式以下为修改后的指令
/usr/local/spark-3.5.1/bin/spark-submit --class SimpleApp --driver-java-options -Dfile.encodingUTF-8 ~/sparkapp/target/scala-2.12/simple-project_2.12-1.0.jar
/usr/local/spark-3.5.1/bin/spark-submit --class SimpleApp --driver-java-options -Dfile.encodingUTF-8 ~/sparkapp/target/scala-2.12/simple-project_2.12-1.0.jar 21 | grep Lines with a:
注意需要更改你的spark安装路径