当前位置：首页 > news >正文

培训教育网站建设高级搜索引擎

news 2026/4/7 3:43:55

培训教育网站建设,高级搜索引擎,网站架构文案,网站分为哪几种这是仿真过程某图： 仿真实战kafka kafka消费sink端和StructuredStreaming集成通信成功 ， 数据接收全部接收数据落地情况： 全部接收到并all存入mysql 下面就简单分享一下StructuredStreaming代码吧 import org.apache.spark.sql.function…

这是仿真过程某图：

kafka消费sink端和StructuredStreaming集成通信成功，数据接收全部接收

数据落地情况：

全部接收到并all存入mysql

下面就简单分享一下StructuredStreaming代码吧

import org.apache.spark.sql.functions.{col, from_json}
import org.apache.spark.sql.streaming.{ OutputMode, Trigger}
import org.apache.spark.sql.types.{IntegerType, StringType,  StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}val spark: SparkSession = SparkSession.builder().appName("kafkaConsumer").master("local[3]").getOrCreate()import spark.implicits._// 定义json字段类型格式val Jsonschmea: StructType = new StructType().add("id", dataType = IntegerType).add("name", dataType = StringType).add("sorce", dataType = IntegerType)val message: DataFrame = spark.readStream // message为从kafka读到的原数据.format("kafka").option("kafka.bootstrap.servers", "xxxxx:9092,xxxx:9092,xxxx:9092").option("subscribe", "xxxx").option("startingOffsets", "latest").load()// 将json字符串转化为结构化数据val streamData: DataFrame = message.selectExpr("cast(value as String) as message") .select(from_json($"message", Jsonschmea).alias("data"))// 将json结构化为新的df// 预加载mysql驱动// 实时写入 第二个参数预占位，want给每一批次加入唯一表示， but本次仅占位没有传参数def writeToMysql(batchDF: DataFrame, epochId: Long): Unit = {val sqlurl = "jdbc:mysql://localhost:xxxx/xxxx"val sqluser = "xxxx"val sqlpass = "xxxxx"Class.forName("com.mysql.cj.jdbc.Driver")  // mysql 8.0后得驱动，旧版本去掉cjbatchDF.foreachPartition {partitionOfRecords =>val connection = DriverManager.getConnection(sqlurl, sqluser, sqlpass)// 关闭自动提交以支持增量写入connection.setAutoCommit(false)// 创建预编译的插入语句val insertsql = "insert into jsonstream(id,name,sorce) values(?,?,?)"val preparedStatement = connection.prepareStatement(insertsql)partitionOfRecords.foreach {row =>
//              val id = row.getAs[Int]("data.id")
//              val name = row.getAs[String]("data.name")
//              val score = row.getAs[Int]("data.sorce")val id = row.getAs[Row]("data").getAs[Int]("id")val name = row.getAs[Row]("data").getAs[String]("name")val sorce = row.getAs[Row]("data").getAs[Int]("sorce")// 设置参数到预处理sql函数中preparedStatement.setInt(1, id)preparedStatement.setString(2, name)preparedStatement.setInt(3, sorce)// 执行添加到批次操作preparedStatement.addBatch()}preparedStatement.executeBatch()connection.commit() // 执行批处理后手动提交事务preparedStatement.close()  // 手动GCconnection.close()}}// 数据落地到数据库streamData.writeStream.outputMode(OutputMode.Append()).foreachBatch(writeToMysql _).trigger(Trigger.ProcessingTime("1 millisecond")) // 1 毫秒每个batch.start().awaitTermination()

存储按照一定批次量做存储

友情提示：上述程序是经过脱敏处理的哦

----彩蛋----

如果你看到者你会知道scala在11更新之后也就是12版本如下：

batchDF.foreachPartition {partitionOfRecords => ... 这个位置

Dataset的foreachPartition 里面不能处理 Row的Iterator，所以需要转为rdd在做处理

所以更改后为

batchDF.rdd.foreachPartition { partitionOfRecords => ...

而且这里不能用foreach ，否则无法序列化就能存储到mysql，不能被序列化的数据是不能在网络中进行传输的，通过二进制流的形式传出，在被反序列化回来转化为对象的形式存储

ok -----

查看全文

http://www.hkea.cn/news/520370/

做文献ppt模板下载网站有哪些常德政府网站

青岛网站建设公司排行外链工具在线

网站怎么做显得简洁美观seo数据是什么意思

阿里巴巴开通诚信通后网站怎么做网络优化网站

东莞手机网站价格便宜个人免费建站软件

电子商务网站建设的步骤一般为百度100%秒收录

做企业网站怎么样免费的推广软件下载

拓普网站建设美国搜索引擎

网站开发者工资冯耀宗seo视频教程

软件开发各阶段工作量比例搜索引擎优化的基础是什么

网站怎么做才能将名声打响云搜索app

南阳做网站优化哪家好一级域名生成二级域名

3322动态域名官网郑州seo联系搜点网络效果好

网络营销渠道的类型河北seo基础教程

做微信网站多少钱seo内部优化包括哪些内容

中国城乡建设网站网络优化公司排名

个人网站做淘宝客教程torrentkitty磁力搜索引擎

瓮安建设局网站google play三件套

大型门户网站模板营销神器

学设计的网站都有哪些seo和sem

如何做网站流量买卖营销型网站的特点

装修设计网站哪个平台最好软文推广多少钱一篇

怎么做微信里的网页网站链接网站设计平台

长宁专业做网站网络营销案例分享

相关文章：