当前位置: 首页 > news >正文

博客网站模板下载商务网站开发与建设论文

博客网站模板下载,商务网站开发与建设论文,上海市建设工程信息报送网站,长沙企业网页设计哪家专业我们使用sparksql进行编程#xff0c;编程的过程我们需要创建dataframe对象#xff0c;这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。 但是sparksql给大家提供了多种便捷读取数据的方式。 //原始读取数据方式 sc.textFile().toRDD sqlSc.createDat…我们使用sparksql进行编程编程的过程我们需要创建dataframe对象这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。 但是sparksql给大家提供了多种便捷读取数据的方式。 //原始读取数据方式 sc.textFile().toRDD sqlSc.createDataFrame(rdd,schema) //更便捷的使用方式 sqlSc.read.text|orc|parquet|jdbc|csv|json df.write.text|orc|parquet|jdbc|csv|json write写出存储数据的时候也是文件夹的而且文件夹不能存在。 csv是一个介于文本和excel之间的一种格式如果是文本打开用逗号分隔的。text文本普通文本但是这个文本必须只能保存一列内容。 以上两个文本都是只有内容的没有列的。 json是一种字符串结构本质就是字符串但是存在kv例子 {name:zhangsan,age:20} 多平台解析方便带有格式信息。 orc格式一个列式存储格式hive专有的。parquet列式存储顶级项目 以上都是列式存储问题优点(1.列式存储检索效率高防止冗余查询 2.带有汇总信息查询特别快 3.带有轻量级索引可以跳过大部分数据进行检索)他们都是二进制文件带有格式信息。 jdbc 方式它是一种协议只要符合jdbc规范的服务都可以连接mysql,oracle,hive,sparksql 整体代码 package com.hainiu.sparkimport org.apache.spark.sql.SQLContext import org.apache.spark.sql.expressions.Window import org.apache.spark.{SparkConf, SparkContext}import java.util.Propertiesobject TestMovieWithSql {def main(args: Array[String]): Unit {//??movie???//1.id middlename lasttypeval conf new SparkConf()conf.setAppName(movie)conf.setMaster(local[*])conf.set(spark.shuffle.partitions,20)val sc new SparkContext(conf)val sqlSc new SQLContext(sc)import sqlSc.implicits._//deal dataval df sc.textFile(data/movies.txt).flatMap(t {val strs t.split(,)val mid strs(0)val types strs.reverse.headval name strs.tail.reverse.tail.reverse.mkString( )types.split(\\|).map((mid, name, _))}).toDF(mid, mname, type)df.limit(1).show()val df1 sc.textFile(data/ratings.txt).map(t{val strs t.split(,)(strs(0),strs(1),strs(2).toDouble)}).toDF(userid,mid,score)df1.limit(1).show()import org.apache.spark.sql.functions._val df11 df.join(df1, mid).groupBy(userid, type).agg(count(userid).as(cnt)).withColumn(rn, row_number().over(Window.partitionBy(userid).orderBy($cnt.desc))).where(rn 1).select(userid, type)val df22 df.join(df1, mid).groupBy(type, mname).agg(avg(score).as(avg)).withColumn(rn, row_number().over(Window.partitionBy(type).orderBy($avg.desc))).where(rn4).select(type, mname)val df33 df11.join(df22, type)//spark3.1.2?? spark2.x// df33.write.csv()df33.write.format(csv).save(data/csv)// df33.write. // csv(data/csv) // df33.write.json(data/json)// df33.write.parquet(data/parquet) // df33.write.orc(data/orc) // val pro new Properties() // pro.put(user,root) // pro.put(password,hainiu) // df33.write.jdbc(jdbc:mysql://11.99.173.24:3306/hainiu,movie,pro)} } 为了简化存储的计算方式 package com.hainiu.sparkimport org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext}object TestSink {def main(args: Array[String]): Unit {val conf new SparkConf()conf.setAppName(test sink)conf.setMaster(local[*])val sc new SparkContext(conf)val sqlSc new SQLContext(sc)import sqlSc.implicits._import org.apache.spark.sql.functions._val df sc.textFile(data/a.txt).map(t{val strs t.split( )(strs(0),strs(1),strs(2),strs(3))}).toDF(id,name,age,gender).withColumn(all,concat_ws( ,$id,$name,$age,$gender)).select(all) // df.write.csv(data/csv) // df.write.format(org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2) // .save(data/csv) // df.write.parquet(data/parquet) // df.write.format(org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2) // .save(data/parquet) // df.write.format(org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2) // .save(data/json)df.write.format(org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2).save(data/text)} } 读取数据代码 package com.hainiu.sparkimport org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContextimport java.util.Propertiesobject TestReadData {def main(args: Array[String]): Unit {val conf new SparkConf()conf.setAppName(movie)conf.setMaster(local[*])conf.set(spark.shuffle.partitions, 20)val sc new SparkContext(conf)val sqlSc new SQLContext(sc) // sqlSc.read.text(data/text).show() // sqlSc.read.csv(data/csv).show() // // sqlSc.read.parquet(data/parquet).show() // sqlSc.read.json(data/json).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2).load(data/text).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2).load(data/csv).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2).load(data/json).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2).load(data/parquet).show()sqlSc.read.orc(data/orc).show()val pro new Properties()pro.put(user,root)pro.put(password,hainiu)sqlSc.read.jdbc(jdbc:mysql://11.99.173.24:3306/hainiu,movie,pro).show()} }
http://www.hkea.cn/news/14484185/

相关文章:

  • 建立网站的内容规划公司手机网站建设公司
  • 网站部分链接做301跳转android软件开发工程师
  • 网站解析密码江苏企业网站建设
  • 制作公司网站在公账汇款时用途备注什么做期权注册网站
  • 云浮网站建设公司模板网站官网
  • 红河做网站企业网站的制作与维护
  • wordpress 自建网站长沙必去的10个景点
  • 0基础建站教程如何修改模板网站
  • 学习网站大全seo的内容有哪些
  • 个人网站备案材料填写公司做网站一般多少钱运营
  • 宿迁做网站网站导航怎么做的
  • 网站无法连接mysqlwordpress菜单顺序
  • wordpress模板网站标题重复广告公司属于什么行业
  • 网站建设佰首选金手指二五怀柔区企业网站设计机构提供
  • 用手机域名做网站有多少如何加入广告联盟赚钱
  • 一家专做土特产的网站上市公司网站建设分析评价
  • 做百度竞价网站修改影响排名吗物联网平台是什么意思
  • 无锡新吴区住房建设交通局网站各地民营企业创新前行
  • 网站开发与优化课程总结wordpress模板mip
  • 外星人建设的网站汕头网站seo外包
  • 网站前端交互功能案例分析如何选择扬中网站建设
  • 浙江火电建设有限公司网站河北建设网站
  • wordpress 标签图标2022年搜索引擎优化指南
  • 帮别人做网站的公司是外包吗常德市住房和城市建设局网站
  • 网站开发 手机 电脑wordpress 导航文字图片
  • 上传网站程序是什么群晖 安装wordpress
  • 网站建设方案公司迅速百度网站自然排名
  • dede音乐网站源码沙井网站设计
  • 网站后台怎么这么卡seo全网营销公司
  • 网页设计是网站建设与管理的内容吗哪些网站可以做电脑画画赚钱