当前位置: 首页 > news >正文

wordpress动漫视频网站网络舆情应急预案

wordpress动漫视频网站,网络舆情应急预案,网站出现用户名密码提示,公众号开发单位内容目录创建SparkSession对象从CSV文件中读取从JSON文件中读取从Parquet文件中读取从数据列表中创建DataFrame从字典列表中创建DataFrame选择一列选择多列过滤年龄大于30的数据过滤名字为Alice的数据可以使用and、or、not等操作符进行组合查询按照年龄分组并计算平均年龄和最大…

内容目录

  • 创建SparkSession对象
  • 从CSV文件中读取
  • 从JSON文件中读取
  • 从Parquet文件中读取
  • 从数据列表中创建DataFrame
  • 从字典列表中创建DataFrame
  • 选择一列
  • 选择多列
  • 过滤年龄大于30的数据
  • 过滤名字为Alice的数据
  • 可以使用and、or、not等操作符进行组合查询
  • 按照年龄分组并计算平均年龄和最大年龄
  • 将age列从整型改为浮点型

Spark的DataFrame是一种类似于表格的数据结构,可以进行各种数据处理操作。使用DataFrame可以很方便地处理结构化数据(如CSV、JSON、Parquet等格式的数据)。

DataFrame是Spark SQL中的概念,因此需要首先引入Spark SQL库:

from pyspark.sql import SparkSession

创建SparkSession对象

spark = SparkSession.builder.appName(“example”).getOrCreate()
创建DataFrame
从文件中读取
可以使用SparkSession的read方法从不同类型的文件中读取数据,例如:

从CSV文件中读取

df = spark.read.csv(“file.csv”, header=True, inferSchema=True)

从JSON文件中读取

df = spark.read.json(“file.json”)

从Parquet文件中读取

df = spark.read.parquet(“file.parquet”)
直接创建
也可以使用SparkSession的createDataFrame方法直接创建DataFrame,例如:

从数据列表中创建DataFrame

data = [(“Alice”, 25), (“Bob”, 30), (“Charlie”, 35)]
df = spark.createDataFrame(data, [“name”, “age”])

从字典列表中创建DataFrame

data = [{“name”: “Alice”, “age”: 25}, {“name”: “Bob”, “age”: 30}, {“name”: “Charlie”, “age”: 35}]
df = spark.createDataFrame(data)
DataFrame的基本操作
显示DataFrame
使用show方法可以将DataFrame中的数据显示出来,例如:

df.show()
查看DataFrame的结构
使用printSchema方法可以查看DataFrame的结构,例如:

df.printSchema()
选择列
使用select方法可以选择一列或多列,例如:

选择一列

df.select(“name”).show()

选择多列

df.select(“name”, “age”).show()
过滤数据
使用filter方法可以根据条件过滤数据,例如:

过滤年龄大于30的数据

df.filter(df[“age”] > 30).show()

过滤名字为Alice的数据

df.filter(df[“name”] == “Alice”).show()

可以使用and、or、not等操作符进行组合查询

df.filter((df[“age”] > 30) & (df[“name”] != “Alice”)).show()
分组聚合
使用groupBy方法可以对数据进行分组聚合操作,例如:

按照年龄分组并计算平均年龄和最大年龄

df.groupBy(“age”).agg({“age”: “avg”, “age”: “max”}).show()
DataFrame的类型转换
更改列名
使用withColumnRenamed方法可以更改列名,例如:

df = df.withColumnRenamed(“name”, “person_name”)
df.show()
更改列类型
使用withColumn方法可以更改列的数据类型,例如:

from pyspark.sql.functions import col

将age列从整型改为浮点型

df = df.withColumn(“age”, col(“age”).cast(“float”))
df.printSchema()
DataFrame的持久化
DataFrame的持久化可以将数据缓存在内存或磁盘中,避免重复读取数据,提高性能。

使用cache方法可以将DataFrame缓存在内存中,例如:

df.cache()
使用persist方法可以将DataFrame缓存在磁盘中,例如:

df.persist()

http://www.hkea.cn/news/736355/

相关文章:

  • 昭通市建设局网站太原百度关键词优化
  • 个人建网站允许吗seo职位要求
  • 环保网站设计网络营销优化推广
  • 网页设计网站制作公司冯耀宗seo视频教程
  • 怎么用路由器做网站百度指数平台官网
  • 济南做网站互联网公司有哪些seo是什么公司
  • 辛集seo网站优化价格许昌网站seo
  • 网站建设后期维护百度快速收录技术
  • 网站建设中的推广工作seo学校培训
  • 上海专业网站建设网百度搜索推广开户
  • 做学校网站素材图片合肥seo代理商
  • 真题真做报名网站淘宝搜索关键词排名
  • 免费的黄冈网站有哪些平台?培训行业seo整站优化
  • 寿县住房与城乡建设局网站真正免费的网站建站平台
  • 常德seo招聘网站seo站长工具
  • 网站开发多久完成俄罗斯搜索引擎yandex推广入口
  • 漳州做网站建设建网站免费
  • 网站建设服务上海广州软文推广公司
  • 做一个网站app需要多少钱web制作网站的模板
  • 网站建设的财务计划新媒体营销策略有哪些
  • 网站建设分金手指专业二八宁波品牌网站推广优化
  • 清远网站建设公司百度游戏风云榜
  • 网上可以自学什么技术win7系统优化软件
  • 嘉兴建站软件如何做好企业网站的推广
  • 在凡科做网站短视频推广
  • 深圳推广公司推荐q群排名优化软件
  • 什么网站做简历模板宁德市医院
  • 用什么软件做公司网站游戏推广赚佣金的平台
  • 购物网站 后台模板河北seo技术培训
  • 聊城建设委员会官方网站google seo