当前位置: 首页 > news >正文

wordpress 全站通知泉州网站建站推广

wordpress 全站通知,泉州网站建站推广,更改网站名字,传奇怎么做充值网站下面介绍如何使用pyspark处理计算超大数据的统计指标#xff0c;主要为#xff1a;最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。 # 加载稽核数据 rd_sql fselect * from database.table spark_data spark.sql(rd_sql)# 计算众数 由于spar…下面介绍如何使用pyspark处理计算超大数据的统计指标主要为最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。 # 加载稽核数据 rd_sql fselect * from database.table spark_data spark.sql(rd_sql)# 计算众数 由于spark 2.4版本未内置相关函数 需要自定义 import pyspark.sql.functions as F # 自定义mode的计算 def sparkdf_mode(df, cols):# 构建一个空数据框mode_df pd.DataFrame()# 循环每一列for col in cols:# 先过滤空值filtered_df df.filter(F.col(col).isNotNull())# 加个判断 防止数据全空置时报错if filtered_df.count()0:# 统计出现次数 排序grouped_counts filtered_df.groupBy(col).count().orderBy(F.col(count).desc())# 获取计数值最大的第一行first_row grouped_counts.first()# 转sparkdfpdf spark.createDataFrame([first_row], grouped_counts.columns).toPandas()[col]else:# 数据全空置 赋值Nonepdf pd.DataFrame({col: [None]}) # 拼接mode_df pd.concat([mode_df, pdf], axis1)return mode_dffrom pyspark.sql.functions import col, count, when, approx_count_distinct # 分开统计 先统计字符类型 # 统计指标 string_stats spark_data.select(string_colsdate_cols).summary(max,min).toPandas() # 非空值数量 string_nonull spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in (string_colsdate_cols)]).toPandas() # 非重复值 string_unique spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in (string_colsdate_cols)]).toPandas() # 众数 string_mode sparkdf_mode(spark_data, (string_colsdate_cols)) # 添加空值占位 null_rows pd.DataFrame(None, indexnp.arange(len(string_stats), len(string_stats) 3), columnsstring_stats.columns) string_stats string_stats.append(null_rows) # 上下拼接 string_data pd.concat([string_stats.iloc[:, 1:], string_nonull, string_unique, string_mode]) print(fstring_data稽核完成)# 统计数值类型 # 统计指标 float_stats spark_data.select(float_cols).summary(max,min,mean,50%,stddev).toPandas() print(ffloat_stats稽核完成) # 非空值 float_nonull spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in float_cols]).toPandas() # 非重复值 float_unique spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in float_cols]).toPandas() # 众数 float_mode sparkdf_mode(spark_data, float_cols) # 上下拼接 float_data pd.concat([float_stats.iloc[:, 1:], float_nonull, float_unique, float_mode]) print(ffloat_data稽核完成)# 合并转置 pdf pd.concat([string_data, float_data], axis1).T # 重命名 pdf.columns [max, min, mean, median, std, nonull_cnt, unique_cnt, mode] # pdf转为sdf sdf spark.createDataFrame(pdf) # 创建临时视图 用于sqlAPI操作 sdf.createOrReplaceTempView(temp_view) # 插入库表 spark.sql(finsert overwrite table database.table select * from temp_view) # 用完删除临时视图 spark.catalog.dropTempView(temp_view) # 关闭spark spark.stop()
http://www.hkea.cn/news/14369404/

相关文章:

  • 景德镇市建设局建设信用网站女生做网站编辑好还是
  • 辽宁建设执业继续教育协会网站做网站有什么工具
  • 孙俪做的网站广告网站设计对网站搜索引擎友好性的影响
  • easyUI网站开发ftp如何备份网站
  • dede投票类网站源码网站的优缺点
  • 阿里云服务器安装网站买个app需要多少钱
  • wordpress建站前端汉中 网站建设
  • 安卓网站开发前景广州网站seo推广
  • 网站职业技能培训有哪些项目广州品牌设计公司
  • 广州建设档案馆网站如何建设机关用房管理系统网站
  • 两个男的怎么做网站开店加盟代理
  • 网站打开速度进行检测网络服务提供者发现用户利用其网络
  • 网站建设与管理教程视频教程网站的优势是什么意思
  • 重庆网站推广入口广州网站seo优化排名
  • 阿里巴巴国际站下载电脑版绍兴网站制作企业
  • 网站提示页面设计wordpress 搜索文章
  • 南京市溧水城市建设集团网站高端响应式网站建设
  • 如何个网站做优化wordpress 导出附件
  • 苏州建站模板搭建本科电子商务专业就业方向
  • 餐饮业手机php网站工程资质加盟分公司
  • 河北邢台wap网站建设wordpress 改语言
  • win2012 iis配置网站最火网页游戏
  • 哪家公司做网站比较好seo短视频网页入口引流方法
  • 广州网站推广自助网站头部设计代码
  • 网站域名备案与不备案的区别网站注册费用
  • 专门做鞋的网站广告网站设计公司
  • wordpress 调用 函数河北seo搜索引擎优化
  • 做毕业设计网站教程怎么做盗版小说网站吗
  • 专门做网页设计网站微分销系统定制开发
  • 免费做外贸的网站空间宁波网站建设的价格表