当前位置: 首页 > news >正文

网站在线客服易聊科技长沙seo智优营家

网站在线客服易聊科技,长沙seo智优营家,自建网站投放广告,wordpress 中文乱码查找满足指定条件的app_id查询条件: 表名、时间、节点名时间限定: 最好适当放大, 不知道什么原因有点不准eventLog的存放路径: spark.history.fs.logDirectory 1. spark-sql 先限定时间段;数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;按app_id粒度聚合, 查…
  1. 查找满足指定条件的app_id
  2. 查询条件: 表名、时间、节点名
  3. 时间限定: 最好适当放大, 不知道什么原因有点不准
  4. eventLog的存放路径: spark.history.fs.logDirectory

1. spark-sql 

  • 先限定时间段;
  • 数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;
  • 按app_id粒度聚合, 查找符合条件的数据;
-- 设定时区
set spark.sql.session.timeZone=GMT+8;-- 创建数据源视图
create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T08:00:00', 'modifiedBefore'='2023-08-21T14:00:00' );with tmp as ( -- 打标数据selectinput_file_name() as file_name,if( value like '%tbl_name%', 1, 0) as table_name,if( value like '%core-1-7%', 1, 0) as host_01,if( value like '%core-1-10%', 1, 0) as host_02fromview_name
),
tmp2 as ( -- 汇总到app_id粒度selectfile_name,sum(table_name) as table_name,sum(host_01) as host_01,sum(host_02) as host_02fromtmpgroup byfile_name
)
select*
fromtmp2
wheretable_name > 0
order byfile_name
;

2. 整文件读取

  • 先初步过滤app_id;
  • 整个文件读取成一行;
  • 按条件进行过滤;
import spark.implicits._// 寻找可能的APP_ID
val sql_create_view ="""|create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T00:00:00', 'modifiedBefore'='2023-08-21T23:00:00' )|""".stripMargin
val sql_filter_app_id ="""|select|   split( input_file_name(), 'history/')[1]  as file_name|from|    view_name|where|    value like '%trandw.dwd_log_app_open_di%'|group by|    split( input_file_name(), 'history/')[1]|""".stripMargin
spark.sql(sql_create_view)
val df_app_ids = spark.sql(sql_filter_app_id)
val app_ids = df_app_ids.collect().map(_.getString(0)).mkString(",")// 整个文件读取成一行
val rdd = spark.sparkContext.wholeTextFiles(s"hdfs://hdfs-cluster/spark-history/{${app_ids}}",20).repartition(12)
val df = rdd.toDF("file_name", "value")
df.createOrReplaceTempView("tmp")// 过滤数据
val sql_str ="""|select|   file_name|from|    tmp|where|    value like '%tbl_name%'|    and value like '%core-1-7%'|    and  value like '%core-1-10%'|""".stripMarginspark.sql(sql_str).show(1)

http://www.hkea.cn/news/16886/

相关文章:

  • wordpress 漫画在线长春网站seo哪家好
  • 有没有网站开发软件怎么知道自己的域名
  • wordpress地图在哪seo网站推广收费
  • 网站调研怎样做地推拉新app推广怎么做
  • 做英文网站用什么源码重庆seo网站
  • seo网站推广方案深圳百度快速排名优化
  • 阿里云的网站建设花钱么百度公司官网首页
  • 职业本科专业建设规划上海seo服务
  • 企业百度网站怎么做的免费制作网站
  • 个人申请公司流程宁波seo公司网站推广
  • 网站官网建设大数据培训班出来能就业吗
  • 网站建设维护属于什么专业2022新闻大事件摘抄
  • 单位网站建设管理情况seo优化包括什么
  • 如何建设网站哪个济南兴田德润简介开发一个app平台大概需要多少钱?
  • 东莞网站建设环保设备营销方式和手段
  • 建设部证书查询官方网站写软文平台
  • 莆田网站建设哪里便宜2345网址导航怎么样
  • 怎么做网站注册推广百度店铺免费入驻
  • 手机网站制作公司 广州今日军事新闻最新消息
  • 帝国网站管理系统前台域名免费注册0元注册
  • 宁波网站制作公司地推放单平台
  • 域名及网站建设实验报告网络销售渠道有哪些
  • 网站建设pdf文件怎么发布河南网站建设哪个公司做得好
  • 桐城市美好乡村建设办公室网站seo学堂
  • 成都市成华区建设局官方网站东莞做网站公司首选
  • 网站建设优势重庆网站seo费用
  • 中国网站建设公司百强seo面试常见问题及答案
  • 长春电商网站建设价格低百度关键词多少钱一个月
  • 网站转wordpress网站搜索引擎优化报告
  • java做网站百度域名查询官网