当前位置: 首页 > news >正文

网站开发 定义b2b平台排名

网站开发 定义,b2b平台排名,怎么做外链到其他网站,政府网站建设研究观点Hive Sampling 抽样函数 文章目录Hive Sampling 抽样函数Random随机抽样Block 基于数据块抽样Bucket table 基于分桶表抽样语法在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。Random随机抽样 随机抽样使用rand()函数确保…

Hive Sampling 抽样函数

文章目录

  • Hive Sampling 抽样函数
    • Random随机抽样
    • Block 基于数据块抽样
    • Bucket table 基于分桶表抽样
      • 语法

在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。

Random随机抽样

  • 随机抽样使用rand()函数确保随机获取数据,LIMIT来限制抽取的数据个数。
  • 表数据多时抽样速度不快,但随机。
  • 有两种用法:
    方法一:(效率较高)
SELECT * FROM student
DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;

方法二:

SELECT * FROM student
ORDER BY RAND() LIMIT 2;

Block 基于数据块抽样

  • 允许随机获取n行数据、百分比数据、指定大小的数据
  • 采样粒度是HDFS块大小
  • 优点是速度快,但不随机
  • 例:
  1. 获取1行数据:
SELECT * FROM student
TABLESAMPLE(1 ROWS);
  1. 百分比数据:
SELECT * FROM student
TABLESAMPLE(50 PERCENT);
  1. 指定大小的数据:
SELECT * FROM student
TABLESAMPLE(1k);

Bucket table 基于分桶表抽样

  • 一种特殊的采样方法,针对分桶表进行了优化
  • 抽样既随机,速度也很快。

语法

  • y必须是table总桶数的倍数或因子。hive根据y的大小,决定抽样的比例。(当y=2,有4个桶时,抽取4/2个桶的数据)
  • x表示从哪个桶开始抽取。
  • x的值必须小于y的值。
  • ON colname表示基于什么抽
    1. ON RAND():表示随机抽
    2. ON 分桶字段:表示基于分桶字段抽样,效率更高
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
  • 例:
SELECT * FROM t_usa_covid19_bucket TABLESAMPLE(BUCKET 1 OUT OF 5 ON RAND());
http://www.hkea.cn/news/655020/

相关文章:

  • 有没有女的做任务的网站广东省新闻
  • seo长尾关键词优化如何做网站推广优化
  • 网站搭建服务合同seo排名赚
  • 东莞有什么比较好的网站公司苏州关键词排名系统
  • 做中国供应商免费网站有作用吗浙江网站推广运营
  • mysql8 wordpress百度推广优化是什么意思
  • 做装修广告网站好seo推广公司招商
  • 城市模拟建设游戏网站今天最新的新闻头条新闻
  • 手机网站自适应代码品牌网络营销策划方案
  • 个人网站建设在哪里百度资源搜索平台
  • 云空间免费空间北京网站优化校学费
  • 个人网站做导航网站项目推广平台有哪些
  • 威海住房建设局网站培训学校资质办理条件
  • 做趣味图形的网站免费线上培训平台
  • 女生做网站前端设计师成都网站seo
  • 濮阳建设银行官方网站搜索引擎优化的对比
  • 完全删除wordpressseo小白入门
  • 做网站常用到的css标签什么软件可以找客户资源
  • 有做销售产品的网站有哪些新闻头条今日新闻
  • 深圳自己做网站 服务器优化的近义词
  • 网站开发职业工资网站推广上首页
  • 宝安附近公司做网站建设多少钱深圳百度开户
  • 成都紧急通知seo网络营销招聘
  • 思坎普网站建设如何做营销推广
  • 太原网站优化公司有域名和服务器怎么建网站
  • 网站策划的前景seo 推广
  • wordpress导入网站文章怎么联系百度人工客服
  • 制冷机电工程东莞网站建设简阳seo排名优化培训
  • 北京网站建设 网站维护服装营销方式和手段
  • 唐山高端网站建设开发新客户的十大渠道