当前位置: 首页 > news >正文

为什么一个网站外链那么多做网站软件的

为什么一个网站外链那么多,做网站软件的,ideas wordpress theme 2.0,万州网站推广半山腰太挤了#xff0c;你该去山顶看看 —— 24.11.10 一、输出为python对象 1.collect算子 功能: 将RDD各个分区内的数据#xff0c;统一收集到Driver中#xff0c;形成一个List对象 语法#xff1a; rdd.collect() 返回值是一个list列表 示例#xff1a; from … 半山腰太挤了你该去山顶看看                                         —— 24.11.10 一、输出为python对象 1.collect算子 功能: 将RDD各个分区内的数据统一收集到Driver中形成一个List对象 语法 rdd.collect() 返回值是一个list列表 示例 from pyspark import SparkConf,SparkContext import osconf SparkConf().setMaster(local).setAppName(test_spark) os.environ[PYSPARK_PYTHON] E:/python.learning/pyt/scripts/python.exe sc SparkContext(conf conf)Set {小明,小红,小强} Tuple (小明,小红,小强)set_rdd sc.parallelize(Set) tuple_rdd sc.parallelize(Tuple)print(set_rdd.collect()) print(tuple_rdd.collect()) 2.reduce算子 功能: 对RDD数据集按照你传入的逻辑进行聚合 语法: rdd.reduce(func)rdd sc.parallelize(range(1 , 10)) # 将rdd的数据进行累加求和 print(rdd.reduce(lambda a , b : a b)) 返回值等同于计算函数的返回值 示例 from pyspark import SparkContext,SparkConf import os import jsonos.environ[PYSPARK_PYTHON] E:/python.learning/pyt/scripts/python.execonf SparkConf().setMaster(local).setAppName(test_spark) sc SparkContext(conf conf)List [1,2,3,4,5,6,7,8,9] rdd sc.parallelize(List) print(rdd.reduce(lambda x, y : x y))3.take算子 功能 取RDD的前N个元素组合成list返回 语法 sc.parallelize([3,2,1,4,5,6]).take(5) # [32145] 返回前n个元素组成的list 示例 from pyspark import SparkContext,SparkConf import os import jsonos.environ[PYSPARK_PYTHON] E:/python.learning/pyt/scripts/python.exe conf SparkConf().setMaster(local[*]).setAppName(test_spark) sc SparkContext(confconf) List (1,2,3,4,5,6,7,8,9) rdd sc.parallelize(List) res rdd.take(4) print(前四个元素为res) 4.count算子 功能 计算RDD有多少条数据 语法 sc.parallelize([3,2,1,4,5,6]).count() 返回值是一个数字 示例 from pyspark import SparkConf,SparkContext import os import jsonos.environ[PYSPARK_PYTHON] E:/python.learning/pyt/scripts/python.exe conf SparkConf().setMaster(local[*]).setAppName(test_spark) sc SparkContext(confconf)rdd sc.parallelize([yyh,hl,grq,zxj,cby,wfe,mrr,qjy]) print(rdd.count()) 二、输出到文件中 1.saveAsTextFile算子 功能 将RDD的数据写入文本文件中 支持本地写出、 hdfs等文件系统 语法 rdd sc.parallelize([12345]) rdd.saveAsTextFile(../data/output/test.txt) 2.配置Hadoop相关依赖 调用保存文件的算子需要配置Hadoop依赖 ① 下载Hadoop安装包 http://archive.apache.org/dist/hadoop/common/hadoop-3.0.0/hadoop-3.0.0.tar.gz ② 解压到电脑任意位置 ③ 在Python代码中使用os模块配置: os.environ[HADOOP HOME]HADOOP解压文件夹路径 E:\python.learning\hadoop分布式相关\hadoop-3.0.0 ④ 下载winutils.exe,并放入Hadoop解压文件夹的bin目录内 https://raw.githubusercontent.com/steveloughran/winutils/master/hadoop-3.0.0/bin/winutils.exe ⑤ 下载hadoop.dll,并放入:C:/Windows/System32 文件夹内 https://raw.githubusercontent.com/steveloughran/winutils/master/hadoop-3.0.0/bin/hadoop.dll 3.代码示例 from pyspark import SparkConf,SparkContext import osconf SparkConf().setMaster(local).setAppName(test_spark) os.environ[PYSPARK_PYTHON] E:/python.learning/pyt/scripts/python.exe sc SparkContext(conf conf)# 准备RDD1 rdd1 sc.parallelize([1,2,3,4,5])# 准备RDD2 rdd2 sc.parallelize([(Hello, 3),(Spark, 5),(Hi, 7)])# 准备RDD3 rdd3 sc.parallelize([[1, 3, 5],[6, 7, 9],[11, 13, 11]])# 输出到文件中 rdd1.saveAsTextFile(E:\python.learning\hadoop分布式相关\data\output1/rdd1) rdd2.saveAsTextFile(E:\python.learning\hadoop分布式相关\data\output2/rdd2) rdd3.saveAsTextFile(E:\python.learning\hadoop分布式相关\data\output3/rdd3)注如果输出路径的文件存在代码将会报错 4.运行结果 创建几个文件取决于Hadoop上的分区数量 解决方式修改rdd的分区 5.修改rdd分区为1个 方式1 Sparkconf对象设置属性全局并行度为1 from pyspark import SparkConf, SparkContext import os os.environ[PYSPARK_PYTHON] E:/python.learning/pyt/scripts/python.exe os.environ[HADOOP_HOME] E:\python.learning\hadoop分布式相关\hadoop-3.0.0 conf SparkConf().setMaster(local).setAppName(test_spark) conf.set(spark.default.parallelize, 1) sc SparkContext(conf conf)# 准备RDD1 rdd1 sc.parallelize([1,2,3,4,5])# 准备RDD2 rdd2 sc.parallelize([(Hello, 3),(Spark, 5),(Hi, 7)])# 准备RDD3 rdd3 sc.parallelize([[1, 3, 5],[6, 7, 9],[11, 13, 11]])# 输出到文件中 rdd1.saveAsTextFile(E:\python.learning\hadoop分布式相关\data\output1/rdd1) rdd2.saveAsTextFile(E:\python.learning\hadoop分布式相关\data\output2/rdd2) rdd3.saveAsTextFile(E:\python.learning\hadoop分布式相关\data\output3/rdd3)方式2 创建RDD的时候设置 parallelize方法传入numSlices参数为1 rdd1 sc.parallelize([1,2,3,4,5],1)
http://www.hkea.cn/news/14520107/

相关文章:

  • 免费软件app下载大全正能量网站运动器材网站开发方案
  • 响应式旅游网站模板下载重庆唐卡装饰口碑怎么样
  • 贵阳网站建设推广公司企业所得税减免优惠政策
  • 免费的网站软件下载安装加盟培训网站建设
  • 广州天河区网站建设公司网页制作怎么上传到网站
  • 网站域名空间5个G的多少钱官方微信公众号怎么创建
  • 做网站费用做100个网站效果
  • 专业做网站厂家欧美设计网站
  • 网站的功能板块wordpress添加一个加载动画
  • 免费的企业网站建设手工制作小玩具简单又好玩
  • 化妆品网站建设推广方案国内十大高端定制西服品牌
  • 网站仿西安建站模板厂家
  • 设计国外网站成品网站管理系统 源码
  • 永州市开发建设投资有限公司网站石家庄互联网公司排行榜
  • wordpress 企业网站 教程杭州正规的网站建设公司
  • 网站备案提交资料揭阳做网站设计
  • 没网站怎么做京东联盟云落 wordpress主题
  • 开发一个网站需要几个人设计服务网站
  • 京东门户网站怎么做赚钱平台网站
  • 众筹网站制作右安门网站建设
  • 做一个代驾app需要多少钱石狮新站seo
  • 单仁资讯做网站怎样公司网站地址
  • 初中学习网站大全免费南通的网站建设
  • 网页网站的区别是什么怎么制作h5棋牌软件
  • 网站名称和备案公司名称不一样wordpress超链接无下划线
  • 怎么做dj网站推荐国外网站设计
  • 天津网站公司广东知名网站建设
  • 域名 空间 网站制作wordpress 搬家后
  • 余姚网站建设服务建外贸网站
  • 企业网站备案还是不用备案小程序开发问题