当前位置: 首页 > news >正文

海尔商城网站建设维护seo推广专员工作内容

海尔商城网站建设维护,seo推广专员工作内容,大连网站设计布局,佛山网站设计优化公司一、TL#xff1b;DR 重要性#xff1a;数据质量 数据数量数据质量提升原则#xff1a;提升数据多样性和分布和提升数据质量和高质量数据数量具体如何提升#xff1a;针对传统NN任务、LLM任务和MLLMs任务#xff0c;方法和侧重点不一样如何使用这些方法#xff1a;…一、TLDR 重要性数据质量 数据数量数据质量提升原则提升数据多样性和分布和提升数据质量和高质量数据数量具体如何提升针对传统NN任务、LLM任务和MLLMs任务方法和侧重点不一样如何使用这些方法将这些方法做成算子写入pipeline框架进行大规模使用做完这些还缺什么数据飞轮数据合成 二、总体原则 数据重要性维度数据质量 数据数量 数据质量维度我觉得阿里的data-juicer总结的很好如下所示 提升数据多样性和分布提升数据质量和高质量数据数量 总体来说阿里采用了一些启发式的规则以算子的形式通过ray部署进入数据pipeline将源源不断的各类数据通过这些算子进行去重和过滤得到最终的数据集。 三、如何提升数据质量 不同的任务对数据质量的提升方法不一样如下所示。 3.1 detection/seg/classification等传统NN任务 传统的NN任务可以使用active learning/coreset挑选/数据蒸馏的方式来做基本可以做到30%的数据达到90%以上的性能比如我之前的博客 https://blog.csdn.net/lovep1/article/details/146779443 核心集DeepCore: A Comprehensive Library for CoresetSelection in Deep Learning-CSDN博客 3.2 LLM等大语言模型相关的任务 可以使IFD/MoDs/困惑度等LLM相关质量指标进行NLP数据过滤GPT3使用未开源的过滤手段可以将40T的数据压缩至400G压缩率98%LIMA可以只使用1000条数据训练具体的方法可以参考我之前的博客 https://blog.csdn.net/lovep1/article/details/147032636 3.3 MLLMs等多模态任务 可以使用启发式规则清洗的方式进行过滤可以参考我之前的博客: https://blog.csdn.net/lovep1/category_12871625.html数据质量-MetaCLIPDEMYSTIFYING CLIP DATA-CSDN博客 四、如何提升数据多样性 数据多样性一般从数据用途、数据形式和数据语义三个方面进行处理。核心目的挑选出最具备diversity的分布 4.1 数据用途我的理解 4.1.1 不同领域 大模型预训练或者sft时不同领域进行混合得到的数据相当于不同的下游任务的场景可以参考我之前的博客InternVL2.5Expanding Performance Boundaries of Open-SourceMultimodal Models 论文理解-CSDN博客 4.1.2 相同领域/相同模态 对同类型或者同模态的数据从各种细节上要求多样性比如同一种语言代表不同的语义、同一种语言不同的翻译等 以视频模态为例对地域、语言等做出多样性要求 4.2 数据形式 这边主要是指prompt和对应的answer的形式 prompt表达方式的多样性同一个语义在不同的场景和上下文中回答prompt的难度对prompt的难度进行把控使得在同一语义空间的prompt变得足够的差异化和多样性比如Wizard方法prompt/answer的长度既要保留长数据也要保留短数据所谓的长数据还需要将各种重点信息隐藏在长句子中answer的分布多样性answer需要足够的diversity 4.3 数据语义 数据语义其实在MLLMs中是存在的比较多的我的理解是通过图像/视频语义的分布来进行数据的筛选如下所示 数据质量-SemDeDup: Data-efficient learning at web-scale through semantic deduplication_semdedup去重-CSDN博客 五、如何使用这些方法呢 我们可以将上述的方法和规则做成算子写到data-juicer等框架里面做成数据filter的pipeline这样就可以大规模的将网上的爬虫数据、公开数据、领域数据进行蒸馏和压缩从而获得高质量数据。
http://www.hkea.cn/news/14543365/

相关文章:

  • 视频网站点击链接怎么做济南网站建设云华互动
  • 本地安装网站无法连接数据库济南平面设计公司前十名
  • 昭通网站制作华为云服务器官网入口
  • 网站空间可以通过什么获取建设银行网站怎么预约纪念币
  • 中山网站seo网站会员系统wordpress
  • 建网站论坛微信开放平台相关认证方式
  • 网站开发的背景与环境临沂百度联系方式
  • 南昌本地生活网站有哪些青岛安装建设股份公司网站
  • 网站建设企业免费咨询一个人做网站 知乎
  • 网站的建设与维护怎么弄iis网站服务器基本安全设置步骤
  • 那个网站上找工程造价私活做建网站和建小程序多少钱
  • 网站开发能封装成app吗信誉好的网站建设案例
  • 阿里云怎么建设网站上海在线
  • 滴滴网站建设流程访问自己做的网站吗
  • 网站开发工作时间怎么建设一个营销型网站
  • 网站建设开发成本中国建造师信息网官网
  • 织梦欧美网站模板广西智能网站建设报价
  • 有关做美食的网站乐建材网站免费模板
  • 宁夏网站设计制作html网站模板
  • 网站服务费网络建设会计分录普陀区网站开发
  • 权威发布e站常见的跨境电商平台有哪些
  • 找家里做的工作到什么网站做一个官方网站多少钱一个
  • 怎么查看网站外链效果app设计制作软件
  • 基层建设检索网站如何删除多个wordpress
  • 福建省建设厅网站建造师证转出二维码生成器使用方法
  • 那里可以做网站vi设计获奖作品
  • 南昌网站建设q479185700棒网站解析错误
  • 范县网站建设常州网站推广平台
  • 哈尔滨队网站网页美工wordpress.org建站
  • 烟台高端网站制作公司wordpress编辑器段间距