当前位置: 首页 > news >正文

网站迁移教材怎样在阿里云做网站

网站迁移教材,怎样在阿里云做网站,wordpress主题免费,红和蓝的企业网站设计继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业#xff0c;再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText#xff0c;该数据集大概40GB#xff0c;由OpenAI创建#xff0c;主要内…继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText该数据集大概40GB由OpenAI创建主要内容爬取自Reddit平台的出站网络链接对应的网站每个链接要至少有三个赞以保障数据质量。 2. 但是WebText数据集不公开仅OpenAI自己能使用于是OpenWebText数据集OpenWebText数据集应运而生该数据集搜集超过23亿个链接大于WebText数据集。 3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等纽约时报的新闻大概也被爬取了所以有了后来的诉讼大概570GB。 4. 以下是llama开源模型早期版本的预训练数据集来源来源于多个数据集大概4.8TB比GPT3多了Github、ArXiv开放的学术论文分享平台Kaggle上也有它的数据集还有StackExchange。 5. 写到这里可以说明为什么说互联网的数据没有被耗尽 许多网站的数据是不可爬取的有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右封闭APP的数据不可爬取以中文互联网为例现在APP的数据要远大于PC互联网数据了最典型比如微信、小红书等这些APP的数据非常多、非常有价值但是无法获取互联网数据在实时更新不断有新的数据进来 6. 进一步企业的私有数据没有被用来训练。 7. 再进一步物理世界的许多数据并没有被捕获比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据未来AR眼镜如果能普及将会是一个更大的数据来源。 8. 所以预训练用的数据集其实还可以优化还有以下思路可以参考 预训练的数据集来源优化获取更高质量的数据集模型训练的时候为了节省资源会对原数据进行压缩降维如果数据集高质量点但小点可以给减小压缩空间 参考来源大语言模型LLM预训练数据集调研分析 大模型训练数据集分析多样性和挑战-CSDN博客
http://www.hkea.cn/news/14479210/

相关文章:

  • 西安网站建设托管动漫网站开发 sh框架
  • 怎么建设一个营销型网站引流渠道推广
  • 自学做网站平台运营的主要工作内容
  • 网站搭建是什么专业学的网站视觉规范怎么做
  • 怎么查看网站开发语言微信公众号分享wordpress
  • 科技类网站模板中国产品设计网
  • 深圳市门户网站建设多少钱京东联盟怎么推广赚钱
  • 提供建站服务的网络公司的比较网站建设一般多少钱网址
  • 北京高端网站建设价格网站建设可行性报告模板
  • 建设文明网站包括网站的详情页面
  • 网站开发需要的技术的流程网页设计与制作教程第六版第六章源代码
  • 企业网站推广的方法有什么做网站页面大小多大
  • 网站首页图片做多大网站建设项目环境影响评价目录
  • 网站建设要解决哪些方面的事项建设银行网站登录如何转账
  • 企业网站建设在网络营销中的地位与作用2015做导航网站有哪些功能
  • 南昌网站建设kaiu在线平面设计软件免费版
  • 景征网站建设立方米网站建设
  • 站长统计网站统计随州网站制作价格
  • 设计好的建设专业网站建设银行快审额度查询网站
  • 网站集约化建设较好的城市wordpress固定连接出错
  • 城固县网站建设专业网站建设出售
  • 去哪里学习做网站网页策划方案怎么做
  • 做详情页上什么网站找素材晋江网站建设哪家公司专业
  • 网站定制开发一般多久推广的方式有哪些
  • 厦门seo新站策划建筑网站新闻写那些好
  • 做网站卖广告挣几百万网站头部ps
  • 网站优化推广怎么做英语卷子哪个网站可以做
  • 外国人爱做视频网站吗 在线
  • 设计一个手机网站平面多少钱wordpress打开页面慢
  • wordpress建好站了打不开首页小程序的功能与作用