当前位置: 首页 > news >正文

网站收录多少才有排名开发公司空置房物管费归口什么费用

网站收录多少才有排名,开发公司空置房物管费归口什么费用,wordpress底部代码,公司网络平台搭建note 文章目录 noteVisualGLM-6B模型图生文#xff1a;CogVLM-17B模型1. 模型架构2. 模型效果 文生图#xff1a;CogView3模型DALL-E3模型CogVideo模型网易伏羲-丹青模型Reference VisualGLM-6B模型 VisualGLM 是一个依赖于具体语言模型的多模态模型#xff0c;而CogVLM则是…note 文章目录 noteVisualGLM-6B模型图生文CogVLM-17B模型1. 模型架构2. 模型效果 文生图CogView3模型DALL-E3模型CogVideo模型网易伏羲-丹青模型Reference VisualGLM-6B模型 VisualGLM 是一个依赖于具体语言模型的多模态模型而CogVLM则是一个更广阔的系列不仅有基于GLM的双语模型也有基于Llama2系列的英文模型。这次开源的 17B 模型就是基于Vicuna-7B 的英文模型。 图生文CogVLM-17B模型 多模态模型CogVLM-17B开源 Githubhttps://github.com/THUDM/CogVLM Huggingfacehttps://huggingface.co/THUDM/CogVLM 魔搭社区https://www.modelscope.cn/models/ZhipuAI/CogVLM Paperhttps://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf 1. 模型架构 思想视觉优先 之前的多模态模型通常都是将图像特征直接对齐到文本特征的输入空间去并且图像特征的编码器通常规模较小这种情况下图像可以看成是文本的“附庸”效果自然有限。 模型共包含四个基本组件ViT 编码器MLP 适配器预训练大语言模型GPT-style和视觉专家模块。 ViT编码器在 CogVLM-17B 中采用预训练的 EVA2-CLIP-E。MLP 适配器MLP 适配器是一个两层的 MLPSwiGLU用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。预训练大语言模型CogVLM 的模型设计与任何现有的 GPT-style的预训练大语言模型兼容。具体来说CogVLM-17B 采用 Vicuna-7B-v1.5 进行进一步训练也选择了 GLM 系列模型和 Llama 系列模型做了相应的训练。视觉专家模块在每层添加一个视觉专家模块以实现深度的视觉 - 语言特征对齐。具体来说每层视觉专家模块由一个 QKV 矩阵和一个 MLP 组成。 训练方式 模型在15亿张图文对上预训练了4096个A100*days并在构造的视觉定位visual grounding数据集上进行二阶段预训练。在对齐阶段CogVLM使用了各类公开的问答对和私有数据集进行监督微调使得模型能回答各种不同类型的提问。 2. 模型效果 CogVLM 可以在不牺牲任何 NLP 任务性能的情况下实现视觉语言特征的深度融合。训练的 CogVLM-17B 是目前多模态权威学术榜单上综合成绩第一的模型在14个数据集上取得了state-of-the-art或者第二名的成绩。这些基准大致分为三类共 14 个包括图像字幕Image Captioning、视觉问答Visual QA、视觉定位Visual Grounding。 文生图CogView3模型 链接https://github.com/THUDM/CogView DALL-E3模型 论文https://cdn.openai.com/papers/dall-e-3.pdf CogVideo模型 论文链接https://arxiv.org/abs/2205.15868 代码链接https://github.com/THUDM/CogVideo 模型训练方法 首先基于本文作者团队提出的文本合成图像模型CogView2CogView2是一个包含60亿参数的预训练transformer模型CogVideo可以看做是CogView2的视频升级版本CogVideo共有94亿个参数并在540万个文本视频对上进行了训练。CogVideo的训练主要基于本文提出的多帧分层生成框架具体来说就是先根据CogView2通过输入文本生成几帧图像然后再根据这些图像进行插帧提高帧率完成整体视频序列的生成。为了更好的在嵌入空间中对齐文本和视频片段提高模型对文本预训练知识的迁移作者提出了一种双通道注意力机制来提高性能。此外为了应对模型超大的参数和长视频序列的存储压力作者将Swin Transformer[4]中的滑动窗口引入到了本文的自回归视频生成任务中 多帧率分层训练方法 网易伏羲-丹青模型 丹青模型基于原生中文语料数据及网易自有高质量图片数据训练与其他文生图模型相比丹青模型的差异化优势在于对中文的理解能力更强对中华传统美食、成语、俗语、诗句的理解和生成更为准确。比如丹青模型生成的图片中鱼香肉丝没有鱼红烧狮子头没有狮子。基于对中文场景的理解丹青模型生成的图片更具东方美学能生成“飞流直下三千尺”的水墨画也能生成符合东方审美的古典美人。 Reference [1] https://github.com/THUDM/CogVLM [2] CogVLM智谱AI 新一代多模态大模型 [3] CogView通过Transformer掌握文本到图像的生成 [4] 清华联合BAAI提出第一个开源预训练文本视频生成模型CogVideo [5] OpenAI最新的文本生成图像大模型DALL·E3 [6] 2023DALL-E3两步微调标题重建通过更好的标题改进图像生成
http://www.hkea.cn/news/14399273/

相关文章:

  • 泉州网站建设方案维护创建电子商务网站的7个步骤
  • 宁波网站建设哪家比较好即将倒闭的设计院
  • 衡水网站建设选哪家年终总结汇报ppt模板
  • 招标代理网站建设深圳市做网站公司
  • 怎么套模板 网站学网站制作多少钱
  • 湛江免费建站公司电商网站seo
  • html5移动端网站建设上海建设网站公司
  • 学校校园网站使用中国制造货源网一件代发
  • 网站 站长统计代码谷歌优化技术
  • 有做销售产品的网站有哪些wordpress游戏主题下载
  • 旅游网站建设的重要性wordpress怎么修改中文
  • 杭州网站公司WordPress页面怎么html
  • 静态网站 插件天津seo排名扣费
  • 合肥网站推广培训手机网站开发库
  • 网站开发图书管理系统重庆网站建设索q479185700
  • wordpress一键仿站大连网站开发哪家好
  • 做网站需要哪些人手网站注销流程
  • 网站手机客户端制作软件万网网站加速
  • 淘宝客网站都用什么做常州市城乡建设局网站
  • 深圳 公司网站建设软件开发平台合同
  • 网站设计西安网站建设苏州有什么好玩的景点景区
  • 江阴市做网站的建设工程信息网重庆
  • 网站代码查看口碑营销的主要手段有哪些
  • 北京网站建设网站建设WordPress会员积分插件
  • 网店代运营需要多少钱seo舆情优化
  • 公司信息网站建设目标域名备案接入商查询
  • 京东怎么做轮播图链接网站哪个网站帮别人做ppt
  • 做网站的企业是什么行业网站策划案模板
  • 网站开发属于程序员吗手机短视频网站的建设
  • 保定医疗网站建设公司返利商城网站怎么做