当前位置: 首页 > news >正文

手机怎么建造网站老网站删除做新站会影响收录吗

手机怎么建造网站,老网站删除做新站会影响收录吗,电子商务营销师,wordpress govpress 汉化1.向量和嵌入 https://zhuanlan.zhihu.com/p/634237861 encoder的输入就是向量#xff0c;提前嵌入为向量 二.多模态文本嵌入向量过程 1.文本预处理 文本tokenizer之前需要预处理吗#xff1f; 是的#xff0c;文本tokenizer之前通常需要对文本进行预处理。预处理步骤可…1.向量和嵌入 https://zhuanlan.zhihu.com/p/634237861 encoder的输入就是向量提前嵌入为向量 二.多模态文本嵌入向量过程 1.文本预处理 文本tokenizer之前需要预处理吗 是的文本tokenizer之前通常需要对文本进行预处理。预处理步骤可以包括以下内容 1. 标准化 大小写转换将文本转换为统一大小写通常是小写以减少词汇表大小。去除标点符号除去不必要的标点符号保持文本的简洁。 2. 分词准备 去除空白清除多余的空格或换行符。特殊字符处理处理特殊字符或符号以确保分词的准确性。 3. 其他处理 停用词过滤根据任务需要可以去除常见但无意义的停用词如“的”、“和”等。词干提取或词形还原将单词还原到其基本形式以统一表示。 这些预处理步骤帮助提高tokenizer的效率和准确性确保生成的token序列更具一致性和可用性。 当然这里是一个简单的文本预处理示例 原始文本 What is the animal?预处理步骤 大小写转换 将文本转换为小写 what is the animal?去除标点符号 去掉问号 what is the animal去除多余空格 确保没有多余空格 what is the animal停用词过滤可选 如果需要可以去掉停用词如is, the具体取决于任务需求 what animal词干提取或词形还原可选 将单词还原到词干形式如“running”变为“run” what animal结果 经过预处理文本更为简洁适合于tokenization和后续处理。预处理后的文本可以被tokenizer进一步分割为token序列如 [what, animal]这些步骤帮助确保tokenizer的输出一致且易于模型处理。 2.tokenizer 字节对编码 例如BPE、WordPiece等分词模型构建词汇表[low, est]添加自增索引。 BPEByte Pair Encoding本身不需要训练但它确实需要一个过程来构建词汇表。这涉及从文本中统计频率和合并字符对。以下是一个示例来说明这个过程 BPE构建过程示例 假设文本数据 banana, bandana步骤1初始化 将每个单词分解为字符序列 b a n a n ab a n d a n a 步骤2统计频率 统计所有相邻字符对的出现频率 b a2次a n3次n a3次a n3次n d1次d a1次 步骤3合并高频对 合并出现频率最高的字符对 a n b an a n ab an d a n a 步骤4重复过程 再次统计字符对 b an2次an a2次n a2次an d1次d a1次 合并 an ban a n aban d a n a 继续合并直到达到预定义的词汇表大小。 最终词汇表 通过多次合并最终得到一个包含字符和子词的词汇表 [b, a, n, d, an, ban]总结 BPE通过合并高频字符对构建出一个高效的子词词汇表。这个过程不需要训练参数但需要从数据中统计和合并字符对以创建词汇表。 3.embedding 通过子词索引在嵌入表中查找对应的嵌入向量。相似的语义信息的挨着。 文本嵌入表需要训练吗还是LLM预训练模型自带的 文本嵌入表通常是需要训练的但它可以是LLM预训练模型的一部分。在大型语言模型LLM的预训练过程中嵌入表会随着模型其他参数一起优化以便更好地捕捉词汇的语义信息。 两种常见情况 预训练模型自带 许多大型语言模型在发布时已经包含了训练好的文本嵌入表。使用这些模型时嵌入表可以直接应用于新任务。 自定义训练 如果你使用自己的数据进行微调或训练新的模型文本嵌入表会在训练过程中更新。嵌入表的参数会随着其他模型参数一起通过反向传播进行优化。 总结 文本嵌入表可以是预训练模型的一部分也可以在特定任务中通过微调进行更新。嵌入表的质量对模型理解和生成文本的能力有重要影响。 在多模态大语言模型MLLM中文本嵌入表可以是静态的也可以是动态的具体取决于模型的设计和使用的技术。 静态嵌入 定义每个词在训练开始时被分配一个固定的向量。特征 嵌入在训练过程中不随上下文变化。常用于早期的嵌入技术如Word2Vec和GloVe。 优点计算效率高易于实现。缺点无法捕捉词的上下文特征和多义性。 动态嵌入 定义词的嵌入根据上下文动态生成。特征 嵌入向量在每个输入实例中可能不同。使用模型如BERT、GPT等。 优点能够更好地理解上下文处理多义词。缺点计算复杂度较高。 在MLLM中的应用 静态嵌入在一些简单或资源受限的应用中可能仍然使用。动态嵌入在需要深度理解和复杂推理的任务中更为常见。 总结 在现代多模态模型中动态上下文嵌入越来越普遍它们能够提供更丰富的语义信息适合复杂的跨模态任务。
http://www.hkea.cn/news/14557232/

相关文章:

  • 用dw做的网站生成链接吗深圳网络公司推广
  • 适合学生做的网站类型网站建设公司的服务器
  • 山东做网站的ps做图软件怎么下载网站
  • 网站竞争对手的选定一般参考什么标准的仅有网站做app
  • 建设网站有哪些目的是什么意思郑州广告牌制作市场
  • 注册网站流程及资料优化师
  • 宁波网站建设制作推广互联网产品推广方案范文
  • 唐山网站制作价格表白小程序制作
  • 深圳 赢客创想网络技术股份有限公司 网站建设如何推广引流
  • 区块链 做网站网站建设太金手指六六二七
  • 网站建设内容3000字域名更新自动转跳
  • 网站首页用什么字体好wordpress word发布文章
  • 成都协会网站建设百度h5发布
  • 网站建设与规划的书兰州做it网站运营的怎么样
  • 石家庄网站建设机构开发网站
  • 电子元器件网站怎么做wordpress多条件筛选插件
  • 开花店做网站wordpress 时间轴页面
  • 校园兼职网站建设对亚马逊网站做简要分析与评价
  • 高水平的番禺网站建设北京官网建设公司
  • 门户网站的发展趋势国外源码网站
  • dede网站建设教程云盘做的网站百度找不到
  • 公司怎么找做网站wordpress免费编辑器
  • 浙江省职业建设学院官方网站百度小程序官方收费标准
  • 十大SEO网站外链建设误区如何访问英文网站
  • 那个网站专门做婚纱相册网页布局设计方法
  • 网站建设好后怎么更新内容手机装修设计软件app
  • 佛山做外贸网站方案教育机构
  • 女士春深圳 网站制作企业常用的网络推广策略
  • 学院网站建设招标书合肥全网推广
  • 网站上二维码怎么做的手把手教你做网站 怎么注册域名