当前位置：首页 > news >正文

岳阳做网站多少钱WordPress多页面菜单

news 2026/4/20 3:39:34

岳阳做网站多少钱,WordPress多页面菜单,wordpress 优化数据库,莆田网站建设推广Google 发布了最新的开放大语言模型 Gemma 2#xff0c;我们非常高兴与 Google 合作#xff0c;确保其在 Hugging Face 生态系统中的最佳集成。你可以在 Hub 上找到 4 个开源模型 (2 个基础模型和 2 个微调模型) 。发布的功能和集成包括#xff1a; Hub 上的模型https://hf.… Google 发布了最新的开放大语言模型 Gemma 2我们非常高兴与 Google 合作确保其在 Hugging Face 生态系统中的最佳集成。你可以在 Hub 上找到 4 个开源模型 (2 个基础模型和 2 个微调模型) 。发布的功能和集成包括 Hub 上的模型https://hf.co/collections/google/g-667d6600fd5220e7b967f315Hugging FaceTransformers 集成https://github.com/huggingface/transformers/releases/tag/v4.42.0与 Google Cloud 和推理端点的集成 Gemma 2 是什么 Gemma 2 是 Google 最新的开放大语言模型。它有两种规模90 亿参数和 270 亿参数分别具有基础 (预训练) 和指令调优版本。Gemma 基于 Google DeepMind 的 Gemini拥有 8K Tokens 的上下文长度 gemma-2-9bhttps://hf.co/google/gemma-2-9b90 亿基础模型。gemma-2-9b-ithttps://hf.co/google/gemma-2-9b-it90 亿基础模型的指令调优版本。gemma-2-27bhttps://hf.co/google/gemma-2-27b270 亿基础模型。gemma-2-27b-ithttps://hf.co/google/gemma-2-27b-it270 亿基础模型的指令调优版本。 Gemma 2 模型的训练数据量约为其第一代的两倍总计 13 万亿 Tokens (270 亿模型) 和 8 万亿 Tokens (90 亿模型) 的网页数据 (主要是英语) 、代码和数学数据。我们不知道训练数据混合的具体细节只能猜测更大和更仔细的数据整理是性能提高的重要因素之一。 Gemma 2 与第一代使用相同的许可证这是一个允许再分发、微调、商业用途和衍生作品的宽松许可证。立刻在 Hugging Chat 里体验 Gemma2 https://hf.co/chat/models/google/gemma-2-27b-it Gemma 2 的技术进展 Gemma 2 与第一代有许多相似之处。它有 8192 Tokens 的上下文长度并使用旋转位置嵌入 (RoPE)。与原始 Gemma 相比Gemma 2 的主要进展有四点滑动窗口注意力: 交替使用滑动窗口和全二次注意力以提高生成质量。Logit 软上限: 通过将 logits 缩放到固定范围来防止其过度增长从而改进训练。知识蒸馏: 利用较大的教师模型来训练较小的模型适用于 90 亿模型。模型合并: 将两个或多个大语言模型合并成一个新的模型。 Gemma 2 使用JAX和ML Pathways在Google Cloud TPU (27B on v5p和9B on TPU v4)上进行训练。Gemma 2 Instruct 已针对对话应用进行了优化并使用监督微调 (SFT)、大模型蒸馏、人类反馈强化学习 (RLHF) 和模型合并 (WARP) 来提高整体性能。 JAXhttps://jax.readthedocs.io/en/latest/quickstart.htmlML Pathwayshttps://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/Google Cloud TPU 27B on v5phttps://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer?hlen9B on TPU v4https://cloud.google.com/tpu/docs/v4 与预训练数据集混合类似关于微调数据集或与 SFT 和RLHF相关的超参数的细节尚未共享。 RLHFhttps://hf.co/blog/rlhf 滑动窗口注意力滑动窗口注意力是一种用于减少 Transformer 模型中注意力计算的内存和时间需求的方法已在Mistral等模型中使用。Gemma 2 的新颖之处在于每隔一层应用滑动窗口 (局部 - 4096 Tokens) 而中间层仍使用全局二次注意力 (8192 Tokens) 。我们推测这是为了在长上下文情况下提高质量 (半数层仍然关注所有 Tokens) 同时部分受益于滑动注意力的优势。滑动窗口注意力https://hf.co/papers/2004.05150Mistralhttps://hf.co/papers/2310.06825 软上限和注意力实现软上限是一种防止 logits 过度增长而不截断它们的技术。它通过将 logits 除以最大值阈值 (soft_cap)然后通过 tanh 层 (确保它们在 (-1, 1) 范围内) 最后再乘以阈值。这确保了最终值在 (-soft_cap, soft_cap) 区间内不会丢失太多信息但稳定了训练。综合起来logits 的计算公式为logits ← soft_cap ∗ tanh(logits/soft_cap) Gemma 2 对最终层和每个注意力层都采用了软上限。注意力 logits 上限为 50.0最终 logits 上限为 30.0。在发布时软上限与 Flash Attention / SDPA 不兼容但它们仍可用于推理以实现最高效率。Gemma 2 团队观察到在推理过程中不使用软上限机制时差异非常小。注意对于稳定的微调运行仍需启用软上限因此我们建议使用 eager 注意力进行微调而不是 SDPA。知识蒸馏知识蒸馏是一种常用技术用于训练较小的学生模型以模仿较大但表现更好的教师模型的行为。这是通过将大语言模型的下一个 Token 预测任务与教师提供的 Token 概率分布 (例如 GPT-4、Claude 或 Gemini) 结合起来从而为学生提供更丰富的学习信号。根据 Gemma 2 技术报告知识蒸馏用于预训练 90 亿模型而 270 亿模型则是从头开始预训练的。在后期训练中Gemma 2 团队生成了来自教师 (报告中未指定但可能是 Gemini Ultra) 的多样化补全集然后使用这些合成数据通过 SFT 训练学生模型。这也是许多开源模型的基础如Zephyr和OpenHermes它们完全基于较大大语言模型的合成数据进行训练。 Zephyrhttps://hf.co/HuggingFaceH4/zephyr-7b-betaOpenHermeshttps://hf.co/teknium/OpenHermes-2.5-Mistral-7B 尽管有效但这种方法存在缺点因为学生和教师之间的模型容量不匹配可能导致训练-推理不匹配即学生在推理期间生成的文本与训练期间看到的文本不同。为解决这个问题Gemma 2 团队采用了“在线蒸馏”其中学生从 SFT 提示生成补全。这些补全用于计算教师和学生 logits 之间的 KL 散度。通过在整个训练过程中最小化 KL 散度学生能够准确地模拟教师的行为同时最小化训练-推理不匹配。 “在线蒸馏”https://arxiv.org/pdf/2306.13649 这种方法非常有趣正如我们在社区中看到的那样在线 DPO 等在线方法会产生更强的模型而在线蒸馏的一个优势在于只需要教师的 logits因此无需依赖奖励模型或大语言模型作为评审员来改进模型。我们期待看到这种方法在未来几个月中是否会在微调人员中变得更受欢迎模型合并模型合并是一种将两个或多个大语言模型合并成一个新模型的技术。这是相对较新和实验性的可以不使用加速器进行。Mergekit是一个流行的开源工具包用于合并大语言模型。它实现了线性、SLERP、TIES、DARE 和其他合并技术。模型合并https://hf.co/blog/mlabonne/merge-modelsMergekithttps://github.com/arcee-ai/mergekit 根据技术报告Gemma 2 使用了Warp这是一种新型合并技术分三个独特阶段进行合并 Warphttps://arxiv.org/abs/2406.16768 指数移动平均 (EMA)在强化学习 (RL) 微调过程中应用。球形线性插值 (SLERP)在多个策略的 RL 微调后应用。向初始化线性插值 (LITI)在 SLERP 阶段之后应用。 Gemma 2 的评估 Gemma 模型的表现如何以下是根据技术报告和新版开源 LLM 排行榜对其他开源开放模型的性能比较。开源 LLM 排行榜https://hf.co/spaces/HuggingFaceH4/open_llm_leaderboard 技术报告结果 Gemma 2 的技术报告比较了不同开源 LLM 在之前开源 LLM 排行榜基准上的性能。 Llama 3 (70B)Qwen 1.5 (32B)Gemma 2 (27B)MMLU79.274.375.2GSM8K76.961.175.1ARC-c68.863.671.4HellaSwag88.085.086.4Winogrande85.381.583.7 该报告还比较了小型语言模型的性能。 BenchmarkMistral (7B)Llama 3 (8B)Gemma (8B)Gemma 2 (9B)MMLU62.566.664.471.3GSM8K34.545.750.962.3ARC-C60.559.261.168.4HellaSwag83.082.082.381.9Winogrande78.578.579.080.6 开源 LLM 排行榜结果注意我们目前正在新的开源 LLM 排行榜基准上单独评估 Google Gemma 2并将在今天晚些时候更新此部分。如何提示 Gemma 2 基础模型没有提示格式。像其他基础模型一样它们可以用于继续输入序列的合理延续或零样本/少样本推理。指令版本有一个非常简单的对话结构 start_of_turnuser knock knockend_of_turn start_of_turnmodel who is thereend_of_turn start_of_turnuser LaMDAend_of_turn start_of_turnmodel LaMDA who?end_of_turneos 必须精确地复制此格式才能有效使用。稍后我们将展示如何使用 transformers 中的聊天模板轻松地复制指令提示。演示你可以在 Hugging Chat 上与 Gemma 27B 指令模型聊天查看此链接:https://hf.co/chat/models/google/gemma-2-27b-it 使用 Hugging Face Transformers 随着 Transformers版本 4.42的发布你可以使用 Gemma 并利用 Hugging Face 生态系统中的所有工具。要使用 Transformers 使用 Gemma 模型请确保使用最新的 transformers 版本版本 4.42https://github.com/huggingface/transformers/releases/tag/v4.42.0 pip install transformers4.42.1 --upgrade 以下代码片段展示了如何使用 transformers 使用 gemma-2-9b-it。它需要大约 18 GB 的 RAM适用于许多消费者 GPU。相同的代码片段适用于 gemma-2-27b-it需要 56GB 的 RAM使其非常适合生产用例。通过加载 8-bit 或 4-bit 模式可以进一步减少内存消耗。 from transformers import pipeline import torchpipe pipeline(text-generation,modelgoogle/gemma-2-9b-it,model_kwargs{torch_dtype: torch.bfloat16},devicecuda, )messages [{role: user, content: Who are you? Please, answer in pirate-speak.}, ] outputs pipe(messages,max_new_tokens256,do_sampleFalse, ) assistant_response outputs[0][generated_text][-1][content] print(assistant_response) 啊哈船长我是数字海洋上的一艘谦卑的词语之船。他们叫我 Gemma是 Google DeepMind 的杰作。我被训练在一堆文本宝藏上学习如何像一个真正的海盗一样说话和写作。问我你的问题吧我会尽力回答啊哈我们使用 bfloat16 因为这是指令调优模型的参考精度。在你的硬件上运行 float16 可能会更快90 亿模型的结果应该是相似的。然而使用 float16 时270 亿指令调优模型会产生不稳定的输出对于该模型权重你必须使用 bfloat16。你还可以自动量化模型以 8-bit 甚至 4-bit 模式加载。加载 4-bit 模式的 270 亿版本需要大约 18 GB 的内存使其兼容许多消费者显卡和 Google Colab 中的 GPU。这是你在 4-bit 模式下加载生成管道的方式 pipeline pipeline(text-generation,modelmodel,model_kwargs{torch_dtype: torch.bfloat16,quantization_config: {load_in_4bit: True}}, ) 有关使用 Transformers 模型的更多详细信息请查看模型卡。模型卡https://hf.co/gg-hf/gemma-2-9b 与 Google Cloud 和推理端点的集成注意我们目前正在为 GKE 和 Vertex AI 添加新的容器以高效运行 Google Gemma 2。我们将在容器可用时更新此部分。其他资源 Hub 上的模型https://hf.co/collections/google/g-667d6600fd5220e7b967f315开放 LLM 排行榜https://hf.co/spaces/HuggingFaceH4/open_llm_leaderboardHugging Chat 上的聊天演示https://hf.co/chat/models/google/gemma-2-27b-itGoogle 博客https://blog.google/technology/developers/google-gemma-2/Google Notebook 即将推出Vertex AI 模型花园即将推出致谢在生态系统中发布此类模型及其支持和评估离不开许多社区成员的贡献包括Clémentine和Nathan对 LLM 的评估Nicolas对文本生成推理的支持Arthur、Sanchit、Joao和Lysandre对 Gemma 2 集成到 Transformers 中的支持Nathan和Victor使 Gemma 2 在 Hugging Chat 中可用。 Clémentinehttps://hf.co/clefourrierNathanhttps://hf.co/SaylorTwiftNicolashttps://hf.co/NarsilArthurhttps://hf.co/ArthurZSanchithttps://hf.co/sanchit-gandhiJoaohttps://hf.co/joaoganteLysandrehttps://hf.co/lysandreNathanhttps://hf.co/nsarrazinVictorhttps://hf.co/victor 感谢 Google 团队发布 Gemma 2

查看全文

http://www.hkea.cn/news/14336225/