国外免费建站网站,wordpress用图床好还是,外链发布平台,网站外包价格如何在几乎零成本的情况下#xff0c;自己动手在普通电脑上合并、优化出一个能在手机上流畅运行的高性能AI大模型。
18岁大学生郑宇皓#xff0c;利用“模型合并”这个省钱又高效的技巧#xff0c;像调鸡尾酒一样把多个“偏科”的AI模型智能组合#xff0c;最终在零成本的…如何在几乎零成本的情况下自己动手在普通电脑上合并、优化出一个能在手机上流畅运行的高性能AI大模型。
18岁大学生郑宇皓利用“模型合并”这个省钱又高效的技巧像调鸡尾酒一样把多个“偏科”的AI模型智能组合最终在零成本的情况下做出了一款性能超越官方大模型、还能流畅跑在手机上的AI助手证明了开源时代动手实践就能创造价值AI的未来人人可参与。
他的项目地址https://huggingface.co/YOYO-AI/ZYH-LLM-Qwen2.5-14B-V4
核心目标喂饱手机里的AI
问题 郑宇皓想要一个能在自己手机上随时用的大模型AI助手。市面上很多模型要么太笨只能聊天不懂复杂指令要么太聪明逻辑推理强但太大跑不动手机或者租用云算力太贵。要求 必须在手机上流畅运行所以模型要小要优化。性能要强 既要能听懂复杂指令又要有不错的逻辑推理能力。成本要低 学生党没钱租用昂贵的GPU云服务。
他的“省钱秘籍”模型合并 (Model Merging)
为什么不自己训练 训练微调/蒸馏需要强大的GPU算力很烧钱。为什么选“模型合并”超省钱 只用CPU和内存就能完成不需要GPU速度快 几分钟就能合并一次模型可以快速试错、迭代。资源要求低 他仅用一台普通电脑8G显卡32G内存就搞定了。
具体怎么“合并”的
选“原材料”
他看中了 Qwen2.5-14B 系列的模型。因为这个系列
中文知识丰富。微调模型特别多有300多个选择余地大。
他精挑细选了两种“偏科”模型
指令模型 特别擅长理解复杂指令、角色扮演比如让它扮演一个客服。推理模型 特别擅长做数学题、逻辑推理、代码生成。
单独一个模型很难同时做到这两点都强。
第一次合并尝试 (V3)
结果 指令能力超强在特定榜单排第9是前10里唯一14B模型但推理能力弱。
“调鸡尾酒”式的合并 (V4)
目标 既要推理强又不能丢了指令能力。挑战 直接合并推理模型进来指令能力会大降。他的“秘方”第一步 (调比例) 把1个指令模型 1个推理模型 1:1混合得到“混合基酒”。第二步 (再平衡) 把3份“混合基酒” 1份纯指令模型 3:1混合。这样得到的最终模型保留了大部分指令能力因为最后加了纯指令模型并显著提升了推理能力因为第一步混合了推理模型。额外优化 加入处理超长文本的能力1M上下文换了更好的“翻译器”分词器。
成果泡面喂出的“小怪兽”
他最终做出的模型 ZYH-LLM-Qwen2.5-14B-V4 性能强劲
推理能力 (MuSR得分 15.66) 比官方更大的32B模型还强在14B模型里是顶尖水平。指令能力 (IFEval得分 83.65) 超过了官方32B模型手机能跑 经过“瘦身”4bit量化可以在近两年的旗舰手机如天玑9300芯片上运行速度达到每秒生成3个以上词够用。支持超长对话 能理解超长文本1M上下文。排行榜亮眼 在Hugging Face全球开源模型排行榜排第73位作为对比官方Qwen2.5-14B指令版排173位。
核心启示动手创造无限可能
AI开发门槛在降低 你不一定需要顶级设备或海量资金。开源模型 聪明的组合方法 快速迭代就能创造惊喜。人依然是关键 AI工具能帮忙查资料、给方向但解决实际问题、调试、找最优解还是靠人的实践、思考和反馈。郑宇皓就是在不断试错中找到那个“3:1”黄金比例的。兴趣和行动力是驱动力 没有学校课程支持没关系靠兴趣驱动自学和动手实践。担心AI取代程序员 他的经历说明会用AI、会调教AI、会结合AI解决问题的人价值更大。
模型合并Model Merging是一种将多个预训练模型的知识融合成单一模型的技术它能在几乎不消耗额外算力的情况下显著提升模型性能。以 ZYH-LLM-Qwen2.5-14B-V4 为例
合并流程全解析
前提条件
模型同源 所有待合并模型必须基于相同架构如都源自 Qwen2.5-14B否则参数无法对齐。格式统一 模型需转换为 SafeTensors 格式合并工具兼容性更好。
核心步骤
选择基础模型与待合并模型。进行第一次合并将1个指令模型与1个推理模型进行1:1混合。生成一个“混合基模型”。进行第二次合并将3份“混合基模型”与1份纯指令模型进行3:1混合。生成最终的合并模型。对最终模型进行分词器替换与长文本能力支持的优化。进行量化处理以实现手机端部署。
关键技术细节
1. 合并算法TIES-Merging
郑宇皓使用的工具是 mergekit开源模型合并库核心算法为 TIES-Merging其流程如下
# 伪代码演示合并逻辑
def TIES_merge(models, weights):# 1. 修剪冗余参数pruned_models [trim_model(model, threshold) for model in models]# 2. 解决参数冲突for param in all_parameters:if param_direction_conflict(pruned_models): # 选择权重最大的版本selected_param elect_param_by_weight(pruned_models, weights)else:# 加权平均selected_param weighted_average(pruned_models, weights)return merged_model关键操作
修剪Trimming 丢弃各模型中变化幅度小于阈值如±0.1的参数保留显著贡献的知识。选举Electing 对冲突参数如A模型参数增大、B模型减小选择合并权重最高的版本。加权平均Averaging 对非冲突参数按权重融合。
2. 分层权重控制Layer-wise Scaling
不同层采用不同融合权重这是性能提升的关键
郑宇皓的V4策略
底层靠近输入层 推理模型权重更高 → 增强基础逻辑能力顶层靠近输出层 指令模型权重更高 → 提升指令遵循能力
# mergekit配置示例简化版
merge_method: ties
base_model: Qwen2.5-14B
models:- model: 混合基模型Aparameters:weight: 0.5 # 总体权重layer_weights: [0.3, 0.4, ..., 0.6] # 分层权重列表- model: 纯指令模型Bparameters:weight: 0.5layer_weights: [0.7, 0.6, ..., 0.4]3. 长文本支持优化
替换分词器 使用支持1M上下文的 tiktoken 分词器。合并位置编码 将 Qwen2.5-14B-Instruct-1M 的位置编码参数融合进新模型。
4. 量化部署4-bit GPTQ
这是在手机上运行的关键步骤。
# 使用AutoGPTQ量化
python quantize.py \--model ZYH-LLM-Qwen2.5-14B-V4 \--output quantized_model \--bits 4 \--group_size 128量化效果
模型体积从 28GB → 7GB内存占用降至 6GB天玑9300可流畅运行
为什么普通加权平均Weighted Average不行
传统方法直接按权重相加参数如0.5ModelA 0.5ModelB会导致
知识冲突 模型参数更新方向相反时互相抵消如Δ vs -Δ。灾难性遗忘 微调知识被基础模型覆盖。性能震荡 合并后效果不如任一原始模型。
TIES-Merging 通过其「冲突解决机制」规避了这些问题这正是郑宇皓模型在多项能力上超越原模型的关键
你也能复现的工具链
合并工具 mergekit量化工具 AutoGPTQ部署框架 llama.cpp手机端性能测试 OpenCompass中文评测基准
核心创新点总结
多能力平衡
解决方案 分层混合比例控制3:1策略。效果 实现指令遵循与逻辑推理能力的双重提升。
长文本支持
解决方案 替换分词器并融合专门的位置编码参数。效果 使模型支持1M超长上下文。
手机部署
解决方案 采用 GPTQ 4-bit 量化技术。效果 模型体积压缩至7GB在旗舰手机上实现流畅运行。
知识冲突
解决方案 运用 TIES-Merging 算法的选举与修剪机制。效果 避免了参数直接相加导致的性能退化问题。
这种「低成本知识融合」的技术路径正成为开源社区微调大模型的新范式 —— 无需GPU一台游戏本也能造出手机AI助手。