手机网站怎么写,wordpress 漏洞工具,安吉城乡建设局网站,网络营销方式变化背后的逻辑与趋势目录
一、将模型保存为gguf格式
二、下载llama.cpp
三、生成 llama-quantize 可执行文件
四、使用llama-quantize
五、训练模型
六、将模型部署到ollama 一、将模型保存为gguf格式
在你的训练代码 trainer.train() 之后添加#xff1a;
model.save_pretrained_gguf(
model.save_pretrained_gguf(model, tokenizer,) 二、下载llama.cpp
网址GitHub - ggerganov/llama.cpp: LLM inference in C/C
git clone GitHub - ggerganov/llama.cpp: LLM inference in C/C 或者 下载.zip解压。注意llama.cpp需要与训练代码同目录。 三、生成 llama-quantize 可执行文件
①打开 PowerShell 或命令提示符
②切换到 llama.cpp 文件夹
cd llama.cpp
③创建构建目录并配置
mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPERelease④执行构建
cmake --build . --config Release⑤生成的可执行文件应位于
...llama.cpp\build\bin\Release 四、使用llama-quantize
在 llama.cpp 下创建 llama-quantize 文件夹并将 Release 粘贴进 llama-quantize 文件夹。 五、训练模型
进入 train.py 所在路径 python train.py。 六、将模型部署到ollama
①启动ollama
ollama serve ②进入训练后生成的 model 目录
③部署模型到ollama
ollama create your-model-name -f Modelfile ④测试模型