外贸网站样式,展示型网站建设方案书,如东网站建设哪家好,网站建设销售好做#大模型下载地址#xff1a;#
Llama3
因为Hugging Face官网正常无法访问#xff0c;因此推荐国内镜像进行下载#xff1a;
官网地址#xff1a;https://huggingface.co
国内镜像#xff1a;https://hf-mirror.com GGUF 模型文件名称接受#xff0c;如上述列表中…#大模型下载地址#
Llama3
因为Hugging Face官网正常无法访问因此推荐国内镜像进行下载
官网地址https://huggingface.co
国内镜像https://hf-mirror.com GGUF 模型文件名称接受如上述列表中有Meta-Llama-3-8B-Instruct.Q4_K_M.gguf和Meta-Llama-3-8B-Instruct.Q5_K_M.gguf等
Instruct代表本模型是对基线模型进行了微调用于更好地理解和生成遵循指令instruction-following的文本以提供符合要求的响应
Q4/Q5 等代表模型权重的量化位数其中Q是Quantization的缩小即量化是一种模型压缩技术用于减少模型大小同时降低对计算资源的需求特别是内存但又尽量保持模型的性能数字4或5则代表量化精度的位数Q4 是 4 位Q5 是 5 位等精度越高模型体积和内存使用也会越大但仍然远小于未量化的基线模型
K_M/K_S代表含义笔者还未明确K可能是Knowledge的缩写M应该是Medium缩写即中等模型S应该是Small缩小即小模型若有明确的朋友还望不吝告知共同进步
若个人电脑配置不是特别好我们可以选择Q2_K版本大小 3.2GB它相较于Q4_K_M版本大小 4.9GBQ2版本的推理精度较低但速度较快而Q4版本在速度和精度之间均取得了很好的平衡因此首选推荐Q4_K_M版本。 # 打开两个CMD终端
# cd D:\pythonProject
# .\venv\Scripts\activate#终端一python -m llama_cpp.server --host 0.0.0.0 --model models\\Publisher\\Repository\\Meta-Llama-3-8B-Instruct.Q2_K.gguf
#终端二python Llama3-ChatAPI.py
Llama3-ChatAPI.py代码
from openai import OpenAI# 注意服务端端口因为是本地所以不需要api_key
client OpenAI(base_urlhttp://localhost:8000/v1,api_keynot-needed)# 对话历史设定系统角色是一个只能助理同时提交“自我介绍”问题
history [{role: system, content: 你是一个智能助理你的回答总是正确的、有用的和内容非常精简.},{role: user, content: 请用中文进行自我介绍要求不能超过5句话总字数不超过100个字。},
]
print(\033[92;1m)# 首次自我介绍完毕接下来是等代码我们的提示
while True:completion client.chat.completions.create(modellocal-model,messageshistory,temperature0.7,streamTrue,)new_message {role: assistant, content: }for chunk in completion:if chunk.choices[0].delta.content:print(chunk.choices[0].delta.content, end, flushTrue)new_message[content] chunk.choices[0].delta.contenthistory.append(new_message)print(\033[91;1m)userinput input( )if userinput.lower() in [bye, quit, exit]: # 我们输入bye/quit/exit等均退出客户端print(\033[0mBYE BYE!)breakhistory.append({role: user, content: userinput})print(\033[92;1m)
启动成功恭喜你你已经迈入 Llama 大模型大厦的大门了后面存在无限可能就看我们的创意了