怎么建立自己的网站?,顺德电子商务网站建设,某电子商务网站建设的详细策划,成都网站品牌设计当然可以#xff01;下面是一个系统性的列表#xff0c;按 开源大模型#xff08;LLM#xff09; 和 推理框架 两大类列出#xff0c;并配上简要说明。 #x1f9e0; 一、开源大语言模型#xff08;LLMs#xff09;
名称发布者语言能力模型大小特点LLaMA 2 / 3Meta英文…当然可以下面是一个系统性的列表按 开源大模型LLM 和 推理框架 两大类列出并配上简要说明。 一、开源大语言模型LLMs
名称发布者语言能力模型大小特点LLaMA 2 / 3Meta英文强少量多语7B/13B/70B非商业使用需申请社区生态广泛Qwen / Qwen1.5阿里云通义千问中文强兼顾英文0.5B ~ 72B中文能力极强Qwen1.5 开源支持多模态Baichuan 2百川智能中文优化7B / 13B商业/研究可用API 接口友好InternLM / InternLM2商汤 上交中文优推理快7B / 20BInternLM2 引入 MoE推理效率高Yi01.AI王慧文中文 英文6B / 34BYi-34B 是当前顶级中文模型之一Mistral / MixtralMistral.ai法国英语主导7B / 12.9B (MoE)极高性价比推理快非常热门GemmaGoogle英语强2B / 7B使用 Apache 2 许可研究友好Phi-2 / Phi-3微软小模型2.7B / 4.2B教育、推理快适合嵌入式OpenChat / ChatGLM3OpenBMB / 智谱AI中文对话优化6B / 32BChatGLM 系列开源生态良好 ⚙️ 二、主流开源推理框架Inference Engines
名称语言/实现支持硬件特点vLLMPython / CUDA / TritonGPUA10、A100、4090 等高并发低延迟生产级部署首选llama.cppCCPU / Apple M 系列 / GPU轻量、支持量化 .gguf 格式能跑在树莓派上OllamaRust / C 封装CPU / M 系列 GPUllama.cpp 的高级封装一行命令启动TGI (Text Generation Inference)HuggingFaceGPUTransformers 官方部署工具支持 Batching、CUDAFasterTransformerNVIDIAGPU强调 Transformer 高效并行支持 INT8/FP16TensorRT-LLMNVIDIAGPU (A100/H100)超高性能推理适合部署 LLaMA-3 等模型MLC LLMTVM 项目CPU / GPU / iOS / Android编译到浏览器、iPhone、本地设备DeepSpeed-MIIMicrosoftGPU深度优化并行推理基于 DeepSpeedExllama / Exllamav2C/CUDAGPU适用于量化模型4-bit 推理超快ctransformersPython 绑定 llama.cppCPU / GPU在 Python 中直接跑 gguf 模型适合小项目 补充工具生态
工具用途transformersHuggingFace 模型加载和训练工具AutoGPTQGPTQ 量化工具适配 vLLM、Transformerstext-generation-webuiWebUI 管理/测试各种本地模型支持 gguf / HF 模型LMDeploy商汤开发的 LLM 部署工具支持 InternLM 系列LangChain / LlamaIndex构建基于 LLM 的 RAG 检索系统 ✅ 你可以根据用途选择
你要做什么推荐模型 推理框架本地跑中文对话Qwen1.5 Ollama / llama.cpp服务器部署并发服务LLaMA3/Qwen vLLM快速试验不同模型text-generation-webui GGUF 模型移动端部署MLC LLM Phi-2 / Tiny LLM精准控制上下文 / Token 利用率vLLMPagedAttention 优化 如果你告诉我你电脑或服务器的配置CPU/GPU/内存我可以给你推荐最适合你机器的模型框架组合。是否需要