网站建设续费是什么费用,wordpress怎么写html,旅游网站开发内容,这么做国外网站的国内镜像站浅谈人工智能之Llama3微调后使用cmmlu评估
引言
随着自然语言处理#xff08;NLP#xff09;技术的发展#xff0c;各类语言模型如雨后春笋般涌现。其中#xff0c;Llama3作为一个创新的深度学习模型#xff0c;已经在多个NLP任务中展示了其强大的能力。然而#xff0c…浅谈人工智能之Llama3微调后使用cmmlu评估
引言
随着自然语言处理NLP技术的发展各类语言模型如雨后春笋般涌现。其中Llama3作为一个创新的深度学习模型已经在多个NLP任务中展示了其强大的能力。然而仅仅使用预训练模型往往无法满足特定应用的需求因此微调成为了提升模型表现的重要步骤。本文将集中讨论Llama3模型在微调后的推理和评估过程 在之前文章中我们已经介绍了如何使用LLaMA-Factory工具进行模型微调和推理本文介绍如何在微调以后对模型进行评估
评估阶段
模型的评估是验证微调效果的重要步骤。评估通常采用以下方法
性能指标根据任务类型选择适合的评估指标。例如对于分类任务可以使用准确率、精确率、召回率和F1-score而对于生成任务则可以使用BLEU、ROUGE等指标。验证集与测试集在微调过程中通常会划分出验证集来监控模型的表现最终评估则应在未见过的测试集上进行以评估模型的泛化能力。错误分析在评估过程中分析模型的错误输出以识别潜在的问题和改进方向。用户反馈在实际应用中从用户那里获取反馈进一步评估模型的实用性和准确性。 当前我们可以使用cmmlu进行微调后的模型评估。
CMMLU介绍
CMMLU是针对中国的语言和文化背景设计的评测集用来评估LLM的知识蕴含和推理能力。该评测集跨多个学科由67个主题组成。其中大多数任务的答案都是专门针对中国的文化背景设计不适用于其它国家的语言。如下图所示除了涵盖人文科学、社会科学、STEM(科学、技术、工程和数学)以及其他在人类日常生活中很重要的四个通用领域的知识外还涵盖一些特定领域的知识用于验证模型的中国知识的蕴含能力以及对中文的理解和适应能力。
模型评估
第一步进入llama_factory虚拟环境若已经进入请忽略 conda activate llama_factory 第二步然后进入/mnt/workspace/LLaMA-Factory/examples/train_lora路径 cd /mnt/workspace/LLaMA-Factory/examples/train_lora 第三步我们可以看到在该目录下有文件llama3_lora_eval.yaml我们打开文件内容并且把文件内容修改成如下内容
### model
model_name_or_path: /mnt/workspace/models/Meta-Llama-3-8B-Instruct
adapter_name_or_path: /mnt/workspace/models/llama3-lora-zh### method
finetuning_type: lora### dataset
task: cmmlu_test # choices: [mmlu_test, ceval_validation, cmmlu_test]
template: fewshot
lang: en
n_shot: 5### output
save_dir: saves/llama3-8b/lora/eval_cmmlu### eval
batch_size: 1第四步我们回到/mnt/workspace/LLaMA-Factory路径 cd /mnt/workspace/LLaMA-Factory 第五步我们执行如下命令 llamafactory-cli eval examples/train_lora/llama3_lora_eval.yaml 第六步我们可以看到模型微调后的模型已经开始评估 Generating test split: 179 examples [00:00, 13736.47 examples/s] | 12/67 [04:3526:02, 28.41s/it, 中国文学] Generating train split: 5 examples [00:00, 1315.82 examples/s] Generating test split: 106 examples [00:00, 11332.20 examples/s] | 13/67 [05:0124:56, 27.71s/it, 中国教师资格] Generating train split: 5 examples [00:00, 825.29 examples/s] Generating test split: 107 examples [00:00, 11506.56 examples/s] | 14/67 [05:1921:59, 24.90s/it, 大学精算学] Generating train split: 5 examples [00:00, 1331.61 examples/s] Generating test split: 106 examples [00:00, 11195.51 examples/s] | 15/67 [05:3318:31, 21.38s/it, 大学教育学] Generating train split: 5 examples [00:00, 1258.64 examples/s] Generating test split: 108 examples [00:00, 11522.52 examples/s] | 16/67 [05:4616:02, 18.87s/it, 大学工程水文学] Generating train split: 5 examples [00:00, 1374.28 examples/s] Generating test split: 105 examples [00:00, 10783.59 examples/s] | 17/67 [06:0215:01, 18.03s/it, 大学法律] Generating train split: 5 examples [00:00, 959.49 examples/s] Generating test split: 106 examples [00:00, 11444.80 examples/s] | 18/67 [06:2014:40, 17.98s/it, 大学数学] Generating train split: 5 examples [00:00, 1384.17 examples/s] Generating test split: 237 examples [00:00, 14848.76 examples/s] | 19/67 [06:3413:25, 16.78s/it, 大学医学统计] 第七步评估的时间会比较久这里笔者用了差不多半个小时评估分数结果如下 Average: 47.70 STEM: 41.05
Social Sciences: 49.23Humanities: 47.61Other: 51.65至此分数评估结束。