当前位置：首页 > news >正文

最新备案网站查询wordpress acf使用

news 2026/4/28 14:28:30

最新备案网站查询,wordpress acf使用,游戏制作软件培训,上海商城网站建设公司信息抽取大总结 1.NLP的信息抽取的本质#xff1f;2.信息抽取三大任务#xff1f;3.开放域VS限定域4.信息抽取三大范式#xff1f;范式一#xff1a;基于自定义规则抽取#xff08;2018年前#xff09;范式二#xff1a;基于Bert下游任务建模抽取#xff08;2018年后2.信息抽取三大任务3.开放域VS限定域4.信息抽取三大范式范式一基于自定义规则抽取2018年前范式二基于Bert下游任务建模抽取2018年后范式三基于大模型Promt抽取2022年后附1Prompt信息抽取模板1实体抽取2关系抽取3事件抽取4三元组抽取附2中文大模型抽取哪家强附3专用于信息抽取的模型 2024.11.27 I hear and I forget I see and I know I do and I understand 1.NLP的信息抽取的本质针对NLP领域的信息抽取即是从原始文本数据中自动提取出结构化的信息本质相当于是对原始数据进行了一次信息加工把我们不关注的信息进行了剔除或把我们关注的信息进行提炼。抽取后的信息就相当于一篇论文的摘要和关键词。 2.信息抽取三大任务信息抽取是一个较大的范畴可以细分为很多任务但我们通常关注以下三类实体抽取实体抽取的总结可以查看我的另外一篇文章 https://blog.csdn.net/xiangxiang613/article/details/143922862 关系抽取待总结事件抽取待总结这些任务在建模时可以独立建模每种任务一个模型或者统一建模一个模型能同时处理多种任务如上图的UIE。 3.开放域VS限定域开放域信息抽取就是不限定实体和关系的类型给定文本抽取其包含的所有SPO三元组〈主谓宾〉或者叫RDF三元组这个通常就弱化了schema的设计不需要设计在大模型构建知识图谱时代这个是趋势。限定域信息抽取就是限定抽取的实体和关系类型此时可以画出清晰的schema此时适合清晰的业务场景具备推理价值。 4.信息抽取三大范式下面更侧重与实体抽取和关系抽取任务的处理因为在知识抽取过程中更关注这两类。范式一基于自定义规则抽取2018年前典型的使用自定义词典分词工具词性标注完成实体抽取基于依存句法分析自定义关系创建规则完成关系抽取。这是在深度学习时代前常用的方法优点是简单好理解上手快不需要标注数据和训练模型只需要写规则但规则的最大缺点就是不灵活覆盖率低。范式二基于Bert下游任务建模抽取2018年后 Bert的诞生重塑了NLP的任务构建范式几乎所有的NLP任务都被转换为BERT的下游任务进行微调。在信息抽取领域此时需要完成一定量的下游任务样本数据集标注通常还伴随着标注规范的指定针对一份数据集会同时标注实体和实体间的关系。一个样本标注完的数据大概包含下面这些信息 (人工标注的过程其实就是人在做信息抽取的过程) {sentences: [维护V3^对蓄电池进行充电处理^由于蓄电池电量不足^无法启动↓↓充电处理*蓄电池↓蓄电池*电量不足↓[整车]无法启动],ner: [[[6, 8, PART], [11, 14, METHOD], [18, 20, PART], [21, 24, STATUE], [26, 29, STATUE], [32, 39, SOLUTION], [41, 48, TROUBLE], [50, 57, TROUBLE]]],relations: [[]],doc_key: RID_2014010129978096,predicted_ner: [[[6, 8, PART], [11, 14, METHOD], [18, 20, PART], [21, 24, STATUE], [26, 29, STATUE], [32, 39, SOLUTION], [41, 48, TROUBLE], [50, 57, TROUBLE]]],predicted_relations: [[]],sections: [[[0, 3], [5, 14], [16, 24], [26, 29]]],dtc: [[]],part_no: [[00-000]],part_name: [[无零件]],relations_inside: [[[11, 14, 6, 8, METH], [18, 20, 21, 24, TROU]]],combined_ner_to_rel: [{充电处理*蓄电池: 0, 蓄电池*电量不足: 1}] } 基于标注完成的数据可以分别训练实体抽取模型和关系抽取模型pipeline方式也可以同时训练实体-关系抽取模型joint方式此处不展开后面再关系抽取总结的文章中再谈。无论是那种方式都会采用bert来作为底层的文本编码器实现文本向量生成区别在于bert向量生成后的下游任务建模方式不同。在Bert时代信息抽取任务通常是被当成一个序列标注型任务进行处理的答案是存在于文本之中的。即使在大模型时代基于bert类的抽取方法也是性能最好的。在2024年了都还有这方面的模型出现。如GliNER基于DeBERTA v3 largestar1.5K可以一看 https://www.zhihu.com/people/luo-xie-yang-guang【GliNER 多任务适用于各种信息提取任务的通用轻量级模型】补充bert这么好为什么大家要用大模型因为要用bert一方面是要标注数据进行微调另一方面是微调后的模型通常只能识别限定域的实体类型和关系类型训练什么就识别什么这个特点导致使用bert模型的成本很高而大模型则是属于开放域信息抽取不限制实体和关系的类型更具应用场景可以限定。范式三基于大模型Promt抽取2022年后这里的大模型准确来说是指生成式大模型此时将信息抽取任务转换为文本生成任务进行处理。在大模型时代下信息抽取任务只需要编写一个少样本学习的Promt即可完成抽取见后文。少样本学习few-short是指在Prompt中添加几个任务的示例样本包含输入和输出。在信息抽取领域这种方式明细优于零样本学习zero-short。可以参考https://zhuanlan.zhihu.com/p/702821255 尽管大模型在各种NLP任务上取得了SOTA性能但其在NER上的性能仍然明显低于监督基线。这是由于NER和llm两个任务之间的差距:前者本质上是一个序列标记任务而后者是一个文本生成模型。完整的大模型用于信息抽取综述性文章可以参考《Large Language Models for Generative Information Extraction: A Survey》https://arxiv.org/pdf/2312.17617.pdf 附1Prompt信息抽取模板收集的一些Prompt模板如下英文模板需要翻译为中文模板进行使用陆续更新 1实体抽取模板1来自oneKE {task: NER,source: NER,instruction: {instruction: 你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体不存在的实体类型返回空列表。请按照JSON字符串的格式回答。,schema: [人物, 地理位置, 组织机构],input: 在这里恕弟不恭之罪敢在尊前一诤前人论书每曰“字字有来历笔笔有出处”细读公字何尝跳出前人藩篱自隶变而后直至明季兄有何新出},output: {人物: [],地理位置: [],组织机构: []} } 模板2来自YAYI-UIE {Task: NER,Dataset: WikiNeural,instruction: Text: In the Tour of Flanders , he took on a defensive role when his teammate Stijn Devolder escaped and won . \n【Named Entity Recognition】From the given text, extract all the entities and types. Please format the answer in json {location/person/organization[entities]}. \nAnswer:,input: ,label: {person: [Stijn Devolder]} } 模板3来自Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks[https://arxiv.org/abs/2406.02079] 包含普通的和二阶段且NER两阶段性能大幅度优于普通 2关系抽取模板1来自oneKE {task: RE,source: RE,instruction: {instruction: 你是专门进行关系抽取的专家。请从input中抽取出符合schema定义的关系三元组不存在的关系返回空列表。请按照JSON字符串的格式回答。,schema: [丈夫, 上映时间, 专业代码, 主持人],input: 如何演好自己的角色请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈},output: {丈夫: [],上映时间: [],专业代码: [],主持人: []} } 模板2来自Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks[https://arxiv.org/abs/2406.02079] 包含普通的和QA4RE 3事件抽取模板1来自oneKE {task: EE,source: PHEE,instruction: {instruction: You are an expert in event extraction. Please extract events from the input that conform to the schema definition. Return an empty list for events that do not exist, and return NAN for arguments that do not exist. If an argument has multiple values, please return a list. Respond in the format of a JSON string.,schema: [{event_type: potential therapeutic event,trigger: true,arguments: [Treatment.Time_elapsed,Treatment.Route,Treatment.Freq,Treatment,Subject.Race,Treatment.Disorder,Effect,Subject.Age,Combination.Drug,Treatment.Duration,Subject.Population,Subject.Disorder,Treatment.Dosage,Treatment.Drug]},{event_type: adverse event,trigger: true,arguments: [Subject.Population,Subject.Age,Effect,Treatment.Drug,Treatment.Dosage,Treatment.Freq,Subject.Gender,Treatment.Disorder,Subject,Treatment,Treatment.Time_elapsed,Treatment.Duration,Subject.Disorder,Subject.Race,Combination.Drug]}],input: Our findings reveal that even in patients without a history of seizures, pregabalin can cause a cortical negative myoclonus.},output: {potential therapeutic event: [],adverse event: [{trigger: cause,arguments: {Subject.Population: NAN,Subject.Age: NAN,Effect: cortical negative myoclonus,Treatment.Drug: pregabalin,Treatment.Dosage: NAN,Treatment.Freq: NAN,Subject.Gender: NAN,Treatment.Disorder: NAN,Subject: patients without a history of seizures,Treatment: pregabalin,Treatment.Time_elapsed: NAN,Treatment.Duration: NAN,Subject.Disorder: NAN,Subject.Race: NAN,Combination.Drug: NAN}}]} } 模板2来自Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks[https://arxiv.org/abs/2406.02079] 4三元组抽取模板1来自YAYI-UIE {Task: CRE,Dataset: SanWen_sample50000,instruction: 文本: 我与其他云南同学对视骇笑 \n【关系抽取】已知关系列表是[unknown, 造出, 使用, 临近, 社会关系, 位于, 拥有者, 隶属于, 亲属, 包含]\n根据关系列表抽取关系三元组在这个句子中可能包含哪些关系三元组请按照json[{relation:, head:, tail:}, ]的格式回答。\n答案,input: ,label: [{relation: 社会关系,head: 我,tail: 其他云南同学}] } 模板2来自textgraphs prompt 句子: {} 从句子中提取 RDF 三元组格式如下主语:主语谓词:谓词宾语:宾语可选 text 维尔纳·赫尔佐格是一位德国电影导演、编剧、作家、演员和歌剧导演被认为是新德国电影的先驱。附2中文大模型抽取哪家强参考1【哪个中文开源大模型在信息抽取上效果最好】结论实体抽取零样本qwen-14B Baichuan2-13B qwen-7B ChatGLM3-6B 注意各模型少样本的性能会普遍强于零样本关系抽取无限制qwen-14B qwen-7B ChatGLM3-6BBaichuan2-13B 事件抽取Baichuan2-13B qwen-14B qwen-7B ChatGLM3-6B 整体来看Qwen系列确实很强特别是现在还升级到了2.5系列在实际使用过程中体验也不错可以作为一个不错的基准大模型用于中文领域的信息抽取。附3专用于信息抽取的模型印象中有这几个 UIE2022开启基于promt的多任务统一建模方式 InstructUIE基于指令微调后的UIE oneKEhttps://github.com/zjunlp/DeepKE/tree/main/example/llm/InstructKGC/data UniLMhttps://github.com/microsoft/unilm微软出品20Kstar UniIEhttps://github.com/AAIG-NLP/UniIE GliNERhttps://github.com/urchade/GLiNER2024新提出。1.5Kstar openNRE清华出品基于CNN用于关系抽取待更新…

查看全文

http://www.hkea.cn/news/14449344/