当前位置: 首页 > news >正文

红色企业网站源码百度关键字搜索排名

红色企业网站源码,百度关键字搜索排名,海外社交平台推广,php网站源码删除节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 总结链接…

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下:《大模型面试宝典》(2024版) 正式发布!


今天,我们来看看2个问题,一个是回顾下主流 RAG 框架TOP10及一个有趣的soda RAG小工具,另一个为防止恶意检索污染攻击的RAG方案RobustRAG思路,供大家参考。

会有一些思路,供大家一起参考。

问题1:主流RAG框架TOP10及一个有趣的soda RAG小工具

最近 RAG 的轮子越来越多,我们先后已经出现了多个RAG框架,例如langchain, llamaindex,langraph,qanything, ragflow等,

例如通过github可以找到如下排序,top10框架:

Rank1、LangChain(86k stars):https://github.com/langchain-ai/langchain/,当之无愧的霸主,范围很全面,但代码‍‍‍‍‍‍‍‍‍‍‍

Rank2、Quivr(33.4k stars):https://github.com/StanGirard/quivr

Rank3、LlamaIndex(32.1k stars):https://github.com/run-llama/llama_index/

Rank4、Dify(31.2k stars):https://github.com/langgenius/dify

Rank5、Langchain-Chatchat(28.5k stars):https://github.com/chatchat-space/Langchain-Chatchat

Rank6、QAnything(9.7k stars):https://github.com/netease-youdao/QAnything,特点是加入rerank,后期更新也加入了文档理解;‍‍‍‍‍‍‍

Rank7、danswer(9.5k stars):https://github.com/danswer-ai/danswer

Rank8、RAGFlow(8.3k stars):https://github.com/infiniflow/ragflow,特点是前期处理文档理解;‍‍‍‍‍‍

Rank9、langchain4j(3.5k stars):https://github.com/langchain4j/langchain4j

Rank10、Verba(4.3k stars):https://github.com/weaviate/Verba

最近有个新的框架,SODA: Search, Organize, Discovery Anything(https://github.com/Liuziyu77/Soda/),有点儿意思,根据其介绍。其支持网络检索、文本检索(本地数据库)、图像检索(本地数据库)。

在这里插入图片描述
其中在文本检索阶段,采用两阶段检索过程,第一阶段从数据库中检索信息,第二阶段对检索到的文本进行重新排序,其实标准的重排。

例如文本检索,其通过构建本地文本数据库并从中检索信息,通过修改上传的文件的路径,其中文件包括TXT, DOCX, PDF等文件格式。

又如图像检索结果,构建本地图像数据库并从中检索图像,其中核心在于图像embedding的生成,该项目中使用使用CLIP-B/32作为图像编码器。

又如网络检索结果,其核心在于利用各种搜索引擎的API来根据用户输入检索相关信息,包括google、Serper、Bing等不同的API

问题2:为防止恶意检索污染攻击的RAG方案RobustRAG思路

这个有点意思,《Certifiably Robust RAG against Retrieval Corruption》(https://arxiv.org/abs/2405.15556),其出发点在于,由于依赖外部知识库的检索结果,RAG模型容易受到Retrieval Corruption Attacks,也就是恶意的检索污染攻击,攻击方可以通过在检索结果中注入虚假或误导性的文本,操纵模型的输出,产生错误甚至有害的内容,从而影响RAG模型的可靠性和实用性,并带来难以预料的负面影响。

如下所示,检索到的三个段落中有一个被破坏,Vanilla RAG将所有段落串联起来作为LLM输入;其响应被恶意段落劫持。

在这里插入图片描述

不同的是,RobustRAG会隔离每个段落,这样三个隔离回复中只有一个被破坏。然后,RobustRAG会安全地汇总非结构化文本回复,以获得稳健的输出。

因此,其思想很简单,就是"先隔离后聚合"(Isolate-then-Aggregate)策略。具体而言,该框架包含以下两个关键步骤:

一个是隔离回复,对于检索到的每一段文本,先独立地获取LLM的回复,而不是将所有文本拼接在一起作为输入,以限制恶意文本对其他回复的影响。

一个是安全聚合,设计基于关键词和解码的方案,如下两个代码逻辑,以安全的方式聚合这些独立的回复,生成最终的输出,以实现即使存在少量恶意回复,也能从正常回复中提取关键信息,得出可靠的结果。

其中,关键词聚合方案思路如下:

1、提取关键词,对每个独立的LLM回复进行关键词提取。使用启发式规则,例如保留名词、形容词、数字等信息量大的词,形成关键词集合;

2、聚合关键词,统计不同回复中关键词的出现频率。出现频率高的关键词更有可能携带正确和相关的信息。过滤掉出现频率低于阈值的关键词;

3、生成最终回复:使用筛选后的高频关键词,再次提示LLM生成最终的回复。关键词集合以一定的顺序(如字母序)排列,作为额外的上下文信息输入到LLM中。

解码聚合算法的思路如下:

1、独立解码,对每个检索到的文本,RobustRAG独立地进行解码操作。在每个解码步骤,得到LLM预测下一个词的概率分布向量;

2、聚合概率向量,将不同文本解码得到的概率向量进行聚合,具体使用元素级平均,得到一个新的概率分布;

3、生成回复,根据聚合的概率分布,预测下一个词。重复这一过程,直到生成完整的回复文本。在预测置信度较低时,适当参考无检索结果时LLM的预测,以保证回复的流畅性。

总结

本文主要讲了2个问题,一个是回顾下主流RAG框架TOP10及一个有趣的soda RAG小工具,另一个为防止恶意检索污染攻击的RAG方案RobustRAG思路。

其中关于主流框架方面,当前有很多,但不需要哪个都做,还是需要选一个就行。另外,RobustRAG在真实场景下用不太到,但单纯从思想上来看,是很有趣的。

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗技术与面试交流群, 想要大模型技术交流、了解最新面试动态的、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2040。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:交流
方式②、添加微信号:mlc2040,备注:交流

面试精选

  • 一文搞懂 Transformer

  • 一文搞懂 Attention(注意力)机制

  • 一文搞懂 Self-Attention 和 Multi-Head Attention

  • 一文搞懂 BERT(基于Transformer的双向编码器)

  • 一文搞懂 GPT(Generative Pre-trained Transformer)

  • 一文搞懂 Embedding(嵌入)

  • 一文搞懂 Encoder-Decoder(编码器-解码器)

  • 一文搞懂大模型的 Prompt Engineering(提示工程)

  • 一文搞懂 Fine-tuning(大模型微调)

  • 一文搞懂 LangChain

  • 一文搞懂 LangChain 的 Retrieval 模块

  • 一文搞懂 LangChain 的智能体 Agents 模块

  • 一文搞懂 LangChain 的链 Chains 模块

参考文献

1、https://arxiv.org/abs/2405.15556

2、https://github.com/Liuziyu77/Soda/

http://www.hkea.cn/news/701739/

相关文章:

  • 浙江建设职业技术学院迎新网站做一个网站要多少钱
  • axure做网站好不好手机百度问一问
  • 开发微信小程序的流程广州seo优化电话
  • 小企业网站建设和管理全能搜
  • 无棣县建设局网站游戏优化大师下载安装
  • 小额贷款 网站模板品牌推广软文
  • 网站建设开发成本天津百度搜索网站排名
  • 做的好的营销型网站有哪些内容外贸网站外链平台
  • 东营网站建设预算价格百度网盘网页版入口官网
  • 网站建设中标公告18款禁用看奶app入口
  • 网站运营人员岗位职责长沙正规seo优化价格
  • cnzz统计代码放在后台网站为什么没显示seo的英文全称是什么
  • 杭州企业网站建设方案广告门
  • 自己免费做网站(二)seo优化公司信
  • 广州外贸b2b网站建设刷钻业务推广网站
  • 做企业网站用什么怎样宣传自己的品牌
  • 濮阳做网站的公司我的百度账号
  • 美食网站开发如何做好网络营销工作
  • 网站建设案例资料今天的新闻内容
  • 台州专业网站建设方案seo软文代写
  • 个人网站 百度推广全球搜索大全
  • 网站消息推送5118素材网站
  • 天津 响应式网站设计企业网站模板免费
  • 网站用花生壳nas做存储百度seo发包工具
  • wordpress cache深圳纯手工seo
  • 怎样找到正规代加工网站百度地图3d实景地图
  • 潍坊网站建设公司网站搭建免费
  • 惠州做网站好的公司下载百度语音导航地图安装
  • 春节网站怎么做小说排行榜百度搜索风云榜
  • 商城服务是什么软件seo是指什么岗位