图书网页设计网站,网络架构图是什么,团总支网站建设宣传,创建企业营销网站包括哪些内容一款计算机顶会爬取解析系统 paper info 背景项目实现的功能 技术方案架构设计项目使用的技术选型 使用方法本地项目部署使用ChatGPT等大模型创建一个ChatGPT助手使用阿里云 顶会数据量 百度网盘pfd文件json文件 QA github链接 #xff1a;https://github.com/codebricki… 一款计算机顶会爬取解析系统 paper info 背景项目实现的功能 技术方案架构设计项目使用的技术选型 使用方法本地项目部署使用ChatGPT等大模型创建一个ChatGPT助手使用阿里云 顶会数据量 百度网盘pfd文件json文件 QA github链接 https://github.com/codebricking/paper-info paper info 可以爬取顶会或者arxiv论文并且利用ChatGPT对论文的关键信息进行理解然后利用es进行检索实现用中文检索英文论文并快速了解论文核心内容。
当然对于不从事开发工作的用户来说部署这个项目会有一点繁琐本项目提供了爬取的顶会论文以及解析的文本信息用户可以将其直接上传至ChatGPT或者国内的大模型的语料库中也可以实现和论文直接对话的功能。
背景
AI计算机领域很多新的成果都是通过论文的形式发出来的高效的检索下载和了解论文核心内容对于科研十分重要。在计算机领域尤其是顶会论文。本人在读研初期没有及时关注最新的高水平论文阅读了一些质量不算高或者是方法不够新的论文浪费了不少时间。随着研究的主键深入对于在哪里寻找高水平论文才有了进一步的了解。因此在周末空余实现根据之遇到的问题写了这样一个工具。
项目实现的功能
使用Jsoup抓取顶会论文和arxiv的论文关键信息。批量下载论文到本地使用XEasyPdf解析pdf为纯文本方便后续处理调用ChatGPT梳理论文关键信息使用xxl-job定时任务功能结合Jsoup检测arxiv最新的论文紧跟研究方向前沿使用xxl-job定时定频率地调用api接口以免频率过高导致调用失败使用es进行查询让用户可以直接在众多论文中进行关键词查找提高了检索速度封装了调用ChatGPT的接口封装了调用Google翻译的借口封装了ChatGPT和Google代理需要部署在国外服务器上
技术方案
架构设计 项目使用的技术选型
Java8
MySQL8
mybatis-plus
springboot 2.7
elastic search
xxl-job
Jsoup
knife4j
hutool
使用方法
本地项目部署
1、安装MySQL
2、安装es
3、xxjob(可选)
4、运行项目
可以将自己关注的领域的文章导入JSON数据链接https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ 提取码umgd调用接口进行翻译和核心内容提取。
使用ChatGPT等大模型
本项目所积累的数据还可以作为和大模型对话的个人数据将其上传到大模型中利用ChatGPT或者阿里云等服务自带的向量数据库可以直接与论文进行对话。
JSON数据链接https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ 提取码umgd
创建一个ChatGPT助手
进入 https://platform.openai.com/assistants点击create创建上传数据
使用阿里云
//todo
顶会数据量
年份AAAIAISTATSACMLCOLTICMLCVPRICCVWACVECCVJMLRNIPSsum20221623728316212328020406164535126719047202119614551151391183104783640602892271870220201861419541251081146603781358251189788902019134035978124771129410750018414266651201810982165793618979006618410064812201701674175431783621002316773026201669116229683206430002345662713201567312328772696025260011840128172014474121255830254000012040620462013276713250281471454001153572107
详细列表见
data/paper/
top_conference_2013.md337 kBtop_conference_2014.md310 kBtop_conference_2015.md444 kBtop_conference_2016.md414 kBtop_conference_2017.md535 kBtop_conference_2018.md800 kBtop_conference_2019.md1.1 MBtop_conference_2020.md1.5 MBtop_conference_2021.md1.5 MBtop_conference_2022.md1.5 MB
百度网盘
pfd文件
链接https://pan.baidu.com/s/1FKK27KgbYHm_2n5iDy3WZA 提取码z8a9
json文件
JSON数据链接https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ 提取码umgd
QA
1、项目所部署的机器无法访问ChatGPT和谷歌翻译
A使用项目中提供的API-Reverse-Proxy模块将其部署在可以访问的机器上然后将本地项目调用的接口地址改为代理机器的地址。或者使用国产的替代