网站开发服务费属于哪种进项,购物网站开发将商品导入数据库,东莞建设网官方网站首页,织梦如何做中英文版的网站嘿#xff01; 您是否曾经感觉自己被淹没在信息的海洋中#xff1f; 有这么多的书要读#xff0c;而时间却这么少#xff0c;很容易就会超负荷#xff0c;对吧#xff1f; 但猜猜怎么了#xff1f; 你可以使用大型语言模型创建自定义聊天机器人#xff0c;该模型可以帮…嘿 您是否曾经感觉自己被淹没在信息的海洋中 有这么多的书要读而时间却这么少很容易就会超负荷对吧 但猜猜怎么了 你可以使用大型语言模型创建自定义聊天机器人该模型可以帮助您总结 pdf 并根据你上传的 pdf 回答你的问题。 拥有 PDF 摘要生成器就像拥有一个超级聪明的伙伴他可以阅读那些又长又无聊的文档并为你提供所需的内容。 不再需要翻阅研究论文或任何报告。 有大量工具可以帮助你总结文档有些需要付费有些是免费的。 但是为什么不尝试创建你的 PDF 摘要应用程序并尝试一下最适合你的呢
在这篇博文中我将向您展示如何使用 Open AI、Lang chain 和 Stream lit 构建端到端应用程序。 那么让我们开始吧 它是如何工作的 在这个项目中我们将使用以下内容 Open AI
Open AI 是一个人工智能研究组织专注于开发先进的人工智能技术造福人类。 它的成立是为了负责任地、有益地推进人工智能。 OpenAI 在人工智能的各个领域进行研究包括自然语言处理、强化学习、机器人技术等。 其主要目标之一是开发能够以类人智能执行各种任务的人工智能系统。 OpenAI 的著名项目和成就之一是语言模型。 OpenAI 开发了大规模语言模型例如 GPT生成式预训练转换器系列它可以根据提供给它们的输入生成类似人类的文本。 这些模型在自然语言理解、文本生成翻译等领域都有应用。 创建 OpenAI 密钥
要生成 OpenAI API 密钥请访问网站 https://openai.com/登录然后从标记为 “API Keys” 的部分生成一个对每个人来说都是唯一的 API 密钥。 一旦你的 API 密钥生成它将显示在屏幕上。 复制 API 密钥并安全存储。 将您的 API 密钥视为密码并避免公开共享。 你现在可以使用 OpenAI API 密钥访问 OpenAI API 并将其集成到你的应用程序、项目或研究中。 生成 Open AI 秘密 API 密钥 LangChain
LangChain 是一个用于构建由语言模型支持的上下文感知推理应用程序的框架。 它使应用程序能够根据上下文理解并做出响应从而增强决策能力。 LangChain 提供工具、库和预构建组件用于创建复杂的基于文本的应用程序包括聊天机器人、数据分析和检索增强生成任务。 其主要目的是使开发人员能够在其应用程序中有效地利用语言模型使他们能够推理、响应以及与用户或数据进行智能交互。 Streamlit
Streamlit 是一个开源 Python 库用于为机器学习和数据科学项目构建 Web 应用程序。 它允许开发人员直接直观地编写代码从而简化了创建交互式 Web 应用程序的过程。 借助 Streamlit开发人员可以直接从 Python 脚本创建交互式 Web 应用程序而无需编写 HTML、CSS 或 Javascript 代码。 它提供了易于使用的组件用于创建交互式小部件、可视化和数据显示。 在此项目中我们使用 Streamlit 来实现简单的用户界面你可以在本博客末尾看到。
运行 streamlit 应用可以使用命令streamlit run app.py 前提条件 安装 Elasticsearch 及 Kibana 如果你还没有安装好自己的 Elasticsearch 及 Kibana那么请参考一下的文章来进行安装 如何在 LinuxMacOS 及 Windows 上进行安装 Elasticsearch Kibana如何在 LinuxMacOS 及 Windows 上安装 Elastic 栈中的 Kibana
在安装的时候请选择 Elastic Stack 8.x 进行安装。在安装的时候我们可以看到如下的安装信息 为了方便大家学习我在本次的演示中使用 Elastic Stack 8.12 来进行展示。 安装 Python 依赖包
pip3 install langchain OpenAI PyPDF2 python-dotenv streamlit elasticsearch streamlit-extras tiktoken langchain-community
你可以使用 pip install 简单地安装所有这些库。
Langchain语言链库可帮助你完成总结文本、回答问题和生成新句子等操作。OpenAI这有助于与 OpenAI 提供的语言模型进行交互PyPDF2处理 PDF 文件。 启用读取和操作 PDF 文档等任务。Python-dotenv你可以将 API 密钥或数据库凭据等敏感信息存储在名为 .env 的特殊文件中而不是将它们硬编码到代码中。 这有助于确保敏感信息的安全并使管理不同环境如开发、测试和生产变得更加容易而无需更改代码。Streamlit用于创建交互式 Web 应用程序的框架。elasticsearch- 用于密集向量的相似性搜索和聚类的高效库。Streamlit-extras一个扩展包为 Streamlit 添加额外的功能并提供额外的工具、小部件和功能来增强 Streamlit 应用程序的功能。 拷贝 Elasticsearch 证书到当前的目录中
$ pwd
/Users/liuxg/python/PDF-Summarizer-End-to-End-Project
$ cp ~/elastic/elasticsearch-8.12.0/config/certs/http_ca.crt .
$ ls http_ca.crt
http_ca.crt
创建环境变量文件
我们在自己的项目根目录下创建如下的 .env 文件
.env
ES_USERelastic
ES_PASSWORDq2rqAIphl-fx9ndQ36CO
ES_ENDPOINTlocalhost
OPENAI_API_KEYYourOpenAIkey
请记得根据自己的 Elasticsearch 配置及 OpenAI key 进行相应的修改。 创建应用
我们在当前的目录下创建一个叫做 app.py 的文件。 导入依赖项
from dotenv import load_dotenv
import streamlit as st
from PyPDF2 import PdfReader
from streamlit_extras.add_vertical_space import add_vertical_space
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from elasticsearch import Elasticsearch, helpers
from langchain_community.vectorstores import ElasticsearchStore
from langchain.chains.question_answering import load_qa_chain
from langchain_community.llms import OpenAI
from langchain_community.callbacks import get_openai_callback
import os 创建 SideBar
# Sidebar contents
with st.sidebar:st.title(PDF Summarizer and Q/A App)st.markdown(## About this applicationYou can built your own customized LLM-powered chatbot using:- [Streamlit](https://streamlit.io/)- [LangChain](https://python.langchain.com/)- [OpenAI](https://platform.openai.com/docs/models) LLM model)add_vertical_space(2)st.write( Why drown in papers when your chat buddy can give you the highlights and summary? Happy Reading. )add_vertical_space(2) 上传 PDF 文件
为了方便大家学习我把一些示例的 PDF 文件进行上传。你可以在地址下载。
我们使用如下的代码来上传 PDF 文件
pdf st.file_uploader(Upload your PDF File and Ask Questions, typepdf)
Streamlit 中的 st.file_uploader 功能允许用户上传 PDF 文件使他们能够交互式地选择和上传 PDF 文档以便在 Streamlit Web 应用程序中进行进一步处理或分析。
我们使用如下的命令来运行代码
app.py
from dotenv import load_dotenv
import streamlit as st
from PyPDF2 import PdfReader
from streamlit_extras.add_vertical_space import add_vertical_space
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from elasticsearch import Elasticsearch, helpers
from langchain_community.vectorstores import ElasticsearchStore
from langchain.chains.question_answering import load_qa_chain
from langchain_community.llms import OpenAI
from langchain_community.callbacks import get_openai_callback
import os# Sidebar contents
with st.sidebar:st.title(PDF Summarizer and Q/A App)st.markdown(## About this applicationYou can built your own customized LLM-powered chatbot using:- [Streamlit](https://streamlit.io/)- [LangChain](https://python.langchain.com/)- [OpenAI](https://platform.openai.com/docs/models) LLM model)add_vertical_space(2)st.write( Why drown in papers when your chat buddy can give you the highlights and summary? Happy Reading. )add_vertical_space(2) def main():load_dotenv()OPENAI_API_KEY os.getenv(OPENAI_API_KEY)ES_USER os.getenv(ES_USER)ES_PASSWORD os.getenv(ES_PASSWORD)ES_ENDPOINT os.getenv(ES_ENDPOINT)elastic_index_namepdf_docs#Main Contentst.header(Ask About Your PDF ♀️)# upload filepdf st.file_uploader(Upload your PDF File and Ask Questions, typepdf)if __name__ __main__:main()
streamlit run app.py 提前文本并写入到 Elasticsearch
app.py
from dotenv import load_dotenv
import streamlit as st
from PyPDF2 import PdfReader
from streamlit_extras.add_vertical_space import add_vertical_space
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from elasticsearch import Elasticsearch, helpers
from langchain_community.vectorstores import ElasticsearchStore
from langchain.chains.question_answering import load_qa_chain
from langchain_community.llms import OpenAI
from langchain_community.callbacks import get_openai_callback
import os# Sidebar contents
with st.sidebar:st.title(PDF Summarizer and Q/A App)st.markdown(## About this applicationYou can built your own customized LLM-powered chatbot using:- [Streamlit](https://streamlit.io/)- [LangChain](https://python.langchain.com/)- [OpenAI](https://platform.openai.com/docs/models) LLM model)add_vertical_space(2)st.write( Why drown in papers when your chat buddy can give you the highlights and summary? Happy Reading. )add_vertical_space(2) def main():load_dotenv()OPENAI_API_KEY os.getenv(OPENAI_API_KEY)ES_USER os.getenv(ES_USER)ES_PASSWORD os.getenv(ES_PASSWORD)ES_ENDPOINT os.getenv(ES_ENDPOINT)elastic_index_namepdf_docs#Main Contentst.header(Ask About Your PDF ♀️)# upload filepdf st.file_uploader(Upload your PDF File and Ask Questions, typepdf)# extract the textif pdf is not None:pdf_reader PdfReader(pdf)text for page in pdf_reader.pages:text page.extract_text()# split into chunkstext_splitter CharacterTextSplitter(separator\n,chunk_size1000,chunk_overlap200,length_functionlen)chunks text_splitter.split_text(text)# Make a connection to Elasticsearchurl fhttps://{ES_USER}:{ES_PASSWORD}{ES_ENDPOINT}:9200connection Elasticsearch(hosts[url], ca_certs ./http_ca.crt, verify_certs True)print(connection.info())# create embeddingsembeddings OpenAIEmbeddings()if not connection.indices.exists(indexelastic_index_name):print(The index does not exist, going to generate embeddings) docsearch ElasticsearchStore.from_texts( chunks,embedding embeddings, es_url url, es_connection connection,index_name elastic_index_name, es_user ES_USER,es_password ES_PASSWORD)else: print(The index already existed)docsearch ElasticsearchStore(es_connectionconnection,embeddingembeddings,es_url url, index_name elastic_index_name, es_user ES_USER,es_password ES_PASSWORD ) if __name__ __main__:main()
我们使用如下的部分来提取 pdf 文件
if pdf is not None:pdf_reader PdfReader(pdf)text for page in pdf_reader.pages:text page.extract_text()
它首先检查 PDF 文件是否已上传即变量 pdf 是否不是 None。 如果确实上传了 PDF 文件则会创建一个 PdfReader 对象来读取 PDF 文件的内容。 然后它迭代 PDF 文档的每个页面使用 extract_text() 方法从每个页面中提取文本并将所有页面中的文本连接到一个名为 text 的字符串变量中。
我们使用如下的代码把文档分成 chunk
# split into chunkstext_splitter CharacterTextSplitter(separator\n,chunk_size1000,chunk_overlap200,length_functionlen)chunks text_splitter.split_text(text)“chunks”变量表示从 PDF 文件中提取的文本的分段部分。 将文本拆分为块至关重要因为它有助于更有效地处理大型文档因为一次处理整个文本可能会消耗过多的内存和处理资源。 通过将文本分成更小的片段应用程序可以更有效地管理和分析数据。 对文本进行分段可以更好地组织并有助于有针对性地分析或处理文档的特定部分。
我们使用如下的代码来生成嵌入 ElasticsearchStore.from_texts( chunks,embedding embeddings, es_url url, es_connection connection,index_name elastic_index_name, es_user ES_USER,es_password ES_PASSWORD)
嵌入是对象的数字表示通常用于捕获它们在数学空间中的语义或上下文。 词嵌入是高维空间中单词、短语或文档的向量表示其中相似的单词彼此更接近。 在此代码片段中嵌入是使用 OpenAIEmbeddings() 函数创建的该函数可能为从 PDF 文件中提取的文本数据生成嵌入向量表示。 这些嵌入捕获有关文本的语义信息使应用程序能够更有效地理解和处理内容。
随后使用 ElasticsearchStore.from_texts() 函数构建知识库该函数根据之前分段的文本块创建可搜索索引或结构。 该知识库使用 Elasticsearch 库实现可根据文本片段的嵌入进行高效的相似性搜索和检索。
成功运行上面的脚本后我们可以到 Elasticsearch 中进行查看 连接 LLM OpenAI
llm OpenAI()chain load_qa_chain(llm, chain_typestuff)with get_openai_callback() as cb:response chain.run(input_documentsdocs, questionuser_question)print(cb)st.write(response)
此代码初始化并利用 OpenAI 语言模型 (LLM) 创建问答 (QA) 系统。 它使用 LLM 加载预训练或自定义问答模型设置回调管理以处理问答过程中的事件对输入文档和用户问题执行模型并使用 Streamlit 显示生成的响应以进行用户交互。
最终的完整 app.py 如下
app.py
from dotenv import load_dotenv
import streamlit as st
from PyPDF2 import PdfReader
from streamlit_extras.add_vertical_space import add_vertical_space
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from elasticsearch import Elasticsearch, helpers
from langchain_community.vectorstores import ElasticsearchStore
from langchain.chains.question_answering import load_qa_chain
from langchain_community.llms import OpenAI
from langchain_community.callbacks import get_openai_callback
import os# Sidebar contents
with st.sidebar:st.title(PDF Summarizer and Q/A App)st.markdown(## About this applicationYou can built your own customized LLM-powered chatbot using:- [Streamlit](https://streamlit.io/)- [LangChain](https://python.langchain.com/)- [OpenAI](https://platform.openai.com/docs/models) LLM model)add_vertical_space(2)st.write( Why drown in papers when your chat buddy can give you the highlights and summary? Happy Reading. )add_vertical_space(2) def main():load_dotenv()OPENAI_API_KEY os.getenv(OPENAI_API_KEY)ES_USER os.getenv(ES_USER)ES_PASSWORD os.getenv(ES_PASSWORD)ES_ENDPOINT os.getenv(ES_ENDPOINT)elastic_index_namepdf_docs#Main Contentst.header(Ask About Your PDF ♀️)# upload filepdf st.file_uploader(Upload your PDF File and Ask Questions, typepdf)# extract the textif pdf is not None:pdf_reader PdfReader(pdf)text for page in pdf_reader.pages:text page.extract_text()# split into chunkstext_splitter CharacterTextSplitter(separator\n,chunk_size1000,chunk_overlap200,length_functionlen)chunks text_splitter.split_text(text)# Make a connection to Elasticsearchurl fhttps://{ES_USER}:{ES_PASSWORD}{ES_ENDPOINT}:9200connection Elasticsearch(hosts[url], ca_certs ./http_ca.crt, verify_certs True)print(connection.info())# create embeddingsembeddings OpenAIEmbeddings()if not connection.indices.exists(indexelastic_index_name):print(The index does not exist, going to generate embeddings) docsearch ElasticsearchStore.from_texts( chunks,embedding embeddings, es_url url, es_connection connection,index_name elastic_index_name, es_user ES_USER,es_password ES_PASSWORD)else: print(The index already existed)docsearch ElasticsearchStore(es_connectionconnection,embeddingembeddings,es_url url, index_name elastic_index_name, es_user ES_USER,es_password ES_PASSWORD )# show user inputwith st.chat_message(user):st.write(Hello World )user_question st.text_input(Please ask a question about your PDF here:)if user_question:docs docsearch.similarity_search(user_question)llm OpenAI()chain load_qa_chain(llm, chain_typestuff)with get_openai_callback() as cb:response chain.run(input_documentsdocs, questionuser_question)print(cb)st.write(response)if __name__ __main__:main()
我们可以针对文章进行总结 我们也可以针对文章进行搜索 整个项目的源码可以在地址 GitHub - liu-xiao-guo/PDF-Summarizer-End-to-End-Project 进行下载。