当前位置：首页 > news >正文

门户网站seo怎么二次开发wordpress

news 2026/4/25 13:59:20

门户网站seo,怎么二次开发wordpress,福建建设执业中心网站,阿里云简单网站建设前序#xff1a;先说各个功能涉及到的技术#xff0c;再说宏观系统架构。AI手机有这样几个做法#xff0c;给手机侧边增加一个按键#xff1b;把手机的语音助手做的很好#xff0c;能够快速稳定的进行唤醒#xff1b;通过特殊形式的触摸手机的曲面屏位置等来进行唤醒AI …前序先说各个功能涉及到的技术再说宏观系统架构。AI手机有这样几个做法给手机侧边增加一个按键把手机的语音助手做的很好能够快速稳定的进行唤醒通过特殊形式的触摸手机的曲面屏位置等来进行唤醒AI 一、AI产品介绍 1、一键问屏 (1)、功能描述手机右侧有个按键按下后用户可以进行问问题手机会结合手机屏幕当前的内容做回答识屏问答咨询问答属于常规的连续对话制定攻略这里可能要训练一个专属的大模型因为要讲究攻略格式AI智能体出行买票进入到应用航班查询界面这个应该是从系统底层调起比如美团、飞猪这样的应用然后进入到航班查询界面一拍即问 (2)、分拆各个技术细节 (2.1)、手机按键手机按下键后系统会实时捕捉到这个信号并且调起一键识屏这个功能这个是phone操作系统级别的功能。在个人app中也可以实现这个功能可以采用原生app开发也可以用uniapp国内常用、谷歌flutter国外常用开发出这个app (2.2)、识屏回答背景屏幕包含图片如果是视频会进行截图、文字两种信息使用方式用户通过语音提出问题系统进行回答背后的技术1先是语音这里涉及到这几个环节用户说的话-手机麦克风采集声音数据- VTTvoice to text除了各大云厂商外比如deepgram也是专业的做这个的或者不想调用api也可以用微软的edge_tts python包-得到回答-STTspeech-to-text 背后的技术2技术1中是怎么得到回答的 1、屏幕内容捕捉与预处理屏幕截图系统通过底层API获取当前屏幕的截图。图像预处理对截图进行降噪、增强等处理以便后续分析。 2、图像识别OCR和物体识别 2.1、OCR光学字符识别使用OCR技术如Tesseract或其他深度学习模型提取截图中的文字信息。支持多语言识别能够识别中英文等多种文字。 2.2、物体识别可能基于预训练的深度学习模型如ResNet、YOLO等识别截图中的物体、场景或特定目标如植物、动物、商品、景点等。 2.3、意图判断回答使用预训练的大模型对用户输入的问题进行语义分析理解用户的意图。这里一般会设计成传统NLP进行意图判断(提前训练好的multi target model)或者大模型进行意图判断从而分流(路由)到multi agent的其中1个。不换是传统NLP或者大模型最终的输出目标一般会设计到这样几种仅使用截图中信息进行回答摘要、总结、问题、扩写...、需要调用公司内部数据回答识图、景点、攻略、定航班...、联网搜索其他信息进行回答、其他...每种agent的处理逻辑也不一样仅使用截图中信息进行回答的重点在于写prompt需要限制仅使用图中的信息文本、图像来回答用户的问题需要调用公司内部数据比如景点公司内部一般会提前准备好全世界几十几百万个景点的数据进行预训练llm也是调用的这个专属大模型来回答user query联网搜索其他信息时一般会用到rag、深度搜索这样的技术结合大模型进行回答需要有很强的召回能力能够精确得召回一些质量好的网页或数据来 2.4、一些加速方案部分复杂的图像识别和NLP任务可能需要依赖云端计算资源。简单的任务如OCR可能在本地设备上完成会部署端侧模型以提高响应速度。 (2.3)、咨询问答咨询问答一般有这样几个性质准确、专业、实时有的时候需要用公司内部准备的数据进行回答有时候需要联网查询相关的数据、网页进行回答都是属于给大模型准备背景知识以防止进行胡乱回答。 (2.3.1)、知识检索技术 step1 准备语料如果是联网查询这要用到传统的搜索引擎技术把召回到的topn最合适的网页内容作为背景知识step2 文档切割 topn网页或者公司内部的数据将文档切割成更小的片段以便于后续的向量化处理和检索 step3 向量化调用语言模型将文字片段转化为Embedding表达即向量化。向量化的目的是保留数据之间的语义关系使得语义相似的文本在向量空间中距离较近。step4 构建索引/数据库使用生成的Embedding来构建可以提供KNNK-Nearest NeighborsK最近邻检索能力的索引或数据库以便于后续的高效检索。step3-step4有一些优化办法如下1. 对生成Embedding的语言模型使用领域的语料进行微调Finetune以提高向量化的准确性和效率。 2. 使用倒排索引作为Embedding召回的一种必要补充以提高检索的召回率和准确性。 3. 对召回结果进行重排序rerank根据问题的相关性和重要性对结果进行排序 (2.3.2)、大模型推理与生成技术 1. **RAGRetrieval-Augmented Generation技术**RAG技术将“查资料”和“写答案”这两个步骤结合在一起。先用检索系统找到一些跟问题相关的资料然后再用大模型比如GPT来编写一个详细的答案。这种方法可以显著提高AI回答垂直领域问题的准确性。但需要注意的是RAG技术可能会存在“幻觉”的情况即大模型在生成答案时可能会引入一些与问题不相关的信息。 2. **Prompt设计**Prompt的设计对于大模型的推理与生成能力至关重要。一个好的Prompt可以引导大模型更好地理解和回答用户的问题。Prompt设计策略可能包括将Reasoning和Action的生成结合到一个输出中让模型能够更好地将想法与行动同步。 (2.3.3)、模型微调技术为了提高大模型在特定领域或任务上的表现通常会使用模型微调技术。这包括监督式微调Supervised Fine-TuningSFT等技术。通过使用少量标注好的领域数据来训练基座大模型可以获得可处理专属领域任务的专有模型。这种方法可以显著提高大模型在特定任务上的准确性和效率。但需要注意的是模型微调可能会导致过拟合或灾难性遗忘等问题因此需要在微调过程中进行仔细的监控和调整。一般会选择一些成熟框架比如firefly。为了解决过拟合或者灾难性遗忘问题除了调节一些参数外特别是全参数微调时在数据准备上一定要多花点时间除了和这次任务相关的数据之外还要有一些常识性的数据。lora相对来说要求没有这么高 (2.4)、制定攻略攻略针对的一般是旅游这个场景重点是详细时间、出行方式、景点内容...、格式优美、准确。一般而言直接用base模型rag技术是达不到这个程度的。必须自己准确好每个景点的攻略数据选择base模型来进行微调出一个垂直领域的instruct模型这个模型专门用来进行制定攻略 (2.5)、出行买票首先说下生态这个涉及到3方应用。现阶段有这样几个形态对于手机厂商可以从底层调起其他app对于支付宝、微信这样的应用有大量的3方小程序在app内就可以调起对于其他app首次调起其他app的时候需要授权后面就不再需要了还是比较方便还有一些可以控制手机的纯视觉大模型对应的框架比如mobile agenthttps://modelscope.cn/brand/view/Mobile-Agent但是需要有手机操作的权限比如安卓的adb实用性不好接下来说下技术如果对用户的意图判断出来需要打开其他app那么就从“路由”处走到当前的链路来打开app - 功能对应的流程比如买票、打车等 (2.6)、一拍即问这个和2.2中的识屏回答异曲同工基本是一个技术方案 2、影像创作 (1)、AI去反光隔着窗户也能如临其境这个没有很方便的云厂商调用可能需要自己去训练部署模型或者去huggingface、modelscope这样的平台直接拉取现有的模型权重进行服务 (1.1)、传统办法基于图像处理技术比如边缘检测、滤波等 (1.2)、常用的深度学习模型使用CNN-based卷积神经网络直接学习反光层和背景层的关系例如EDRNEdge-Enhanced Reflection Removal Network 使用GAN-based生成对抗网络生成无反光的图像例如ReflectionGAN (1.3)、大模型技术 Vision Transformer (ViT)利用Transformer架构捕捉全局信息适合处理复杂的反光场景。例如RFormer结合ViT和CNN进行反光去除 Diffusion Models通过扩散过程生成高质量的无反光图像例如RefDiff基于扩散模型的去反光方法 (2)、模糊变清晰比如运动抓拍这也是一个在深度学习还没有出现的时候就探讨的话题也存在传统图像解法、传统深度学习模型解法、大模型解法。很多的云厂商都提供有API解决方案比如阿里云视觉智能开放平台-图像超分https://help.aliyun.com/zh/viapi/?spma2c4g.11186623.0.0.1d0cd3509R6eyj (3)、拍照时只想保留其中一小部分需要裁剪裁剪后的像素质量特别差AI一键增强到超高清涉及到两步第一步是裁剪第二步是模糊变清晰同样在阿里云的视觉智能开放平台上可以得到API (4)、AI路人消除这个在云厂商比如阿里云也有提供解决方案比如大模型服务平台百炼-图像擦除补全涉及到的流程是这样的原图-任务实例分割掩码图像-待擦除区域-保留区域-输出图像。不支持prompt进行擦除现在有些手机厂商或者图像类app提供的服务更加便捷一般是支持对话式消除的比如和平台说消除图片中的左边第1个人消除图片中的水果...要达到这个功能就要对阿里云的方案做下改动首先是了解到用户的消除意图左边第1个人水果桌子再进行实例分割掩码图像掩码对应的目标对象再自动确定擦除区域最后擦除输出图像 (5)、上传1张照片生成多张个性化写真这个可以采用云厂商比如阿里云人工智能平台PAIAI写真提供的服务 AI写真技术的核心是基于生成对抗网络GAN或扩散模型Diffusion Models的图像生成技术。第一步是数据预处理第二步是使用预训练的人脸识别模型如ArcFace、FaceNet提取人脸特征、使用3D人脸模型如3DMM或关键点检测工具如Dlib提取姿态和表情信息第三步是使用StyleGAN、StarGAN等生成对抗网络生成高质量的人脸图像、使用Stable Diffusion、DALL-E等扩散模型生成图像、使用少量样本进行微调如DreamBooth、Textual Inversion生成与输入人物高度相似的写真照片第四步是使用ESRGAN、Real-ESRGAN等超分辨率模型提升生成图像的分辨率、使用图像修复模型如LaMa修复生成图像中的瑕疵、使用风格迁移模型如AdaIN将生成图像转换为特定风格如油画、水彩第五步是输出 3、AI办公学习 (1)、应用便签使用办法简单写上些草稿 - 润色便签自带功能- 完成初版更深入修改的选项更正式、更口语化、增加篇幅技术方案这个属于大模型、微调、prompt方向的工作。因为是一个通用的领域在润色时一般有很多个领域所以简单点可以选择一个在多领域比较好的模型如deepseekqwen2.5等一般来说效果就挺好的如果效果不满意可以进行微调可以选择firefly微调框架在使用过程中可以选择co-star的prompt框架来撰写这个提示词就能达到很好的效果 (2)、下面是办公类的功能。下面几个的应用场景可能是打开文档的时候自动识别出是文档并把对应的功能展示可选比如有文档问答、文档翻译、文档摘要 (2.1)、格式随心转换 PDF 是一种基于 PostScript 的页面描述语言PyPDF2这个python库可以读取里面的文本数据对于图像、公式等数据还是要用cv方面的模型进行解析判断出来是图像、公式后再进行图像切割把对应的位置拿出来。如果是图像的话可以借用OCR技术如Tesseract或其他深度学习模型提取截图中的文字信息、对于实体信息再借用cv里面的物体识别等能力进行识别。从而达到对pdf文档中的文字、图像、公式进行读取对于word和excel可以借助python-docx、openpyxl两个python库进行读取和处理上面对3种格式的文本处理好后再借用相应的python包进行保存成需要的格式。这个的难点在于格式的处理一定要在处理数据上多花些时间 (2.2)、AI笔记助手、极速AI摘要、外文一键翻译这几个功能是调用大模型、prompt编写、模型微调评估部署方面的应用 (3)、过去系统查找文档是借助操作系统的底层能力有时候很多文档不好找。AI穿透搜索除了手机里面本身系统文件夹里面的文件外还可以把QQ、微信等应用里面的文件也找到而且并不是根据文件名进行匹配会考虑到里面的内容这个是怎么实现的 app的信息存储也是存储在手机的文件系统中只要能够访问到这个系统就可以一直维护一个索引库设定一定的规则比如以txt word pdf等结尾的文件一旦存储在文件系统中就把内容解析到索引库中这样在用户进行搜索的时候就可以直接调用这个索引库把相关的文件给找到 4、生活 4.1、娱乐类型应用小红书/大众点评不同的应用是不同的风格应该是multi agent 使用办法小红书插入图片后一键识别图片中内容进行AI帮写也可以先简要写点文字写好配套的文案、表情、自动打标签技术方案首先针对不同的应用有不同的agent这是一个Multi agent产品因为需要在不同的app下有不同风格的文案、技能。以小红书为例在用户插入图片后如果调起这个功能系统首先要判断出来当前是小红书然后调起小红书对应的agent 先进行屏幕读取屏幕上有用的信息一般只有上传的图片有时候还会有简要的文字用户可能编辑了一点文案首先对图片进行分析需要利用ocr解析出对应的问题再对图片进行解析植物、动物、商品、景点等再用预训练好的llm将上面这些作为prompt信息的一部分需要出对应的文案出来。有一些极端情况就是用户也没有简要文案图片也没有解析出来什么代表性的信息这时候就体现出“微调模型”比“基座模型”的优势了“微调模型”也不会胡乱编写编写的内容也是可用的 4.2、通话应用场景支持所有的3方应用只要手机在发声技术方案1录音是一个比较常用的技术这个涉及到麦克风将录取到的二进制音频数据进行保存。技术方案2字幕或者AI摘要涉及到这几个关键技术点声音-手机麦克风转成数字信号-因为是实时处理所以要用deepgram/百度/讯飞等的websocket框架来进行文字识别这样就可以完成开启字幕的功能至于AI摘要是利用llmprompt来完成的可能要专门微调出来一个合适的prompt或者在prompt上多花点功夫二、架构底层技术难点 1、AI重构交互范式听有很多的嘈杂音识别成功率97% 看检索增强多模态理解图文混合检索|1000识别类型。OPPO采集了全国3A级以上超16K个景点的数据进行图搜增强训练说生成式语音合成框架20丰富音色还可以15S自己生成音色做复杂意图理解与规划编排比如手机拍照一张宴请涵问把它加到我的日程手机就会操作好并设置提醒或者回复你一会要去的地方你可以和他说打车过去等。1800项手机功能都集成到了小布AI助手中过去的做法这个过程涉及到规则路由功能api调用。比如用户提出来把它加到我的日程系统就会从照片中利用ocr解析到的时间地点然后把这两个作为参数再调用“日程”这个功能并完成打车、定机票也是一样比如打车需要有这几个参数出发地、目的地、打车时间、使用的app(高德、百度、滴滴等)然后把这些作为参数调起api 大模型时代的做法首先需要准备大量的相关数据训练出来一个可以调用api的llm用户目的解析也不再使用规则路由而是使用大模型进行判断目的并调用api 2、AI重构计算范式 (1)、端侧逐帧视频搜索 (2)、与芯片厂商合作端侧计算成为瓶颈时采用Lora架构一个大模型多个小模型实现不同的功能 3、AI重构开发范式这个功能在AI之前叫做预测predict或者叫multi-target分类任务类别是有限的由【app功能时间】组成不会超过100种。现在的做法应该是这样首先这100种类别还是确定的系统会把用户过往的历史行为进行分析可能会加一些规则也可能把规则加到prompt中让llm进行输出这100种类别发生的可能性并判断是否要加到手机首页的这个板块中

查看全文

http://www.hkea.cn/news/14408976/