当前位置：首页 > news >正文

网站建设什么最重要深圳网站搜索引擎优化

news 2026/4/27 6:28:17

网站建设什么最重要,深圳网站搜索引擎优化,建设网站怎么创建数据库,虹口专业网站建设本文内容整理自「智能媒体生产」系列课程第二讲#xff1a;视频AI与智能生产制作#xff0c;由阿里云智能视频云高级技术专家分享视频AI原理#xff0c;AI辅助媒体生产#xff0c;音视频智能化能力和底层原理#xff0c;以及如何利用阿里云现有资源使用音视频AI能力。课程…本文内容整理自「智能媒体生产」系列课程第二讲视频AI与智能生产制作由阿里云智能视频云高级技术专家分享视频AI原理AI辅助媒体生产音视频智能化能力和底层原理以及如何利用阿里云现有资源使用音视频AI能力。课程回放见文末。 01 算法演进视频AI原理在媒体生产的全生命周期中AI算法辅助提升内容生产制作效率为创作保驾护航。智能生产全链路智能生产全链路可分为五大部分。传统的媒体生产包含采集、编辑、存储、管理和分发五个流程随着人工智能技术的兴起五大流程涉及到越来越多的机器参与其中最主要的便是AI技术的应用。以下举例说明 l 采集在摄像机拍摄时同步进行绿幕抠图这在演播室或者影视制作场景中是比较常见的。 l 编辑编辑过程运用到很多技术比如横转竖、提取封面、叠加字幕等同时这些字幕还可以通过语音识别的方式提取出来再叠加在画面上。 l 存储视频在采集和编辑之后需要存储下来进行结构化分析像智能标签就是运用在存储场景从视频中提取出相应的标签进行结构化的存储并把视频库中的视频进行结构化关联。 l 管理存储下来的视频如何管理如何通过关键词检索到对应的视频在管理环节AI可以帮助进行多模态的检索比如人物搜索等。 l 分发在存储和管理之后视频分发也运用到AI技术比如音视频DNA、溯源水印等版权保护应用。如果通过直播流的方式对广大用户进行直播那么分发环节还会涉及到直播审核以免出现直播故障。基于智能生产全链路媒体AI全景图应运而生共分为四个层次最上面的层次表达媒体生产的应用场景包含智能媒资管理、内容智能生产以及视频版权保护。往下是产品能力即AI组合达成的能力比如视频分类、智能封面、智能抠图等。再往下是AI原子能力比如语音识别、自然语言处理这些底层的AI能力。最下是支撑AI能力的基础底座如编解码和GPU加速等。以上组合起来生成一张AI运用在智能生产中的全景图。视频AI原理视频AI的底层原理究竟是什么人工智能发源于机器学习而机器学习最早只是一种统计手段像决策树、支持向量机、随机森林等各种数学方法。随着时代发展科学家提出一种人工神经网络的计算方法或者说算法后来发现人工神经网络可以变得更大、层次变得更深经过进一步探索发展在二十多年前提出了深度学习的观点和概念。所谓深度学习就是在原先的人工神经网络上把中间的层次我们称之为隐含层扩展成两个层次、三个层次甚至发展到现在的几十个层次即可得到更多的输入层和输出层节点。当神经网络变得更大、更深的时候机器学习就演化成深度学习也就是我们现在俗称的AI。随之而来产生一个问题如何将AI运用到视频和图像中假如有一个1080P的视频视频大小为1920✖1080此时一张图像上就存在百万个像素。如果把百万个像素点都放入神经网络中会产生巨大的计算量远远超出常规计算机所能达到的上限。因此在把图像放入神经网络前需要进行处理研究人员提出了卷积神经网络而这也是现在所有图像和视频AI的基础。在卷积神经网络的标准模型中图像进入神经网络之前需要进行两步操作第一步是卷积层。所谓卷积就是拿一个卷积核可以简单理解为一个矩阵和原始图像的每一个卷积核大小的矩阵进行矩阵层的操作最后得到一个特征图像。由于有多个卷积核所以一张图片可以提取出多个特征图像。特征图像直接放入神经网络还是太大因此需要进行第二步池化层操作池化层的作用就是下采样可采取多种方式比如把方格中的最大值、平均值或者加权平均值作为最终输出值形成下采样数据。在上述例子中一张图像的大小降低为原先的四分之一输入到神经网络之后极大降低了原始数据量即可进行图像神经网络处理。由此可见用通俗的话来讲视频或图像的AI模型必须是由大数据喂出来的。大数据天然地长在云上云和AI天然的结合可以使AI在云上得到较好的发展与运用。了解视频AI原理之后如何反过来评价AI的效果以典型的分类问题举例假如有100个视频需要找出其中出现过人的视频那么有两个指标可以评价AI模型的好坏一个是精度另一个是召回率。所谓的精度是指假设AI算法最终找出50个视频但是检查之后发现其中只有40个是真正有人的那么精度计算为40➗500.8。召回率是指假设这100个视频中真正有人的一共有80个而AI找出了其中40个那么召回率计算为0.5。可以发现精度和召回率是一对矛盾。假如想提高精度只要找出来的视频少一点就可以保证每个找出来的视频都是对的即精度上升但此时召回率一定会下降。现阶段的AI并不完美也就是说目前AI还只能辅助视频生产生产视频的主体还是人。 AI辅助生产 AI辅助生产可以由以下两个示例进行说明。示例一通过图片搜索相关图片或视频。Demo显示输入一张周星驰的图片后机器虽然不认识这是谁但是能够从图片中提取此人的外貌特征然后在视频库里做相应搜索找出一堆包含周星驰的视频。示例二智能横转竖。传统电影和电视剧均为横屏播放随着移动互联网兴起这些电影和电视剧需要在手机端进行投放由此诞生了智能横转竖这样的AI算法将大量的横屏视频转换成竖屏视频帮助横屏视频在手机端分发。电视剧横转竖效果新闻横转竖效果 02 智能进阶视频内容理解智能标签智能标签基于AI对于视频内容的理解自动提取视频中的标签、关键词等信息分析详情会展示为四部分第一部分是视频标签获取视频的类目视频出现过哪些人物人物出现的时间点以及在视频中的位置人物的相似度等。第二部分是文本标签会提炼出一些关键词包括视频文本中出现过的组织机构比如央视等。后面两部分为文字识别和语音识别分别通过图片OCR技术和语音云识别技术实现。具体示例可在AI体验馆中进行体验同时也提供API接入文档进行参考。体验中心https://retina.aliyun.com/#/Label API接入文档https://help.aliyun.com/document_detail/163485.html AI是如何从视频中提取出信息的呢从视频标签的流程图中可以看到输入一个视频分别进行两部分操作一部分是对视频做抽帧处理抽帧得到的图像通过人像识别、场景识别、物体识别、地标识别、OCR等图像AI识别模型提炼出视频标签。另一部分是把视频中的音频提取出来然后通过ASR得到文本结果最后再经过NLP自然语言处理提取出文本标签。智能审核视频审核的技术原理与视频标签相同唯一不同的是视频标签可以理解为一个正向的视频内容理解而视频审核是负向的审核需要识别出一些不合规的、有问题的内容比如鉴黄、暴恐涉政、违规、二维码、不良场景等信息。视频检索视频检索的核心技术点是利用标签结果进行视频的分析和查询。视频检索架构图显示媒资系统中的视频通过媒资特征入库模块导入到智能标签分析中并得到一系列的标签包括视频标签、文本标签原始的ASR、OCR结果等将这些结果连同视频的元数据信息比如标题、描述等利用ElasticSearch开源服务进行文本信息的倒排索引和查询。视频检索过程中会涉及到精排模块这需要由业务层来实现。如果只是从ES中把符合检索条件的结果提取出来不一定能满足业务层需求比方说业务层面对政治新闻场景时会要求把某些人物的搜索结果更靠前排序而这就是精排模块所需要做的工作。检索系统一般都会根据业务层排序接入业务接口模块由此一个基本的检索系统搭建完成。但是现在的检索系统只能按照文本检索视频。如何通过一张图片检索到相似的图片或视频呢这涉及到视频DNA检索技术。所谓的视频DNA就是把视频里面的关键帧或者某一镜头提炼出关键信息我们把它称之为DNA并把这些信息放入向量数据库中进行检索更多内容可通过体验中心和接入文档进行拓展了解。体验中心https://retina.aliyun.com/#/DNA API接入文档https://help.aliyun.com/document_detail/93553.html 03 能力升级音视频智能处理基于视频内容理解如何对视频进行智能处理绿幕抠图绿幕抠图是在视频拍摄或者采集时把背景替换成电脑制作的画面。在演播室场景中实际拍摄时根据需求在主持人的背后放置绿幕背景或者蓝幕背景。影视制作场景同样运用到绿幕抠图比如科幻片中无法实景拍摄的部分会在后期进行背景叠加或其他处理工作通过在人物背后放置绿幕的方式把人物主体提取出来。绿幕抠图要求输入的是蓝幕或者绿幕视频分辨率不超过4K同时输入一张背景图片即可输出替换背景后的视频。以下为示例说明一个人从绿幕前走过替换背景后变成此人在背景前走路整体效果非常自然。视频链接https://v.youku.com/v_show/id_XNTk0MDc4Mjc3Mg.html 视频链接 https://v.youku.com/v_show/id_XNTk0MDc4Mjc5Ng.html 如何评价绿幕抠图的质量首先要处理好边缘溢色比如在头发边缘由于原始的图像背景是绿幕头发缝边缘必然会染上一些绿色技术上需要把这些边缘溢色擦除掉。此外如何真实地呈现透明度并叠加背后的内容还有运动模糊地面阴影等均是绿幕抠图质量好坏的评价点。横转竖横转竖是在移动互联网上分发视频的必备处理手段。传统人工制作横转竖视频的难点在于一需要专业的剪辑软件和制作人员成本高速度慢二在目标移动比较快的场景中需要逐帧剪裁工作量巨大三剪裁目标区域后前后帧难以对齐。因此横转竖视频更适合由机器制作实现。智能横转竖的算法流程是首先对视频进行镜头分割所谓的镜头分割就是在视频制作中按照不同拍摄机位的转变识别镜头的切换并把不同镜头分割开来。视频链接https://v.youku.com/v_show/id_XNTk0MDg4MjA0NA.html 其次是主体选择在主体选择时一般选择画面中最醒目的人作为目标在上述舞蹈场景中主体就是这个正在跳舞的人。然后是镜头追踪每帧图像做好初期选择之后下一帧都要跟随目标即框定的图像跟随这个人进行移动。最后是路径平滑镜头追踪完成之后最终生成的竖屏视频必须是平滑的不能出现翘边等不良效果。更多内容可参见官网体验中心https://retina.aliyun.com/#/H2V API接入文档https://help.aliyun.com/document_detail/169896.html 其他视频智能处理能力目前阿里云视频云提供的视频智能处理能力可分为以下四类 ROI提取即感兴趣区域提取包括绿幕抠图和横转竖智能擦除比如去图标、去字幕关键信息提炼比如智能封面即从视频中提取出最能表现视频的一张图片视频摘要提取出视频中最能表现视频的简短视频结构化分析比如字幕提取把嵌入在图像中的字幕自动提取出来PPT拆条可以将一个课程视频自动拆成段落。讲完视频智能处理能力接下来介绍两项音频智能处理能力副歌识别和节奏检测。副歌识别副歌是指歌曲中的高潮片段。副歌识别有何应用场景比如很多音乐APP的试听功能会直接播放歌曲中的高潮片段人为进行提取相当麻烦而副歌识别就能很好地完成任务。副歌识别的算法流程为输入歌曲之后首先进行音乐段落检测然后提取副歌段落并进行精调使之更贴合最后再生成副歌片段。副歌识别的示例显示通过调用之后算法会返回两个结果值即副歌的开始时间点和结束时间点。大家可以对返回的结果和音频进行对照从72秒副歌开始到102秒副歌结束副歌识别结果还是非常准确的。节奏检测节奏检测即识别音乐中的节奏点其主要应用场景为视频制作和音乐推荐比如通过识别出音乐节奏点进行鬼畜视频的制作通过识别音乐的节拍类型是四三拍还是四四拍帮助进行音乐分类等。继续以上述音频示例节奏检测算法输出两个结果第一个是节拍时间点如0.46秒、0.96秒均为节拍时间点第二个是downbeat时间点在乐理中解释为重拍其中0.46秒为第一拍2.46秒为第五拍也就是说每四拍为一个小节每小节的第一拍为重拍由此检测出该音乐的节奏。其他音频智能处理能力此外视频云还提供其他音频智能处理能力包括混音ASR语音识别和TTS语音合成。混音即把两个音乐片段进行叠加其中涉及到音量增益和自动控制算法。这些能力进行组合还可以实现更多玩法比如歌曲串烧首先通过副歌识别把几首歌曲的副歌部分提取出来然后进行节奏检测把合适的节拍点合在一起最终组合成一首完整的歌曲串烧。 04 开箱即用阿里云媒资服务基于视频AI原理以及效果阿里云利用现有资源提供更方便、更高效的音视频AI使用能力。 MPS服务 MPS是媒体处理的英文简称。阿里云提供针对多媒体的数据处理服务将媒体处理过程抽象成两种模式一种是输入音视频等多媒体文件经过智能化媒体处理生成一个新的媒体文件比如之前提到的智能横转竖。另一种模式是输入一个媒体文件输出经过媒体处理分析后的一系列结构化数据比如智能标签或智能审核。 MPS支持多项音视频智能处理能力此外MPS的媒体文件类型既可以输入OSS文件也支持输入网络URL地址。 MPS接口调用的流程为第一步开通MPS产品在开通的过程中控制台会引导进行增加权限等相关操作。开通MPS产品https://www.aliyun.com/product/mts 第二步调用MPS的Open API接口获得Access Key包括AK的ID和密钥。所有阿里云的Open API都要通过AK和SK访问。使用RAM服务获取AccessKeyhttps://ram.console.aliyun.com/manage/ak 第三步认真阅读MPS提供的API文档https://help.aliyun.com/document_detail/29210.html 第四步针对开发需要选用不同编程语言并安装依赖模块https://help.aliyun.com/document_detail/188024.html 第五步编写代码。阿里云MPS服务提供的智能化能力可以分为四个维度一是视频内容理解包含智能标签智能审核媒体DNA媒体DNA是视频检索中的重要组成部分还有智能封面、视频摘要等。二是视频智能处理像横转竖、去图标、去字幕、字幕提取等从电视剧或电影中抽取出字幕并输出TXT或者SRT格式此外也包括绿幕抠图和PPT拆条等。三是音频智能处理包含副歌检测、混音处理、节奏检测和音质检测等。四是图片智能处理包含横转竖、去图标和人像风格化。人像风格化可以把一张人像图片风格化成不同的形式比如把人像进行卡通化或者进行3D处理。 IMS服务 IMS服务是阿里云近年来新上的服务全称是智能媒体服务和MPS服务的区别在于 IMS服务围绕直播和点播场景是针对媒体处理的全流程服务可认为是MPS服务的重大产品迭代和升级。第一IMS不仅针对于单个媒体处理过程而是对于媒体服务全流程、全生产周期的管理和制作第二IMS的集成度更高不光可以进行单个原子能力的音视频处理还可以进行媒资管理、工作流触发等让开发者更方便地使用音视频智能化能力第三IMS更智能后续所有智能化能力升级后都会集中体现在IMS服务中。 IMS控制台融合了媒资管理媒资库中的音频视频文件包括图片、辅助的媒资都可以通过IMS服务进行展示和管理。利用多模检索的智能化能力IMS可以实现多媒体文件的智能化检索。传统的音视频文件检索只能针对标题或者简介进行而IMS支持对上传的音视频文件做AI自动分类并根据分类结果进行搜索同时也支持对视频中的文字进行自动识别检索。比如新闻联播的画面中出现了“康辉”两个字样虽然视频文件的标题和简介里都没有出现过“康辉”但在搜索“康辉”时AI还是可以搜索识别出此视频文件这就是多模检索的能力。 Retina多媒体AI体验中心上述MPS和IMS服务的智能化能力都需要通过Open API调用或者控制台开通使用而Retina体验中心可以让大家更方便快捷地进行体验只需上传视频或图片就可以直观地得到经过智能化处理后的结果。例如在Retina平台你可以体验人像卡通化的效果只需上传一张人像图片经过自动处理就能获得童话风格的卡通人像图片更多体验就在http://retina.aliyun.com/ 随着视频与AI技术的发展和演进AI在媒体生产领域中发挥着越来越重要的作用以更快的速度、更高的效率完成之前难以实现的事情。未来AI将从辅助媒体生产逐渐转变为直接生产有意义、有价值、有情感的视频进一步加速媒体生产制作全自动处理进程。更多完整内容详见课程回放 ⬇️ 视频链接https://v.youku.com/v_show/id_XNTk0MjQ4Mjk5Mg.html

查看全文

http://www.hkea.cn/news/14431480/