当前位置: 首页 > news >正文

上海网站建设公司排名关键词代发排名推广

上海网站建设公司排名,关键词代发排名推广,陕西省建设网三类人员题库,建设银行的官方网站电脑版听觉是人类最重要的感官之一,它负责接收外部的听觉刺激,并将这些信息传递给大脑进行处理和理解。研究人员正致力于从神经科学和计算机科学两个领域探索人脑的听觉感知机制。一个关键目标是从人脑中解码神经信息,并重建原始的刺激。常见的大脑…

      听觉是人类最重要的感官之一,它负责接收外部的听觉刺激,并将这些信息传递给大脑进行处理和理解。研究人员正致力于从神经科学和计算机科学两个领域探索人脑的听觉感知机制。一个关键目标是从人脑中解码神经信息,并重建原始的刺激。常见的大脑到音频的重建任务可以分为三类:大脑到声音的任务,用于重建环境中的所有自然声音;大脑到音乐的任务,用于音乐;以及大脑到语音的任务,用于人声,这些任务基于不同的刺激音频

     研究表明,在人耳的耳蜗和亚皮质结构中,声音被分解成类似频谱图的频率特定时间模式。进入大脑皮层后,人类听觉系统有两条从低级到高级的信息处理通路。初级听觉皮层对浅层或中级DNN特征更敏感,这些特征代表低级声学特征,而非初级听觉皮层对深层DNN特征更敏感,这些特征代表高级语义特征

    受到声学到语义流的启发,我们模拟了听觉处理路径的每个生理结构,并提出了一种相反的从粗到细的音频重建方法。我们使用非侵入性fMRI作为神经信号。首先,进行一个从粗到细的大脑解码过程。我们将fMRI数据解码到低维CLAP空间以获得粗粒度的语义特征,然后在这些语义特征的引导下,我们将fMRI数据解码到高维AudioMAE潜在空间以获得精细的声学特征。接下来,我们使用解码的精细神经特征作为条件,通过潜在扩散模型(LDM)重建mel频谱图,然后使用声码器恢复刺激波形。

1、方法

利用无创功能性磁共振成像(fMRI)数据,模拟听觉处理的逆路径,从而实现高质量的音频重建。

1.1 粗粒度语义解码

使用预训练的多模态模型 CLAP(对比语言-音频预训练),将 fMRI 数据解码到低维语义空间,提取粗粒度的语义特征。

CLAP 模型通过对比语言-音频预训练,将音频与自然语言描述对齐,从而提供丰富的语义信息。

1.2 细粒度声学解码

在语义特征的指导下,将 fMRI 数据进一步解码到 AudioMAE 模型的潜在空间,获取细粒度的声学特征。

AudioMAE 模型是一个自监督预训练模型,专注于重建掩码块,能够保留更多低层声学细节并更好地保留高层语义信息。

选择AudioMAE 模型的理由:

  • AudioMAE保留了更多的低级声学细节。
  • 与VAE相比,AudioMAE更好地保留了高级语义信息。
  • 在包含自然声音、人类和动物声音以及音乐的AudioSet上预训练,AudioMAE可以在通用音频领域中很好地工作。

1.3 音频重建

使用潜在扩散模型(LDM)作为生成模型,在细粒度声学特征的条件 下重建刺激音频的梅尔频谱图。

LDM 是一种强大的生成模型,能够在潜在空间中建模复杂的数据分布,并已被广泛应用于音频生成任务。

1.4 声码器

使用预训练的 HiFiGAN 声码器将重建的梅尔频谱图转换为波形,最终生成高质量的音频。

2、实验

2.1 实验设置

  • 粗粒度解码: 对于 Brain2Sound 和 Brain2Speech 数据集,仅使用听觉皮层(AC)区域的体素;对于 Brain2Music 数据集,使用整个大脑的体素。
  • 细粒度解码: 使用 4 层 Transformer 编码器和解码器,并使用预训练的 AudioMAE 模型初始化。
  • 音频重建: 使用预训练的 AudioLDM2 模型作为 LDM,并使用预训练的 HiFiGAN 声码器将梅尔频谱图转换为波形。

2.2 实验对比

  • 直接解码方法: 将 fMRI 信号直接解码到梅尔频谱图,包括线性回归、多层感知机、双向 LSTM 和 Transformer 编码器。
  • 细粒度解码方法: 将 fMRI 信号直接解码到 AudioMAE 模型的潜在空间,然后使用 LDM 重建音频。
  • 粗到细解码方法: 首先将 fMRI 信号解码到 CLAP 空间获取语义特征,然后在语义特征的指导下解码到 AudioMAE 潜在空间获取声学特征,最后使用 LDM 重建音频。

2.3 评估指标

2.3.1 高层次音频表示指标

  • FD (Fréchet Distance): 计算生成样本和目标样本在音频分类器 PANNs 提取的特征空间中的距离。
  • FAD (Fréchet Audio Distance): 类似于 FD,但使用 VGGish 模型提取特征。
  • KL (Kullback–Leibler divergence): 计算分类器 PANNs 的分类 logit 的 KL 散度,使用 Softmax 激活函数。
  • KL-S (Kullback–Leibler divergence): 计算分类器 PANNs 的分类 logit 的 KL 散度,使用 Sigmoid 激活函数。

2.3.2 低层次梅尔频谱图相似度指标

  • PCC (Pearson Correlation Coefficient): 计算重建音频和刺激音频梅尔频谱图的皮尔逊相关系数。
  • SSIM (Structural Similarity Index): 计算重建音频和刺激音频梅尔频谱图的结构相似性指数。

2.4 实验结果

  • 粗到细解码方法在重建音频的细节和语义方面均优于直接解码方法和细粒度解码方法。
  • 粗到细解码方法在 FD、FAD、KL 和 KL-S 等指标上取得了最先进的性能。
  • 提供语义提示可以有效提高重建音频的语义质量,尤其是在语义特征不佳的情况下。

2.5 数据集

Brain2Sound、Brain2Music和Brain2Speech一起被广泛用于验证粗到细的解码方法在单独的细粒度方法中的优越性。

  • Brain2Sound 数据集: 包含 5 个受试者聆听自然声音的 fMRI 信号,包括人声、动物、乐器和环境声音。
  • Brain2Music 数据集: 包含 5 个受试者聆听音乐片段的 fMRI 信号,包括 10 种音乐类型。
  • Brain2Speech 数据集: 包含 7 个受试者聆听语音片段的 fMRI 信号,包括不同性别的说话人。 
http://www.hkea.cn/news/393958/

相关文章:

  • 旅行社网站建设方案论文百度seo公司
  • 长沙网站建设与维护百度开户联系方式
  • 做pcr查基因序列的网站南京百度网站快速优化
  • 数据服务网站策划方案关键词快速优化排名软件
  • 响应式网站缺点学大教育培训机构电话
  • 江苏天德建设工程有限公司网站一个平台怎么推广
  • 石家庄做网络推广的网站推广平台收费标准
  • 贵阳天柱网站建设招聘域名注册平台有哪些
  • 网站建设电话营销百度问一问官网
  • 网站优化建设河南怎么关闭seo综合查询
  • 自贡做响应式网站开发公司google搜索引擎入口google
  • 东莞哪种网站推广好微信朋友圈推广文案
  • 现在学做网站赚钱吗东莞市优速网络科技有限公司
  • 宁津做网站公司宣传推广图片
  • 陕西的建设厅官方网站数据分析报告
  • 企业网站建设的定位互联网
  • 注册域名之后如何做网站优化清理大师
  • wordpress+在线播放推广seo网站
  • 丽水网站建设明恩玉杰网站开发框架
  • 如何设计网站中的上传功能搜索引擎技术基础
  • 余江区建设局网站百度搜索引擎优化的方法
  • 做网站用c 还是java万网域名注册教程
  • 青岛做网站那家好专业的网站优化公司排名
  • 网站如何做淘宝推广seo服务 收费
  • 学完js了可以做哪些网站营业推广的形式包括
  • 网站会员系统怎么做模版seo是指什么职位
  • 上海集团网站制作新闻 近期大事件
  • 商城网站验收标准seo关键词排名优化怎样收费
  • 睢宁做网站公司珠海百度关键字优化
  • 临安市住房和建设局网站伊春seo