网站提交了被收录后改怎么做,设计师培训计划方案,徐州云网信息技术有限公司,网站登录验证码怎么做最近看了一下百度paddlespeech的一些公开课#xff0c;把课程里的视频内容大体听了一下#xff0c;现在整理一下笔记。教程链接见#xff1a;飞桨AI Studio星河社区-人工智能学习与实训社区 语音识别的过程可以这样简单概括#xff1a;
将声音信号经过预加重、加窗、fft等…最近看了一下百度paddlespeech的一些公开课把课程里的视频内容大体听了一下现在整理一下笔记。教程链接见飞桨AI Studio星河社区-人工智能学习与实训社区 语音识别的过程可以这样简单概括
将声音信号经过预加重、加窗、fft等转化成频谱图横轴是频率纵轴是能量大小。然后经过mel滤波器变成mel频谱图。
然后的处理方法有的是直接经过取对数操作变成logfbank特征有的去除了相邻频段的重叠相关部分就是mfcc特征。现在深度学习有用到重叠相关性用logfbank的比较多。
声音特征经过声学模型输出每一帧的识别文字和对应的概率。声学模型框架课程里介绍了两种一种是deepspeech一种是基于transformer的conformer。
deepspeech2采用了两层降采样的cnn和多层rnn组成。
deepspeech2是使用cnn提取局部特征减少模型输入帧数降低计算量易于模型收敛这也就是为什么有了cnn以后不再需要mfcc等人工特征提取相对独立的信号了或者说是能量的本征值。
rnn的作用是获取语音的上下文信息获得更加准确的信息进行一定程度的语义消歧。
softmax将特征向量映射到一个字表长度的向量。
decoder是将encoder的概率解码成最终的文字结果。
ctc的解码有3种方式
CTC greedy search
CTC beam search
CTC Prefix beam search
prefix beam search合并了生成重复项的概率因为ctc的对齐方式就是允许有重复项但是最后会把相邻的重复项或空格合并成一个token。
ctc的对齐是很有用的利用了单调有序性就是说语音里文字的前后关系也对应识别文字的前后关系。但是语音转译就没这么好的条件利用了例如good morning应该翻译成“早上好”。
还说回语音识别另一种方式是conformer前身是espnet。conformer的encoder部分是一个“汉堡包”类型的模型结构而且他是layernorm在前面然后接mha然后接一个残差连接 transformer相比rnn可以更有效的捕捉到长距离的依赖关系。采用自回归的方法生成数据也就是说用识别到的文字作为keyencode编码作为q和v来生成下一个文字。 模型训练同时使用了 CTC 损失和 cross entropy 交叉熵损失进行损失函数的计算。
其中 Encoder 输出的特征直接进入 CTC Decoder 得到 CTC 损失。
而 Decoder 的输出使用 cross entropy 损失。 声纹识别有两种模式1:1声纹密码安全和1N从声纹库里提取说话人分离
现在利用x-vector来识别。
工业场景应用痛点
1.没有标注数据只有无监督数据
2.跨域场景性能下降严重
3.超大规模说话人训练
4.难分样本
痛点1无监督比对学习用已有的标注数据生成无监督样本然后训练模型把不同说话人能有效分隔开。
痛点2领域对抗学习只需新增1条支路建立特征对抗
痛点3将多分类转换成二分类任务语音/noise
痛点4解决长尾问题focal loss提升难分样本权重ghm不应特别关注困难样本而应在一定范围内关注