DAV数字音视工程网_会议系统、指挥调度、演艺科技、智能楼宇等音视频工程信息行业门户

DAV首頁
數字音視工程網

微信公眾號

數字音視工程網

手機DAV

null
null
null
卓華,
招商,
null
null
null
快捷,
null

我的位置:

share

語音識別技術之自適應技術

來源:網絡        編輯:ZZZ    2024-02-22 10:05:56     加入收藏    咨詢

咨詢
所在單位:*
姓名:*
手機:*
職位:
郵箱:*
其他聯系方式:
咨詢內容:
驗證碼:
不能為空 驗證碼錯誤
確定

  1. 語音識別技術中的自適應技術簡介

  語音識別中的自適應,即針對某一個說話人或者某一domain來優化語音識別系統的識別性能,使得識別系統對他們的性能有一定的提升。語音識別的自適應技術的目的是為了減少訓練集和測試集說話人或者domain之間差異性造成的語音識別性能下降的影響。這種差異性主要包括語音學上的差異還有生理上發音習慣上不同導致的差異性等等。自適應技術主要被應用于語音識別技術相關的產品,還有針對VIP客戶的語音識別等。

  上述的差異性問題,它容易造成說話人或者domain無關的識別系統性能上不好,但是如果針對該說話人或者domain訓練一個相關的識別系統,那么需要收集很多數據,這個成本是很高的。而語音識別中的自適應技術作為一種折中,它的數據量較少,并且性能上也能達到較好的效果。

  語音識別中的自適應技術有很多,根據自適應的空間,可以分成兩類:特征空間自適應和模型空間自適應。對于特征空間自適應來說,它試圖將相關的特征通過特征轉換成無關的特征,從而能夠和無關的模型相匹配。而對于模型空間的自適應來說,它試圖將無關的模型轉換成相關的模型,從而能夠和相關的特征相匹配??偠灾?,這兩類算法目的是為了讓相關的特征與無關的模型相匹配。

  2. INTERPSEECH 2017 paper reading

  2.1 Paper 1

  第一篇文章的題目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition,它來自蒙特利爾大學。這篇文章的主要思想是將layer normalization的scale和shift兩個參數由上下文無關的變成上下文相關的,從而根據上下文信息來獲得動態的scale和shift。這是一種模型空間的自適應。它的主要創新的地方主要是,它不需要自適應階段(自適應階段就是使用目標 domain的數據進行自適應,從而能夠學習到目標domain的知識),另外,它同樣不需要提供包含說話人信息的相關特征,例如i-vector等等。

  DLN對應的公式如上圖右邊所示,首先,取前一層的minibatch ( TT )大小的隱層矢量或者輸入矢量hl−1thtl−1進行summarization,從而獲得alal。然后,通過線性變換矩陣和偏置來動態地控制scale ( αlgαgl )和shift ( βlgβgl )。

  同時,在原來的CE訓練的基礎上,在目標函數上增加一個懲罰項(上圖的右下角LvarLvar),用于增加句子內的variance,從而summarization出來的信息會更加具有區分性。

  這篇paper主要是在81小時的WSJ以及212小時的TED數據集上進行實驗,WSJ的訓練集包含283個說話人,TED的訓練集包含5076個說話人。

  首先,在WSJ數據集上對比LN和DLN之間的性能,性能主要包括開發集和測試集的FER和WER(FER表示幀錯誤率,WER表示詞錯誤率)??梢钥闯?,除了測試集WER外,DLN均優于LN。文章分析,這是由于WSJ的說話人數目較少,導致句子間的差異性不明顯,同時WSJ數據集是在安靜環境下錄制的,句子都比較平穩,DLN不能夠起作用。

  在TED數據集上的結果如第二個表格所示,發現在四個性能參數下,DLN均優于LN。文章對比WSJ和TED數據,TED數據集能夠取得比較好的性能的原因是,TED數據集較WSJ speaker數目更多,句子數更多,variability更加明顯。通過這篇文章,我們可以發現這種動態的LN與句子的variability相關。并且總體上看來,DLN是要優于LN。

  2.2 Paper 2

  第二篇文章的題目是Large-Scale Domain Adaptation via Teacher-Student Learning,它來自微軟。這篇文章的主要思想是通過teacher/student的結構來進行domain adaptation。這種方法不需要目標 domain的帶標注的數據。但是,它需要和訓練集相同的并行數據。它的創新點和價值主要在于,這種方法可以使用非常多的無標注數據,同時借用teacher network的輸出來進一步提升student模型的性能。

  將teacher/student 簡稱為T/S。T/S的訓練流圖如上圖右邊所示。Figure 1 中的左側為teacher network,右側為student network,它們的輸出后驗概率分別設為PTPT和PSPS。

  student network的訓練過程:首先,將teacher network復制一份作為student network的初始化。然后,利用student domain data和teacher domain data通過對應的網絡獲得相應的后驗概率PTPT和PSPS。最后,利用這兩個后驗概率計算error signal,進行back梯度反傳更新student network。

  本paper的實驗是在375小時的英文cortana數據上進行的。測試集根據不同的domain,有不同的測試集。

  針對干凈/帶噪,在Cortana測試集上進行實驗。首先,使用teacher network進行測試,發現在帶噪語音上測試性能(18.8%)要遠差于noise-free的語音(15.62%)。如果通過仿真的方式來訓練teacher network,發現noisy的測試性能(17.34%)有一定的提升,這個等價于在student network上使用hard label來訓練。第四行和第五行使用T/S 算法,在同樣數據量上,soft label (16.66%)要優于hard label (17.34%)。如果將訓練student network的數據增加到3400小時,性能會有進一步的提升(16.11%)。

  對于成年人/小孩來說,實驗首先將375小時中的女性以及兒童數據去除,獲得adult male 模型。實驗發現,小孩的識別性能很差,分別是39.05和34.16。與干凈/帶噪相同,在使用T/S算法后,能夠在性能上獲得進一步的提升,并且數據擴大對于性能是有優勢的。

  2.3 Paper 3

  第三篇文章是來自香港科技大學和谷歌的文章。這篇文章主要的想法和創新點是將Factorized Hidden Layer (FHL)的自適應方法 應用于LSTM-RNN。

  對于FHL adaptation算法來說,它在說話人無關的網絡權重WW基礎上加上一個說話人相關的網絡權重,從而獲得說話人相關的網絡權重WsWs。根據公式(7),我們可以看到,這個SD transformation是根據一組矩陣基(B(1),B(2),...,B(i))(B(1),B(2),...,B(i))通過線性插值得到。同樣,對神經網絡的偏置bb也可以進行相應的說話人相關變換。

  但是,在實際實驗中,由于矩陣基會帶來大量的參數引入,這些矩陣基都被限制為rank-1,因此公式(7)可以進行一些變換,如上圖右邊所示。由于矩陣基為rank-1,那它可以被表示成一個列向量γ(i)γ(i)和一個行向量ψ(i)Tψ(i)T相乘的形式。同時,插值矢量被表示成對角矩陣DsDs的形式。這樣便獲得三個矩陣ΓΓ、DsDs和ΨTΨT連乘的方式,方便模型訓練。

  本文還介紹了speaker-dependent scaling。它將LSTM記憶單元中的激活值進行speaker-dependent scale。通過公式帶入,發現,只要對每一個說話人學習zszs即可以進行說話人相關的scaling。但是這種算法存在一個問題,zszs的維度與網絡的層寬相關,參數量大。因此,一種subspace scaling的方法被提出,它通過一個固定維度的low-dimensional vector vsvs來控制zszs,vsvs的維度遠小于zszs,從而大大地減少了說話人相關的參數量。

免責聲明:本文來源于網絡,本文僅代表作者個人觀點,本站不作任何保證和承諾,若有任何疑問,請與本文作者聯系或有侵權行為聯系本站刪除。(原創稿件未經許可,不可轉載,轉載請注明來源)
掃一掃關注數字音視工程網公眾號

相關閱讀related

評論comment

 
驗證碼:
您還能輸入500
    主站蜘蛛池模板: 镗铣头-铣头-数控铣头-高密市振飞机械制造有限公司 | 兰州沙盘模型公司_兰州模型公司_兰州沙盘模型厂家_地形沙盘制作_兰州沙盘模型制作公司 | 生物柴油设备,乙醇精馏塔,醋酸精馏塔生产厂家-无锡弘鼎华化工设备有限公司 | 数控落地镗铣床_数控刨台式镗铣床_数控龙门加工中心-青岛辉腾机械设备有限公司 | 首页_01精密设备吊装,气垫搬运,半导体设备安装_苏州大方起重吊装公司 | 上饶市安信永辰会计师事务所有限公司 | 苏州注塑|无锡注塑|上海注塑|苏州汉科精密注塑有限公司 | 金酱酒_金酱酒代理加盟招商_OEM贴牌企业定制! – 金酱酒代理加盟!茅台镇较早的酿酒烧坊,年产优质酱香白酒5000余吨,仁怀市十强白酒企业,主营主品:金酱酒、金酱陈香酒、酱香老酒等系列品牌产品 | 西安男科医院_陕西男性专科医院_陕西老医协生殖医学医院【官网】 | 济南德固机械|膨化食品生产线|早餐谷物玉米片生产线|拉丝蛋白生产线|速食米饭生产线 | 碳化硅脱硫喷嘴,碳化硅烧嘴套,碳化硅耐磨衬套-潍坊致达特种陶瓷有限公司 | 王者荣耀/和平精英扫码上号登录器_微信安卓苹果扫码上号登录软件 - 上号宝扫码登录器 | 基坑护栏,临边护栏网,爬架网,爬架网片,铁路防护栅栏,公路护栏网,河北昊坤金属制品有限公司 | 欧路哲门窗|佛山欧路哲门窗有限公司|专业门窗定制品牌 | 天津鸿宸机械设备有限公司-提取浓缩设备和生物制药设备以及制剂设备、粉碎设备、烘干等设备供应商 | 售后服务认证-五星级物业售后服务体系认证证书-ISO27001信息安全管理体系认证证书查询认E云-湖北省贯标企业管理咨询有限公司 | 气体报警器,有毒气体报警器,可燃气体探测器,乙炔气体报警器,可燃气体检漏仪,便携式气体检测仪,气体报警控制器-山东如特安防设备有限公司 | 智能锁十大品牌_指纹锁_智能锁加盟_开换锁-锁当家【官网】 | 久久91精品久久91综合_国产亚洲自拍一区_国产精品第1页_亚洲高清视频一区_91成人午夜在线精品_亚洲国产精品网站在线播放_亚洲国产成人久久综合区_国产精品亚洲专区在线观看_免费视频精品一区二区三区 | 吉林人才网_吉林招聘网_求职找工作平台 | 湖南实验台-防静电工作台-实验设备厂家-长沙实验室设备有限公司-湖南贝塔实验室设备有限公司 | 钻床,数控钻床,摇臂钻床,立式钻床_滕州市高地机床有限公司 | 中国C919飞机橡胶接头供应商-上海淞江减震器集团有限公司官方网站 | 伸缩接头,限位伸缩接头,传力接头,可拆卸接头,橡胶接头,衬四氟橡胶接头,橡胶软连接,橡胶补偿器,防水套管- 巩义市隆盛管道设备有限公司 | 无塔供水_无塔供水设备_全自动_石家庄工泉水处理设备有限公司_家用无塔供水器 | 塑料桶生产厂家-山东塑料桶-化工塑料桶-200升塑料桶-山东欣越塑料制品有限公司 | 商标注册_北京商标注册费用_申请商标注册代理机构_北京商标注册公司- | 毛刷_毛刷辊_工业毛刷辊厂家_毛刷加工制造厂【丰汇刷业】 | 天津印刷_天津印刷厂_天津印刷公司_天津包装盒厂家_天津包装盒印刷厂_七层共挤膜厂家_彩色印刷_画册印刷_礼品盒定做 _七层共挤膜_食品真空袋-欢迎访问嘉联包装官网! | 张家港起重搬运吊装,工厂设备搬运服务-张家港易源起重搬运有限公司 | 上海办公家具_高端实木办公家具_现代智能办公家具定制厂-上海迈亚家具有限公司 | 精品中文字幕在线观看,粉嫩av一区二区三区,最近中文字幕在线看免费视频,亚洲高清在线观看,日本一区二区视频手机免费看,国产黄色小视频,亚洲高清免费视频,国产精品一区二区欧美视频,亚洲人免费视频,亚洲视频在线观看免费,国产免费高清综合视频,中文字幕永久在线 | 砂浆生产线_干混砂浆设备_干混砂浆生产线-苏州一工机械有限公司 砂基透水砖滤水率,防滑性试验仪,砂基透水砖落球冲击,抗冲击试验机-献县中正试验仪器销售处 | 开水机-节能开水器-即热式开水器-上海捷水环保科技有限公司 | 铜排,异型紫棒,紫铜棒,紫铜微孔管,异型黄管,黄铜管,异形紫管,紫铜管,焊接铜管,散热器铜管,电力铜管_河间市通海铜业有限公司 | 学习力_免费的在线学习网站_学习、分享、成长! | 徐州电动垃圾车|三轮快速保洁车|电动高压冲洗车|江苏大卫王环保科技有限公司 | 景县泉兴永塔业有限公司-广播电视塔、通信塔、电力塔、交通设施、监控杆塔、气象塔、森林防火瞭望塔、避雷塔、烟筒塔、训练塔 | 郑州井盖雨水篦子厂家-建联建材 郑州建网站,郑州做网站,郑州网站建设,郑州网站制作,郑州高端定制网站,郑州APP开发 | 限矩型液力偶合器_调速型液力偶合器_摩擦型耦合器生产厂家-河南省华升矿机有限公司 | 友联智能|RFID应用服务供应商|专注RFID行业解决方案|RFID数据采集-助力行业数字化转型 |