韩国主播福利视频一区二区三区,欧美视频二区36p,欧美日韩一区在线,亚洲字幕一区二区

 
當(dāng)前位置: 首頁(yè) » 行業(yè)資訊 » 機(jī)器人»為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?
   

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

 46.1K
     [點(diǎn)擊復(fù)制]
放大字體  縮小字體 發(fā)布日期:2017-09-06   瀏覽次數(shù):549
核心提示:  深度進(jìn)修在2006年開(kāi)端嶄露頭腳后,近幾年獲得了飛速的成長(zhǎng),不管是學(xué)術(shù)研討照樣企業(yè)運(yùn)用均出現(xiàn)出指數(shù)級(jí)增加的趨向;隨同著這項(xiàng)技巧的賡續(xù)成熟,深度進(jìn)修在智能語(yǔ)音范疇率先發(fā)力,獲得一系列勝利的運(yùn)用。  例如

  深度進(jìn)修在2006年開(kāi)端嶄露頭腳后,近幾年獲得了飛速的成長(zhǎng),不管是學(xué)術(shù)研討照樣企業(yè)運(yùn)用均出現(xiàn)出指數(shù)級(jí)增加的趨向;隨同著這項(xiàng)技巧的賡續(xù)成熟,深度進(jìn)修在智能語(yǔ)音范疇率先發(fā)力,獲得一系列勝利的運(yùn)用。

  例如,一。 音色的定制化,須要跟蹤錄年夜量的音庫(kù),從新練習(xí)一個(gè)模子;二。 特性化表現(xiàn)辦法的定制化,可以錄一些數(shù)據(jù),經(jīng)由過(guò)程深度進(jìn)修練習(xí)模子,自順應(yīng)的辦法來(lái)完成。

  深度進(jìn)修在統(tǒng)計(jì)參數(shù)語(yǔ)音分解中的運(yùn)用

  語(yǔ)音分解重要采取波形拼接分解和統(tǒng)計(jì)參數(shù)分解兩種方法。波形拼接語(yǔ)音分解須要有足夠的高質(zhì)量發(fā)音人灌音能力夠分解高質(zhì)量的語(yǔ)音,它是貿(mào)易產(chǎn)物中最經(jīng)常使用的語(yǔ)音分解技巧。統(tǒng)計(jì)參數(shù)語(yǔ)音分解固然全體分解質(zhì)量略低,然則在小范圍語(yǔ)料、低占用資本的情形下,優(yōu)勢(shì)更加顯著。另外,混雜語(yǔ)音分解結(jié)合了波形拼接分解和統(tǒng)計(jì)參數(shù)分解的優(yōu)勢(shì),選音辦法相似于傳統(tǒng)的波形拼接辦法,它應(yīng)用參數(shù)分解辦法來(lái)指點(diǎn)選音;接上去重點(diǎn)引見(jiàn)今朝普遍應(yīng)用的語(yǔ)音分解辦法:

  (1) 傳統(tǒng)的基于DNN/LSTM的分解

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

  傳統(tǒng)的基于HMM統(tǒng)計(jì)參數(shù)的語(yǔ)音分解是在練習(xí)進(jìn)程中樹(shù)立文本參數(shù)與聲學(xué)參數(shù)之間的映照模子,經(jīng)由過(guò)程高斯混雜模子描寫每一個(gè)建模單位。在建模進(jìn)程中有三個(gè)環(huán)節(jié)會(huì)招致語(yǔ)音音質(zhì)降低,第一是決議計(jì)劃樹(shù)的聚類,第二是聲碼器,第三是參數(shù)生成算法。針對(duì)決議計(jì)劃樹(shù)聚類成績(jī),可以經(jīng)由過(guò)程深層神經(jīng)收集樹(shù)立文本特點(diǎn)和聲學(xué)特點(diǎn)之間的映照關(guān)系,替換傳統(tǒng)的淺層模子,進(jìn)步模子精度;比擬典范的深層神經(jīng)收集模子構(gòu)造包含深層相信神經(jīng)收集和長(zhǎng)短時(shí)記憶遞歸神經(jīng)收集;后者具有更強(qiáng)的序列進(jìn)修才能,采取BLSTM-RNN建模時(shí),還可以跳過(guò)參數(shù)生成算法直接猜測(cè)語(yǔ)音參數(shù),最初經(jīng)由過(guò)程聲碼器便可以分解語(yǔ)音;總的來(lái)講,應(yīng)用深層神經(jīng)收集壯大的非線性建模才能,在必定水平上晉升了語(yǔ)音分解體系的機(jī)能,然則并沒(méi)有跳出原本的語(yǔ)音分解體系框架。

  (2) 基于WaveNet的分解

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

  在已有的研討中,很少有人會(huì)直接在時(shí)域上對(duì)已有音頻建模。從直覺(jué)上剖析,構(gòu)建一個(gè)自回歸模子,可以或許猜測(cè)每個(gè)samples是若何被后面一切的samples所影響的,是一個(gè)相當(dāng)艱難的義務(wù)。谷歌提出的基于WaveNets的語(yǔ)音分解辦法,跳出了傳統(tǒng)語(yǔ)音分解框架,繞開(kāi)聲碼器模塊,直接對(duì)采樣點(diǎn)停止猜測(cè),面臨這個(gè)充斥挑釁的成績(jī),獲得了沖破。

  WaveNet語(yǔ)音分解體系的輸出包含文本特點(diǎn)和先前時(shí)段的音頻采樣點(diǎn)。個(gè)中文本特點(diǎn)的有用表述起到異常主要的感化。假如在沒(méi)有文本序列的情形上去練習(xí)收集,依然可以生成語(yǔ)音,然則沒(méi)法聽(tīng)懂輸入音頻的內(nèi)容。WaveNet語(yǔ)音分解體系存在的成績(jī)是模子每次輸入單個(gè)采樣點(diǎn),盤算效力難以知足適用請(qǐng)求。可以引入一些自順應(yīng)的辦法對(duì)已有模子停止優(yōu)化,使其可以或許實(shí)用于分歧發(fā)音人。也能夠在模子的輸出端供給更多的信息,例如情緒或口音,如許使得生成的語(yǔ)音可以更多樣化,更具表示力。

  (3) 基于DeepVoice的分解

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

  百度提出了Deep Voice語(yǔ)音分解體系,它將外面的許多模塊用深度神經(jīng)收集去完成,經(jīng)由過(guò)程相似于WaveNet的分解器來(lái)分解,后果也是比擬幻想的。已有的語(yǔ)音分解體系會(huì)在某些環(huán)節(jié)上采取深度進(jìn)修,但在Deep Voice之前,沒(méi)有團(tuán)隊(duì)采取全深度進(jìn)修的框架。傳統(tǒng)語(yǔ)音分解須要停止年夜量的特點(diǎn)處置和特點(diǎn)構(gòu)建,但百度經(jīng)由過(guò)程應(yīng)用深度進(jìn)修防止了這些成績(jī)。這使得 Deep Voice 的運(yùn)用規(guī)模加倍普遍,應(yīng)用起來(lái)也加倍便利。假如須要運(yùn)用于新的數(shù)據(jù)集,傳統(tǒng)的語(yǔ)音分解體系完成從新練習(xí)需數(shù)天到數(shù)周的時(shí)光停止調(diào)理,而對(duì)Deep Voice停止手動(dòng)操作和練習(xí)模子所需的時(shí)光只需幾個(gè)小時(shí)就足夠。比擬于WaveNet語(yǔ)音分解體系 ,如今這個(gè)體系的有用速度晉升了400倍。

  (4) 兩個(gè)端對(duì)真?zhèn)€語(yǔ)音分解

  第一個(gè)是Char2Wav,這個(gè)模子是直接對(duì)輸出的文本停止編碼,采取encoder-decoder模子。對(duì)輸出特點(diǎn)停止編碼,然后生成的中央編碼信息放到解碼器里停止最初的分解,分解采取SimpleRNN的分解器來(lái)分解語(yǔ)音,后果也是比擬幻想的,并且是典范的End-To-End的語(yǔ)音分解模子。

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

  再一個(gè)是谷歌提出的端對(duì)真?zhèn)€語(yǔ)音分解體系,它跟Char2Wav比擬相似,輸出的也是Embeddings,分解的后果也比擬感性。

只要你關(guān)注機(jī)器人,你就無(wú)法錯(cuò)過(guò)睿慕課

 
 
 
[ 行業(yè)資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]
 
 
 
主站蜘蛛池模板: 永靖县| 鄂托克前旗| 湖北省| 安顺市| 延庆县| 台北市| 弥渡县| 龙江县| 阿鲁科尔沁旗| 江安县| 和田县| 喜德县| 鹤壁市| 绥芬河市| 申扎县| 汽车| 蓬安县| 封开县| 分宜县| 金乡县| 潞城市| 囊谦县| 达州市| 广昌县| 阿拉善左旗| 肃北| 徐闻县| 凤阳县| 和顺县| 安顺市| 祁东县| 莱西市| 衡阳市| 德格县| 保靖县| 维西| 万宁市| 册亨县| 苍南县| 湘乡市| 江源县|