您的位置：首頁(yè) > 智能 >

阿里達(dá)摩院：以語(yǔ)音為代表的人機(jī)交互或許是未來(lái)硬件和機(jī)器人的標(biāo)配 | 2021WISE元宇宙·機(jī)器人峰會(huì)

來(lái)源：36氪 ? 2021-12-01 17:58:52

2021年以來(lái)，機(jī)器人賽道受到資本熱捧。僅前10個(gè)月拿到融資的機(jī)器人項(xiàng)目就有299個(gè)，其中253個(gè)集中在C輪及以前，79個(gè)項(xiàng)目的融資額在億元人民幣以上。

天眼查數(shù)據(jù)還顯示，今年新增的機(jī)器人相關(guān)企業(yè)就超過(guò)10萬(wàn)家。截至目前，我國(guó)有超過(guò)32萬(wàn)家機(jī)器人相關(guān)企業(yè)（企業(yè)名稱(chēng)或經(jīng)營(yíng)范圍包含機(jī)器人）。在地域上，廣東省機(jī)器人相關(guān)企業(yè)最多，有超過(guò)7萬(wàn)家，占比達(dá)22.02%。是第二名江蘇的近2倍。

所以在這個(gè)產(chǎn)業(yè)和資本雙重背景下，36氪于11月25日在深圳舉辦了超前體驗(yàn)·機(jī)器人峰會(huì)。此次峰會(huì)邀請(qǐng)了眾多投資人、科學(xué)家、學(xué)者、優(yōu)秀創(chuàng)業(yè)者以及相關(guān)從業(yè)者，共同探討行業(yè)新趨勢(shì)，以及在新環(huán)境下如何讓技術(shù)走進(jìn)大眾生活。嘉賓包括中國(guó)工程院院士譚建榮、達(dá)晨財(cái)智業(yè)務(wù)合伙人任俊熙、藍(lán)馳創(chuàng)投董事總經(jīng)理曹巍、阿里巴巴達(dá)摩院研究員付強(qiáng)、高仙機(jī)器人創(chuàng)始人兼CEO程昊天、大族機(jī)器人CEO王光能、未來(lái)機(jī)器人創(chuàng)始人李陸洋、云跡科技執(zhí)行總裁兼CTO林小俊等多位嘉賓。

“語(yǔ)音和多模態(tài)的人機(jī)交互會(huì)是以機(jī)器人為代表的智能硬件必備特征，實(shí)踐中首先要克服的是聲學(xué)的復(fù)雜性?！卑⒗镞_(dá)摩院擁有應(yīng)對(duì)不同聲學(xué)環(huán)境下的思路和技術(shù)鏈條。

以下是阿里達(dá)摩院的付強(qiáng)先生現(xiàn)場(chǎng)演講《復(fù)雜聲學(xué)環(huán)境下的語(yǔ)音交互》（經(jīng)編輯）：

其實(shí)在無(wú)論是智能硬件還是特指機(jī)器人這個(gè)行業(yè)，以語(yǔ)音為代表的人機(jī)交互是一個(gè)比較重要的特征。剛才我聽(tīng)達(dá)晨財(cái)智的任總也提到無(wú)論是VR、AR、機(jī)器人還是別的一些行業(yè)，語(yǔ)音交互和知識(shí)圖譜的應(yīng)用，都是一個(gè)必選項(xiàng)。但是這種人機(jī)交互，特別是語(yǔ)音交互的技術(shù)在應(yīng)用上的問(wèn)題在哪里？首先是不同的場(chǎng)景會(huì)遇到不同的聲學(xué)問(wèn)題,包括背景噪聲、混響等聲學(xué)環(huán)境特性的差異。

模組化是應(yīng)對(duì)各種碎片場(chǎng)景的一個(gè)常用的技術(shù)手段。這是什么意思呢？就是說(shuō)我們希望能夠通過(guò)對(duì)聲學(xué)器件、操作系統(tǒng)、聲頻算法和交互應(yīng)用調(diào)度, 包括連接協(xié)議等做成從軟件到硬件的一體化封裝，去應(yīng)對(duì)不同的場(chǎng)景里的離散性的問(wèn)題，使得方案更加得平臺(tái)化，與聲學(xué)和音頻相關(guān)的技術(shù)也能被沉淀。另一方面，就是提升跟客戶(hù)對(duì)接的效率，包括我們也提供二次編程能力。

剛才我們講了應(yīng)對(duì)不同的聲學(xué)場(chǎng)景下的思路和技術(shù)棧，接下來(lái)介紹阿里達(dá)摩院的整個(gè)語(yǔ)音AI技術(shù)棧。一個(gè)標(biāo)準(zhǔn)的語(yǔ)音交互鏈路，端上首先是有信號(hào)處理，然后是語(yǔ)音喚醒,本地識(shí)別等，還有服務(wù)智能硬件所不可缺少的聲學(xué)設(shè)計(jì)配套。云端的語(yǔ)音服務(wù)主要就是識(shí)別、合成、對(duì)話(huà)管理，還有聲紋相關(guān)的技術(shù)棧等，這些構(gòu)成了一個(gè)完整的從端到云的技術(shù)鏈。

下面逐一介紹一下整個(gè)技術(shù)鏈條上我們一些關(guān)鍵技術(shù)的突破，主要是近期比較著重打造的東西。

首先講聲學(xué)前端，這一塊是跟場(chǎng)景，硬件適配最前端的一個(gè)接口。在我們這個(gè)方案里，比較重要的特色是強(qiáng)調(diào)了信號(hào)處理的重要性，如果說(shuō)大家可能熟悉這個(gè)領(lǐng)域中的一些技術(shù)的前沿成果的話(huà)，可能會(huì)關(guān)注到比如說(shuō)深度學(xué)習(xí)技術(shù)對(duì)交互中的滲透，但是從我們的實(shí)踐和對(duì)這個(gè)行業(yè)的理解來(lái)看，在相當(dāng)一段時(shí)間內(nèi)經(jīng)典信號(hào)處理里的作用一定會(huì)被保留。這是為什么呢？就是我們講到的場(chǎng)景的復(fù)雜性，不是說(shuō)通過(guò)較為單一的場(chǎng)景的樣本的數(shù)據(jù)就能獲得全場(chǎng)景的聲學(xué)環(huán)境適配能力,經(jīng)典信號(hào)處理理論存在這這里的意義在于在線(xiàn)的自適應(yīng)優(yōu)化，這是“魂”。

在這個(gè)前提之下，我們著重發(fā)展一些我們有特色的信號(hào)處理相關(guān)的技術(shù)，比如說(shuō)盲源分離，它的特點(diǎn)是什么？就是比較適合小陣列，在消費(fèi)電子行業(yè)里，當(dāng)麥克風(fēng)的個(gè)數(shù)不能夠太多但是性能要求又比較高這樣的場(chǎng)景，這是選擇這一路線(xiàn)的基礎(chǔ)依據(jù)。特別是我們前期的工作，把它形成了以盲源分離理論為核心的對(duì)環(huán)境噪聲、房間混響和設(shè)備回聲的統(tǒng)一處理框架,也是我們?cè)谠擃I(lǐng)域應(yīng)用研究層面的學(xué)術(shù)貢獻(xiàn)。由相關(guān)理論支撐的AEC算法甚至還在由國(guó)際權(quán)威學(xué)術(shù)機(jī)構(gòu)組織的挑戰(zhàn)賽上拿到國(guó)內(nèi)第一的成績(jī)。

接下來(lái)是高抗噪的視覺(jué)聽(tīng)覺(jué)多模態(tài)融合技術(shù)，視覺(jué)的融合對(duì)于聽(tīng)覺(jué)來(lái)講是一個(gè)更好的補(bǔ)充。在業(yè)內(nèi)來(lái)講，我們的多模態(tài)融合技術(shù)是走向?qū)嵺`比較早的，我們2018年就跟上海地鐵合作，在地鐵這個(gè)場(chǎng)景里首次把多模態(tài)語(yǔ)音交互技術(shù)用到了實(shí)踐。

回到方案層面，剛剛講了聲學(xué)的這種模組化，我們?cè)诮鼛啄陼r(shí)間內(nèi)提煉出來(lái)幾套應(yīng)對(duì)不同場(chǎng)景的模組方案：

第一個(gè)，我們講高性?xún)r(jià)比，這是是什么意思呢？舉個(gè)例子，比如說(shuō)智能音箱、家電等，對(duì)成本要求比較敏感，對(duì)性能要求也比較嚴(yán)苛，追求高性?xún)r(jià)比的場(chǎng)景。

第二個(gè)，就是高性能，這個(gè)性能主要體現(xiàn)在對(duì)噪聲環(huán)境的魯棒性。

第三個(gè)，就是多模態(tài)，這里的多模態(tài)的, 更多還是指處理復(fù)雜聲學(xué)場(chǎng)景的技術(shù)能力。

還有一點(diǎn)，就是芯片化，也是我們模組化的一個(gè)極致表現(xiàn),只有算法和芯片設(shè)計(jì)有機(jī)融合, 才能產(chǎn)生極致性?xún)r(jià)比的解決方案,后面也有一些應(yīng)用案例。

接下來(lái)講講我們語(yǔ)音技術(shù)的幾個(gè)落地案例。過(guò)去幾年我們的語(yǔ)音交互技術(shù)和方案以軟核形式落地了海爾、康佳，還有一些與優(yōu)酷合作的投影儀等跟與家庭場(chǎng)景相關(guān)的智能硬件, 同時(shí)也提供了拾音模組和聲學(xué)結(jié)構(gòu)的參考設(shè)計(jì),包括業(yè)內(nèi)唯一的聲學(xué)裝配效果產(chǎn)線(xiàn)專(zhuān)業(yè)測(cè)試設(shè)備。從規(guī)模上來(lái)講，幾年下來(lái)大約有近千萬(wàn)級(jí)累計(jì)裝機(jī)量, 從客戶(hù)的滿(mǎn)意度調(diào)查反饋上, 也顯示出小陣列條件下難得的較強(qiáng)抗賣(mài)場(chǎng)環(huán)境噪聲能力。

接下來(lái)，就是我剛剛講的高性?xún)r(jià)比的模組和芯片的一些落地案例，這里面包括喜馬拉雅的音箱，以及它的AI早教機(jī)，這是一種兒童教育硬件，也算是一種小型的機(jī)器人。然后就是與天貓精靈一起合作的車(chē)載精靈和兩輪電動(dòng)車(chē)?？蛻?hù)是對(duì)該芯片的選擇, 首要的一點(diǎn)就是高性?xún)r(jià)比這一主打特點(diǎn)。這個(gè)特點(diǎn)的形成是由包括從端側(cè)算法的路線(xiàn)選擇, 與平頭哥團(tuán)隊(duì)共同進(jìn)行的算法深度工程優(yōu)化和根據(jù)算法定義硬核算子等多方面的努力得到的結(jié)果。同時(shí)也包括我們整體的售后技術(shù)支持和產(chǎn)品持續(xù)升級(jí)能力。

高性能語(yǔ)音模組方案是和天貓精靈合作并落地的，第一個(gè)產(chǎn)品就是科沃斯掃地機(jī)N9+，也是業(yè)內(nèi)第一臺(tái)能在行進(jìn)過(guò)程中進(jìn)行語(yǔ)音交互的掃地機(jī),在今年6.18上市。它克服的問(wèn)題是什么呢？是高自噪、大回聲，移動(dòng)遠(yuǎn)場(chǎng)和低算力等技術(shù)挑戰(zhàn)。該方案在掃地機(jī)行業(yè)的推廣應(yīng)用正在進(jìn)行中, 同時(shí)我們?cè)谠搱?chǎng)景下, 更低資源需求和更高性能的版本也即將發(fā)布。第二個(gè)案例就是這個(gè)機(jī)器狗，它本身噪音倒沒(méi)有那么大，但是它應(yīng)用場(chǎng)景可能是比較嘈雜的，它經(jīng)常在一些展會(huì)等較吵鬧的公眾場(chǎng)景做演示。比如今年云棲大會(huì)上, 就在有公司內(nèi)外的一些重要領(lǐng)導(dǎo)和嘉賓圍觀(guān)的情況下, 順利完成了所有的人機(jī)交互動(dòng)作演示。

下面講講多模態(tài)交互技術(shù)的應(yīng)用，就是靠純聲學(xué)不能解決問(wèn)題的時(shí)候，需要依靠音視頻融合的技術(shù)和方案。從2018年開(kāi)始在上海地鐵全面落地，到近幾年北京，哈爾濱、南京、成都等城市的地鐵里，由于我們的推動(dòng)，你會(huì)看到新開(kāi)的地鐵線(xiàn)里，語(yǔ)音交互已然成為購(gòu)票機(jī)的標(biāo)配。當(dāng)然，現(xiàn)在這個(gè)技術(shù)不僅僅是用在購(gòu)票這個(gè)場(chǎng)景，更多的是在交互服務(wù)機(jī)器人或者服務(wù)大屏的智能查詢(xún)，比如說(shuō)醫(yī)院的導(dǎo)診，政務(wù)、金融這些問(wèn)詢(xún)場(chǎng)景。這種非接觸的語(yǔ)音交互，在疫情的背景下，也會(huì)是一個(gè)逐漸強(qiáng)烈的需求。

另外兩個(gè)案例，一個(gè)是跟釘釘合作的智能無(wú)人前臺(tái)，大家都知道考勤機(jī),這個(gè)算是考勤機(jī)的一個(gè)智能版本，我直接說(shuō)出我想找誰(shuí)，通過(guò)企業(yè)通訊錄的數(shù)據(jù)匹配,然后它就可以直接視頻通話(huà)，來(lái)去替代前臺(tái)人工的服務(wù)，這也算是前臺(tái)服務(wù)機(jī)器人的一個(gè)表現(xiàn)形式。右邊這個(gè)本來(lái)是一個(gè)視頻，但是今天沒(méi)有時(shí)間去展示，我就簡(jiǎn)單說(shuō)一下，這其實(shí)是一個(gè)語(yǔ)音自助售貨機(jī)，展示的理念就是一方面它能夠做語(yǔ)音的交互，另一方面它有主動(dòng)交互的功能，售貨機(jī)能自動(dòng)打招呼，檢測(cè)你是男性女性，還有年齡大小，能主動(dòng)給你做產(chǎn)品的推介，吸引你過(guò)來(lái)。我相信在機(jī)器人這個(gè)場(chǎng)景里，主動(dòng)交互也是一個(gè)非常有價(jià)值的技術(shù)。

好，我今天就介紹到這里，謝謝！

色翁荡息又大又硬又粗又视频软件,人人妻人人爽.,人人妻人人狠人人爽天天综合网,欧美精品亚洲精品日韩已满十八 ,欧美激情猛片xxxⅹ大3

阿里達(dá)摩院：以語(yǔ)音為代表的人機(jī)交互或許是未來(lái)硬件和機(jī)器人的標(biāo)配 | 2021WISE元宇宙·機(jī)器人峰會(huì)

相關(guān)推薦