在通勤的地鐵上、嘈雜的餐廳里,廣播聲、音樂(lè)聲、周圍人說(shuō)話聲,似乎都不會(huì)妨礙你與同伴進(jìn)行交流。而這,就是大腦在處理聲音信息時(shí)發(fā)揮的特殊優(yōu)勢(shì)——它可以將注意力集中在感興趣的對(duì)話或聲音上,忽略其他無(wú)關(guān)的聲音或者噪音。
其實(shí),早在70多年前,神經(jīng)科學(xué)家就注意到大腦的這種神奇能力,并將其稱為“雞尾酒會(huì)效應(yīng)”。
“盡管我們每天都在不知不覺(jué)地運(yùn)用大腦這種優(yōu)勢(shì),可以輕松地在混合的聲音中識(shí)別特定的目標(biāo)聲音,但要讓計(jì)算機(jī)做到這一點(diǎn)卻非常困難?!苯眨迦A大學(xué)生物醫(yī)學(xué)工程學(xué)院苑克鑫教授團(tuán)隊(duì)聯(lián)合該校計(jì)算機(jī)系胡曉林教授團(tuán)隊(duì),基于哺乳動(dòng)物丘腦和皮層整合多模態(tài)感覺(jué)信息的工作原理,構(gòu)建了一款新的腦啟發(fā)AI模型(CTCNet),實(shí)現(xiàn)了混合語(yǔ)音分離技術(shù)突破,讓計(jì)算機(jī)進(jìn)一步學(xué)會(huì)像人腦一樣“聽話”。相關(guān)研究成果發(fā)表于最新一期的《模式分析與機(jī)器智能IEEE匯刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence)。
計(jì)算機(jī)尚不能有效分離兩個(gè)人聲音
據(jù)了解,現(xiàn)有的多模態(tài)語(yǔ)音分離方法大多只是模擬了哺乳動(dòng)物的皮層通路,即從較低功能區(qū)域(例如初級(jí)視覺(jué)、聽覺(jué)皮層區(qū))到較高功能區(qū)域(例如高級(jí)視覺(jué)、聽覺(jué)皮層區(qū))。同時(shí),在人工智能(AI)領(lǐng)域,迄今為止也尚無(wú)有效的辦法使計(jì)算機(jī)有效分離兩個(gè)人的聲音。
然而,實(shí)際上,聽覺(jué)、視覺(jué)的信息整合中,以丘腦為代表的皮層下結(jié)構(gòu)發(fā)揮了不可忽視的重要作用。
采訪中,記者了解到苑克鑫團(tuán)隊(duì)長(zhǎng)期聚焦于腦的聽覺(jué)處理機(jī)制,近年來(lái)的一系列工作逐漸揭示了高級(jí)聽覺(jué)丘腦的聯(lián)接、功能與工作機(jī)制。
“高級(jí)聽覺(jué)丘腦作為處理聽覺(jué)信息的關(guān)鍵中樞節(jié)點(diǎn),具有聽覺(jué)、視覺(jué)雙模態(tài)的特性。其腹內(nèi)側(cè)在介導(dǎo)聽覺(jué)、視覺(jué)刺激觸發(fā)的危險(xiǎn)感知中發(fā)揮關(guān)鍵作用;其背側(cè)既接收來(lái)自聽覺(jué)皮層第5層的投射,也接收來(lái)自視覺(jué)皮層第5層的投射,且在整體上形成了皮層-丘腦-皮層(CTC)循環(huán)聯(lián)接架構(gòu)?!痹房琐伪硎荆@提示高級(jí)聽覺(jué)丘腦可能通過(guò)特殊的聯(lián)接模式整合聽覺(jué)、視覺(jué)信息從而增強(qiáng)聽覺(jué)感知。
在背側(cè)高級(jí)聽覺(jué)丘腦聯(lián)接特點(diǎn)的啟發(fā)下,苑克鑫團(tuán)隊(duì)與胡曉林團(tuán)隊(duì)合作提出了一種皮層-丘腦-皮層神經(jīng)網(wǎng)絡(luò)(CTCNet)來(lái)執(zhí)行音頻-視覺(jué)語(yǔ)音分離任務(wù)。
新模型打開腦啟發(fā)范例
據(jù)介紹,CTCNet模型包括三個(gè)模塊——聽覺(jué)子網(wǎng)絡(luò)、視覺(jué)子網(wǎng)絡(luò)和聽-視融合子網(wǎng)絡(luò),分別模擬了聽覺(jué)皮層、視覺(jué)皮層和背側(cè)高級(jí)聽覺(jué)丘腦。
其基本工作原理為:首先,聽覺(jué)信息(語(yǔ)音)和視覺(jué)信息(唇部運(yùn)動(dòng))以自下而上的方式分別在獨(dú)立的聽覺(jué)和視覺(jué)子網(wǎng)絡(luò)中處理;然后,經(jīng)過(guò)處理的聽覺(jué)和視覺(jué)信息通過(guò)自上而下的聯(lián)接在聽-視融合子網(wǎng)絡(luò)中進(jìn)行多時(shí)間分辨率尺度的融合;最后,融合后的信息被回傳至聽覺(jué)和視覺(jué)子網(wǎng)絡(luò)。上述過(guò)程會(huì)重復(fù)數(shù)次,最終輸出至聽覺(jué)子網(wǎng)絡(luò)。
研究顯示,在三個(gè)語(yǔ)音分離基準(zhǔn)數(shù)據(jù)集上的測(cè)試結(jié)果表明,在參數(shù)極少的情況下,CTCNet能在視覺(jué)信息(唇部運(yùn)動(dòng))的輔助下,高度準(zhǔn)確地將混合在一起的語(yǔ)音分離開。
苑克鑫表示,語(yǔ)音分離模型CTCNet是基于高級(jí)聽覺(jué)丘腦的視、聽融合能力及其皮層-丘腦-皮層循環(huán)聯(lián)接架構(gòu)構(gòu)建的腦啟發(fā)AI模型。通過(guò)多次融合和循環(huán)處理聽覺(jué)和視覺(jué)信息,使AI能夠更好地實(shí)現(xiàn)“雞尾酒會(huì)效應(yīng)”。
“新模型的語(yǔ)音分離性能大幅領(lǐng)先于現(xiàn)有方法,不僅為計(jì)算機(jī)感知信息處理提供了新的腦啟發(fā)范例,而且在智能助手、自動(dòng)駕駛等領(lǐng)域有潛力發(fā)揮重要作用?!痹撗芯控?fù)責(zé)人之一苑克鑫說(shuō),未來(lái),研究團(tuán)隊(duì)將基于自主創(chuàng)新的組織光學(xué)透明化方法,在單神經(jīng)元水平上深入解析高級(jí)聽覺(jué)丘腦的輸入-輸出聯(lián)接模式,進(jìn)一步提升人工智能系統(tǒng)在自然場(chǎng)景中的感知能力。
據(jù)悉,清華大學(xué)碩士生李凱為論文第一作者,清華大學(xué)博士后謝鳳華、博士生陳航分別為論文第二、第三作者,苑克鑫和胡曉林為該論文共同通訊作者。
相關(guān)論文信息:https://doi.org/10.1109/TPAMI.2024.3384034
免責(zé)聲明:本文是學(xué)習(xí)強(qiáng)國(guó)轉(zhuǎn)載,版權(quán)歸原作者所有。所以注明轉(zhuǎn)載來(lái)源。本文所用視頻、圖片、文字如涉及作品版權(quán)問(wèn)題,請(qǐng)第一時(shí)間告知,我們將立即刪除內(nèi)容!本文內(nèi)容為原作者觀點(diǎn),并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
鈣鈦礦形成的原位監(jiān)測(cè)旋涂結(jié)果...
MORE+LayTec公司的InspiRe測(cè)量系統(tǒng),用于通過(guò)光譜反射測(cè)量原位監(jiān)測(cè)···...
MORE+PearlL是一個(gè)光學(xué)在線監(jiān)測(cè)系統(tǒng),能夠測(cè)量太陽(yáng)能電池制造過(guò)程中各層的···...
MORE+LayTec公司開發(fā)了一套在線監(jiān)測(cè)系統(tǒng),能夠測(cè)量整個(gè)太陽(yáng)能電池制造過(guò)程···...
MORE+