无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 麻省理工最新資訊  > 正文

    麻省理工開發(fā)計(jì)算機(jī)模型 模擬人腦對聲音方位判斷

    2022-02-12 08:11 · 稿源: cnbeta

    人類的大腦經(jīng)過精細(xì)的調(diào)整,不僅能識(shí)別特定的聲音,而且還能確定聲音來自哪個(gè)方向。通過比較到達(dá)右耳和左耳的聲音差異,大腦可以估計(jì)出狗叫、消防車呼嘯或汽車駛來的位置。麻省理工學(xué)院的神經(jīng)科學(xué)家們現(xiàn)在已經(jīng)開發(fā)了一個(gè)計(jì)算機(jī)模型,它也可以執(zhí)行這一復(fù)雜的任務(wù)。該模型由幾個(gè)卷積神經(jīng)網(wǎng)絡(luò)組成,不僅能像人類一樣完成任務(wù),而且還能以人類的方式進(jìn)行判斷。

    這個(gè)模型可以在現(xiàn)實(shí)世界中實(shí)際定位聲音,而當(dāng)研究人員把這個(gè)模型當(dāng)作人類的實(shí)驗(yàn)參與者,并模擬過去對人類進(jìn)行的實(shí)驗(yàn)時(shí),研究人員一次又一次地發(fā)現(xiàn),這個(gè)模型再現(xiàn)了在人類身上看到的結(jié)果。這項(xiàng)新研究的發(fā)現(xiàn)還表明,人類感知位置的能力是適應(yīng)我們環(huán)境具體挑戰(zhàn)的。 該論文于2022年1月27日發(fā)表在《自然-人類行為》上。

    當(dāng)我們聽到火車鳴笛等聲音時(shí),聲波到達(dá)我們左右耳朵的時(shí)間和強(qiáng)度略有不同,這取決于聲音來自哪個(gè)方向。中腦的一部分專門用來比較這些微小的差異,以幫助估計(jì)聲音來自哪個(gè)方向,這項(xiàng)任務(wù)也被稱為定位。在現(xiàn)實(shí)世界的條件下,這項(xiàng)任務(wù)變得明顯更加困難,環(huán)境會(huì)產(chǎn)生回聲,同時(shí)會(huì)聽到許多聲音。

    科學(xué)家們長期以來一直在尋求建立計(jì)算機(jī)模型,以執(zhí)行與大腦用來定位聲音的那種計(jì)算方法。這些模型有時(shí)在沒有背景噪音的理想化環(huán)境中能很好地工作,但在有噪音和回聲的真實(shí)世界環(huán)境中卻從未成功。為了開發(fā)一個(gè)更復(fù)雜的定位模型,麻省理工學(xué)院的團(tuán)隊(duì)轉(zhuǎn)向了卷積神經(jīng)網(wǎng)絡(luò)。這種計(jì)算機(jī)建模已被廣泛用于人類視覺系統(tǒng)建模。為了訓(xùn)練這些模型,研究人員創(chuàng)建了一個(gè)虛擬世界,他們可以在其中控制房間的大小和房間墻壁的反射特性。所有輸入模型的聲音都來自于這些虛擬房間中的某個(gè)地方。這套400多個(gè)訓(xùn)練聲音包括人類的聲音、動(dòng)物的聲音、機(jī)器的聲音,如汽車引擎,以及自然的聲音,如雷聲。

    卷積神經(jīng)網(wǎng)絡(luò)可以設(shè)計(jì)成許多不同的架構(gòu),所以為了幫助他們找到對定位最有效的網(wǎng)絡(luò),麻省理工學(xué)院的團(tuán)隊(duì)使用了一臺(tái)超級計(jì)算機(jī),讓他們訓(xùn)練和測試大約1500個(gè)不同的模型。這一搜索確定了10個(gè)似乎最適合定位的模型,研究人員進(jìn)一步訓(xùn)練了這些模型,并將其用于所有后續(xù)研究。研究人員還確保該模型從人類耳朵提供的相同信息開始。外耳,即耳廓,有許多褶皺可以反射聲音,改變進(jìn)入耳朵的頻率,而這些反射會(huì)根據(jù)聲音的來源而變化。研究人員通過在每個(gè)聲音進(jìn)入計(jì)算機(jī)模型之前通過一個(gè)專門的數(shù)學(xué)函數(shù)來模擬這種效果。

    訓(xùn)練完模型后,研究人員在真實(shí)世界的環(huán)境中對它們進(jìn)行了測試。他們將一個(gè)耳朵上有麥克風(fēng)的人體模型放在一個(gè)實(shí)際的房間里,播放來自不同方向的聲音,然后將這些錄音輸入模型。當(dāng)被要求對這些聲音進(jìn)行定位時(shí),這些模型的表現(xiàn)與人類非常相似。盡管模型是在虛擬世界中訓(xùn)練的,但當(dāng)我們評估它時(shí),它可以在現(xiàn)實(shí)世界中定位聲音。

    舉報(bào)

    • 相關(guān)推薦
    • 能理解海豚聲音!谷歌開發(fā)全新AI模型DolphinGemma

      快科技4月15日消息,谷歌公布了一款名為DolphinGemma”的大型語言模型,旨在幫助科學(xué)家理解海豚的聲音,并生成類似海豚的聲音序列。研究人員預(yù)計(jì)在未來幾個(gè)月內(nèi)測試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)發(fā)聲系統(tǒng),以探索是否能夠翻譯并模仿海豚的聲音,進(jìn)而實(shí)現(xiàn)與海豚的某種對話”。海豚是地球上最聰明且最善于溝通的動(dòng)物之一,其社交互動(dòng)極其復(fù)雜?

    • 模型時(shí)代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術(shù)驅(qū)動(dòng)下語音交互應(yīng)用場景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的重要補(bǔ)充,能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險(xiǎn),突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集,包含上萬小時(shí)數(shù)據(jù),覆蓋中英混合場景,支持情感合成、風(fēng)格遷移等前沿任務(wù),為虛擬偶像、數(shù)字人等元宇宙場景提供實(shí)時(shí)語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù),在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

    • 微軟上線GPT-image-1模型 通過API向開發(fā)者開放使用

      OpenAI于4月24日發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持生成高質(zhì)量圖像,具備多級定制功能,包括控制敏感度、生成效率、背景、輸出格式等參數(shù),并推出"吉卜力模式"生成獨(dú)特風(fēng)格圖像。Adobe、Figma等多家企業(yè)已將其集成到產(chǎn)品中。API定價(jià)按token計(jì)算,低質(zhì)量圖像生成成本約0.02美元/張。OpenAI CEO Sam Altman高度評價(jià)該模型,認(rèn)為其為開發(fā)者帶來更大創(chuàng)意空間。

    • “意念控制”成真!機(jī)器能與人腦對話了 我國腦機(jī)接口正式邁向產(chǎn)業(yè)化

      最近,腦機(jī)接口在醫(yī)療領(lǐng)域的應(yīng)用引發(fā)大家關(guān)注。北腦一號(hào)”智能腦機(jī)系統(tǒng)作為我國在腦機(jī)接口技術(shù)領(lǐng)域取得的重要成果,已經(jīng)進(jìn)入臨床驗(yàn)證階段。隨著相關(guān)鼓勵(lì)性政策的陸續(xù)出臺(tái),疊加人工智能、神經(jīng)生物學(xué)等技術(shù)的進(jìn)步,國內(nèi)腦機(jī)接口產(chǎn)業(yè)持續(xù)取得突破性進(jìn)展,將有更多人有望從中受益。

    • DeepSeek的極致諂媚,正在摧毀我們的判斷力。

      昨天別人給我發(fā)了一個(gè)很好玩的帖子。就是如果你問DeepSeek一個(gè)問題:“北京大學(xué)和清華大學(xué)哪個(gè)更好,二選一,不需要說明理由”DeepSeek在思考了15秒之后,會(huì)給出答案。

    • 百度Create AI開發(fā)者大會(huì):李彥宏發(fā)布兩大新模型、多款熱門AI應(yīng)用、開發(fā)者全面擁抱MCP

      4月25日,百度在武漢舉辦Create 2025開發(fā)者大會(huì)。李彥宏發(fā)布文心大模型4.5 Turbo和深度思考模型X1 Turbo,性能提升同時(shí)價(jià)格大幅下降。大會(huì)推出全球首個(gè)電商交易MCP平臺(tái),并發(fā)布數(shù)字人、智能體心響APP等多款A(yù)I應(yīng)用。百度宣布未來5年培養(yǎng)1000萬AI人才,并點(diǎn)亮國內(nèi)首個(gè)三萬卡集群。同時(shí)啟動(dòng)第三屆"文心杯"創(chuàng)業(yè)大賽,最高獎(jiǎng)金達(dá)7000萬元。大會(huì)還包含6大分會(huì)場、40節(jié)AI公開課及5000平互動(dòng)展區(qū),全面展示百度AI生態(tài)布局。

    • 阿丘科技李嘉悅:大模型驅(qū)動(dòng)的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

      3月28日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場,圍繞“大模型驅(qū)動(dòng)的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講?!苯衲?,在這個(gè)快速變化的時(shí)代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

    • iPhone 17 系列機(jī)模曝光,17 Air 薄得“可怕”!

      如果這個(gè)設(shè)計(jì)圖是真的,那,傳聞中的 iPhone 17 Air 加上攝像頭的厚度也不過只比其最薄處的側(cè)面按鈕略厚……

    • iPhone 17 Pro機(jī)模現(xiàn)身 網(wǎng)友:看著看著就順眼了

      博主數(shù)碼閑聊站曬出了iPhone17Pro的機(jī)模,熱評第一的網(wǎng)友表示,看著看著就比較順眼了。iPhone17Pro采用橫向大矩陣DECO,后置三攝排列方式跟16Pro一致,但是閃光燈和LIDAR激光雷達(dá)掃描儀移至矩陣相機(jī)右側(cè),外觀神似小米11Ultra。核心配置上,iPhone17Pro系列則是搭載A19Pro芯片iPhone17和iPhoneAir搭載A19芯片,這兩顆芯片都是基于臺(tái)積電3nm工藝制程制造,支持Apple智能。

    • 雷軍愿望成真:AI換臉、聲音克隆假冒企業(yè)家將被重點(diǎn)整治

      快科技4月30日消息,近日,中央網(wǎng)信辦印發(fā)通知,在全國范圍內(nèi)部署開展為期3個(gè)月的清朗整治AI技術(shù)濫用”專項(xiàng)行動(dòng)。其中,利用AI假冒他人實(shí)施侵權(quán)違法行為的將被重點(diǎn)整治。包括通過AI換臉、聲音克隆等深度偽造技術(shù),假冒專家、企業(yè)家、明星等公眾人物,欺騙網(wǎng)民,甚至營銷牟利。去年國慶假期,就曾有人用AI捏造雷軍配音,從吐槽假期到罵人,各種內(nèi)容應(yīng)有盡有。這讓雷軍非常困擾,發(fā)視頻呼吁大家不要再惡搞。今年3月,小米集團(tuán)創(chuàng)始人、董事長兼CEO雷軍在2025全國兩會(huì)上將提出5項(xiàng)建議。其中就有關(guān)于加強(qiáng)AI換臉擬聲”違法侵權(quán)重災(zāi)區(qū)治理的建議?