无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<address id="xkenn"><big id="xkenn"><samp id="xkenn"></samp></big></address>

<menu id="xkenn"></menu>

麻省理工開發(fā)計(jì)算機(jī)模型模擬人腦對聲音方位判斷

2022-02-12 08:11 · 稿源： cnbeta

人類的大腦經(jīng)過精細(xì)的調(diào)整，不僅能識(shí)別特定的聲音，而且還能確定聲音來自哪個(gè)方向。通過比較到達(dá)右耳和左耳的聲音差異，大腦可以估計(jì)出狗叫、消防車呼嘯或汽車駛來的位置。麻省理工學(xué)院的神經(jīng)科學(xué)家們現(xiàn)在已經(jīng)開發(fā)了一個(gè)計(jì)算機(jī)模型，它也可以執(zhí)行這一復(fù)雜的任務(wù)。該模型由幾個(gè)卷積神經(jīng)網(wǎng)絡(luò)組成，不僅能像人類一樣完成任務(wù)，而且還能以人類的方式進(jìn)行判斷。

這個(gè)模型可以在現(xiàn)實(shí)世界中實(shí)際定位聲音，而當(dāng)研究人員把這個(gè)模型當(dāng)作人類的實(shí)驗(yàn)參與者，并模擬過去對人類進(jìn)行的實(shí)驗(yàn)時(shí)，研究人員一次又一次地發(fā)現(xiàn)，這個(gè)模型再現(xiàn)了在人類身上看到的結(jié)果。這項(xiàng)新研究的發(fā)現(xiàn)還表明，人類感知位置的能力是適應(yīng)我們環(huán)境具體挑戰(zhàn)的。該論文于2022年1月27日發(fā)表在《自然-人類行為》上。

當(dāng)我們聽到火車鳴笛等聲音時(shí)，聲波到達(dá)我們左右耳朵的時(shí)間和強(qiáng)度略有不同，這取決于聲音來自哪個(gè)方向。中腦的一部分專門用來比較這些微小的差異，以幫助估計(jì)聲音來自哪個(gè)方向，這項(xiàng)任務(wù)也被稱為定位。在現(xiàn)實(shí)世界的條件下，這項(xiàng)任務(wù)變得明顯更加困難，環(huán)境會(huì)產(chǎn)生回聲，同時(shí)會(huì)聽到許多聲音。

科學(xué)家們長期以來一直在尋求建立計(jì)算機(jī)模型，以執(zhí)行與大腦用來定位聲音的那種計(jì)算方法。這些模型有時(shí)在沒有背景噪音的理想化環(huán)境中能很好地工作，但在有噪音和回聲的真實(shí)世界環(huán)境中卻從未成功。為了開發(fā)一個(gè)更復(fù)雜的定位模型，麻省理工學(xué)院的團(tuán)隊(duì)轉(zhuǎn)向了卷積神經(jīng)網(wǎng)絡(luò)。這種計(jì)算機(jī)建模已被廣泛用于人類視覺系統(tǒng)建模。為了訓(xùn)練這些模型，研究人員創(chuàng)建了一個(gè)虛擬世界，他們可以在其中控制房間的大小和房間墻壁的反射特性。所有輸入模型的聲音都來自于這些虛擬房間中的某個(gè)地方。這套400多個(gè)訓(xùn)練聲音包括人類的聲音、動(dòng)物的聲音、機(jī)器的聲音，如汽車引擎，以及自然的聲音，如雷聲。

卷積神經(jīng)網(wǎng)絡(luò)可以設(shè)計(jì)成許多不同的架構(gòu)，所以為了幫助他們找到對定位最有效的網(wǎng)絡(luò)，麻省理工學(xué)院的團(tuán)隊(duì)使用了一臺(tái)超級計(jì)算機(jī)，讓他們訓(xùn)練和測試大約1500個(gè)不同的模型。這一搜索確定了10個(gè)似乎最適合定位的模型，研究人員進(jìn)一步訓(xùn)練了這些模型，并將其用于所有后續(xù)研究。研究人員還確保該模型從人類耳朵提供的相同信息開始。外耳，即耳廓，有許多褶皺可以反射聲音，改變進(jìn)入耳朵的頻率，而這些反射會(huì)根據(jù)聲音的來源而變化。研究人員通過在每個(gè)聲音進(jìn)入計(jì)算機(jī)模型之前通過一個(gè)專門的數(shù)學(xué)函數(shù)來模擬這種效果。

訓(xùn)練完模型后，研究人員在真實(shí)世界的環(huán)境中對它們進(jìn)行了測試。他們將一個(gè)耳朵上有麥克風(fēng)的人體模型放在一個(gè)實(shí)際的房間里，播放來自不同方向的聲音，然后將這些錄音輸入模型。當(dāng)被要求對這些聲音進(jìn)行定位時(shí)，這些模型的表現(xiàn)與人類非常相似。盡管模型是在虛擬世界中訓(xùn)練的，但當(dāng)我們評估它時(shí)，它可以在現(xiàn)實(shí)世界中定位聲音。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

能理解海豚聲音！谷歌開發(fā)全新AI模型DolphinGemma

快科技4月15日消息，谷歌公布了一款名為DolphinGemma”的大型語言模型，旨在幫助科學(xué)家理解海豚的聲音，并生成類似海豚的聲音序列。研究人員預(yù)計(jì)在未來幾個(gè)月內(nèi)測試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry（CHAT）發(fā)聲系統(tǒng)，以探索是否能夠翻譯并模仿海豚的聲音，進(jìn)而實(shí)現(xiàn)與海豚的某種對話”。海豚是地球上最聰明且最善于溝通的動(dòng)物之一，其社交互動(dòng)極其復(fù)雜?

?谷歌 ?DolphinGemma ?海豚溝通
大模型時(shí)代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術(shù)驅(qū)動(dòng)下語音交互應(yīng)用場景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的重要補(bǔ)充，能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險(xiǎn)，突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集，包含上萬小時(shí)數(shù)據(jù)，覆蓋中英混合場景，支持情感合成、風(fēng)格遷移等前沿任務(wù)，為虛擬偶像、數(shù)字人等元宇宙場景提供實(shí)時(shí)語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù)，在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

?大模型技術(shù) ?人工智能變革 ?語音交互
微軟上線GPT-image-1模型通過API向開發(fā)者開放使用

OpenAI于4月24日發(fā)布全新圖像生成模型GPT-image-1，通過API向全球開發(fā)者開放。該模型支持生成高質(zhì)量圖像，具備多級定制功能，包括控制敏感度、生成效率、背景、輸出格式等參數(shù)，并推出"吉卜力模式"生成獨(dú)特風(fēng)格圖像。Adobe、Figma等多家企業(yè)已將其集成到產(chǎn)品中。API定價(jià)按token計(jì)算，低質(zhì)量圖像生成成本約0.02美元/張。OpenAI CEO Sam Altman高度評價(jià)該模型，認(rèn)為其為開發(fā)者帶來更大創(chuàng)意空間。

?OpenAI ?圖像生成 ?GPT-image-1
“意念控制”成真！機(jī)器能與人腦對話了我國腦機(jī)接口正式邁向產(chǎn)業(yè)化

最近，腦機(jī)接口在醫(yī)療領(lǐng)域的應(yīng)用引發(fā)大家關(guān)注。北腦一號(hào)”智能腦機(jī)系統(tǒng)作為我國在腦機(jī)接口技術(shù)領(lǐng)域取得的重要成果，已經(jīng)進(jìn)入臨床驗(yàn)證階段。隨著相關(guān)鼓勵(lì)性政策的陸續(xù)出臺(tái)，疊加人工智能、神經(jīng)生物學(xué)等技術(shù)的進(jìn)步，國內(nèi)腦機(jī)接口產(chǎn)業(yè)持續(xù)取得突破性進(jìn)展，將有更多人有望從中受益。

?腦機(jī)接口 ?醫(yī)療科技 ?康復(fù)治療
DeepSeek的極致諂媚，正在摧毀我們的判斷力。

昨天別人給我發(fā)了一個(gè)很好玩的帖子。就是如果你問DeepSeek一個(gè)問題:“北京大學(xué)和清華大學(xué)哪個(gè)更好，二選一，不需要說明理由”DeepSeek在思考了15秒之后，會(huì)給出答案。

?人工智能 ?DeepSeek ?大學(xué)比較
百度Create AI開發(fā)者大會(huì)：李彥宏發(fā)布兩大新模型、多款熱門AI應(yīng)用、開發(fā)者全面擁抱MCP

4月25日，百度在武漢舉辦Create 2025開發(fā)者大會(huì)。李彥宏發(fā)布文心大模型4.5 Turbo和深度思考模型X1 Turbo，性能提升同時(shí)價(jià)格大幅下降。大會(huì)推出全球首個(gè)電商交易MCP平臺(tái)，并發(fā)布數(shù)字人、智能體心響APP等多款A(yù)I應(yīng)用。百度宣布未來5年培養(yǎng)1000萬AI人才，并點(diǎn)亮國內(nèi)首個(gè)三萬卡集群。同時(shí)啟動(dòng)第三屆"文心杯"創(chuàng)業(yè)大賽，最高獎(jiǎng)金達(dá)7000萬元。大會(huì)還包含6大分會(huì)場、40節(jié)AI公開課及5000平互動(dòng)展區(qū)，全面展示百度AI生態(tài)布局。

?百度AI大會(huì) ?李彥宏演講 ?文心大模型
阿丘科技李嘉悅：大模型驅(qū)動(dòng)的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

3月28日，由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場，圍繞“大模型驅(qū)動(dòng)的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題，發(fā)表了精彩演講?！苯衲?，在這個(gè)快速變化的時(shí)代，我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革，不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

?機(jī)器視覺 ?AI檢測 ?工業(yè)應(yīng)用
iPhone 17 系列機(jī)模曝光，17 Air 薄得“可怕”！

如果這個(gè)設(shè)計(jì)圖是真的，那，傳聞中的 iPhone 17 Air 加上攝像頭的厚度也不過只比其最薄處的側(cè)面按鈕略厚……

?iPhone17Air ?iphone17air厚度 ?iPhone17
iPhone 17 Pro機(jī)模現(xiàn)身網(wǎng)友：看著看著就順眼了

博主數(shù)碼閑聊站曬出了iPhone17Pro的機(jī)模，熱評第一的網(wǎng)友表示，看著看著就比較順眼了。iPhone17Pro采用橫向大矩陣DECO，后置三攝排列方式跟16Pro一致，但是閃光燈和LIDAR激光雷達(dá)掃描儀移至矩陣相機(jī)右側(cè)，外觀神似小米11Ultra。核心配置上，iPhone17Pro系列則是搭載A19Pro芯片iPhone17和iPhoneAir搭載A19芯片，這兩顆芯片都是基于臺(tái)積電3nm工藝制程制造，支持Apple智能。

?iPhone ?17 ?Pro
雷軍愿望成真：AI換臉、聲音克隆假冒企業(yè)家將被重點(diǎn)整治

快科技4月30日消息，近日，中央網(wǎng)信辦印發(fā)通知，在全國范圍內(nèi)部署開展為期3個(gè)月的清朗整治AI技術(shù)濫用”專項(xiàng)行動(dòng)。其中，利用AI假冒他人實(shí)施侵權(quán)違法行為的將被重點(diǎn)整治。包括通過AI換臉、聲音克隆等深度偽造技術(shù)，假冒專家、企業(yè)家、明星等公眾人物，欺騙網(wǎng)民，甚至營銷牟利。去年國慶假期，就曾有人用AI捏造雷軍配音，從吐槽假期到罵人，各種內(nèi)容應(yīng)有盡有。這讓雷軍非常困擾，發(fā)視頻呼吁大家不要再惡搞。今年3月，小米集團(tuán)創(chuàng)始人、董事長兼CEO雷軍在2025全國兩會(huì)上將提出5項(xiàng)建議。其中就有關(guān)于加強(qiáng)AI換臉擬聲”違法侵權(quán)重災(zāi)區(qū)治理的建議?

?AI技術(shù)濫用 ?清朗整治行動(dòng) ?深度偽造技術(shù)

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM