11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
【AI日報】今日AI領(lǐng)域重要動態(tài):1.百度發(fā)布文心快碼3.5及多模態(tài)AI程序員"文心快碼Comate Zulu",提升開發(fā)效率;2.字節(jié)跳動啟動"Top Seed"計劃,招募30名AI博士人才;3.DeepSeek開源R1T Chimera模型上線OpenRouter平臺;4.阿里AI工程師余亮獲"全國勞動模范"稱號;5.開源圖像編輯工具Step1X-Edit登陸Hugging Face,性能媲美GPT-4o;6.谷歌被曝每月向三星支付巨額資金預(yù)裝Gemini應(yīng)用
復(fù)旦大學(xué)與美團研究者提出UniToken框架,首次在統(tǒng)一模型中實現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼,有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略(視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強化微調(diào)),UniToken在多個基準測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在:1)統(tǒng)一的雙邊視覺編碼
正文不久前,市場研究機構(gòu)CounterpointResearch發(fā)布了一份報告,預(yù)計到2028年,全球生成式AI智能手機的出貨量將達到7.3億臺,其市場份額占比將攀升至54%,這一數(shù)字是2024年預(yù)期水平的三倍以上。到2028年,在售價超過250美元的智能手機中,預(yù)計每10部中就有9部將具備生成式AI功能。這一切成就,都是三星GalaxyS系列堅持長期主義創(chuàng)新理念、不懈追求技術(shù)突破與用戶體驗優(yōu)化的璀璨結(jié)晶。
近日,蘋果公司推出了300億參數(shù)的多模態(tài)AI大模型MM1.5,該版本是在前代MM1的架構(gòu)基礎(chǔ)上發(fā)展來的。該模型繼續(xù)遵循數(shù)據(jù)驅(qū)動的訓(xùn)練原則,著重探究在不同訓(xùn)練周期中混合各類數(shù)據(jù)對模型性能產(chǎn)生的影響,相關(guān)模型文檔已在HuggingFace上發(fā)布。盡管MM1.5模型在多項基準測試中表現(xiàn)優(yōu)異,但蘋果團隊仍計劃通過進一步融合文本、圖像和用戶交互數(shù)據(jù),并設(shè)計更復(fù)雜的架構(gòu),來提升模型對移動設(shè)備UI的理解能力,從讓蘋果牌”AI更強大。
具身智能領(lǐng)域的“癲”,已經(jīng)進入nextlevel了!來看這段視頻:人形機器人在前面跑,一群機器狗在后面追;然后人追著狗,接著狗追著人……最后那位機器人還有很重的「偷感」在身上。這樣它就真的很真狗啊!第二點是BabyAlphaA2擁有SuperChat功能。機器人對人類的價值,從來不只是“科幻”和冷冰冰的硬件已。
在生成式人工智能領(lǐng)域,大模型多模態(tài)交互能力的升級正掀起一股新的AI浪潮,在RTC能力的加持下,人與AI的交互不再局限于文字,也可以通過語音通話進行生動、流暢的低延時交互,這也成為當下國內(nèi)外大模型廠商新的發(fā)力點。今年5月,GPT-4o的發(fā)布開創(chuàng)了AI實時語音交互的先河。聲網(wǎng)的實時多模態(tài)對話式AI解決方案目前已經(jīng)上線,如您想進一步體驗我們的Demo或者接入該方案,可在聲網(wǎng)公眾號找到這篇文章,掃描文章底部的二維碼聯(lián)系我們。
【新智元導(dǎo)讀】就在剛剛,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴散領(lǐng)域之后,語言模型和圖像大一統(tǒng),又近了一步。真正的多模態(tài)AI模型,可能很快就要來了!Transformer和Diffusion,終于有了一次出色的融合。他在卡耐基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位,師從EduardHovy教授,并在上海交通大學(xué)獲得了計算機科學(xué)碩士和學(xué)士學(xué)位?
斯坦福大學(xué)的NEXAAI團隊宣布推出全球首個多模態(tài)AI代理模型OctopusV3,讓AI代理更加智能、快速、能耗及成本降低。今年四月份初,NEXAAI推出了備受矚目的OctopusV2,該模型在函數(shù)調(diào)用性能上超越了GPT-4,減少了95%的推理時所需的文本量,為端側(cè)AI應(yīng)用帶來了新的可能性。NEXAAI的創(chuàng)始團隊表示,他們將繼續(xù)致力于推動端側(cè)AI技術(shù)的發(fā)展,通過開源模型提升其創(chuàng)新技術(shù)的影響力,為用戶創(chuàng)造更智能、高效的未來生活。
4月18日,2024中國生成式AI大會上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI多模態(tài)大模型,具備文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。該大模型圍繞GPS軌跡視覺語音打造新一代LLM-Based的自然交互,同時多模態(tài)問答技術(shù)的加持,能實現(xiàn)所見即所問、所問即所得的精準服務(wù)。李未可科技合伙人&AI負責人古鑒表示W(wǎng)AKE-AI將逐步開放平臺能力,便于更多企業(yè)及開發(fā)者調(diào)用WAKE-AI能力,共建AI硬件生態(tài)。
Grok-1.5VisionPreview是X.AI公司推出的首個多模態(tài)模型。除了強大的文本處理能力,Grok還能處理各種視覺信息,如文檔、圖表、截圖和照片等。點擊前往Grok-1.5VisionPreview官網(wǎng)體驗入口需求人群:輔助決策分析內(nèi)容生成工作效率提升使用場景示例:使用Grok-1.5V分析復(fù)雜的商業(yè)報告,快速提取關(guān)鍵數(shù)據(jù)和見解利用Grok-1.5V自動生成項目計劃草稿,并優(yōu)化資源分配通過Grok-1.5V理解工廠設(shè)備使用說明,提高維修效率產(chǎn)品特色:多學(xué)科推理文檔理解圖表解讀現(xiàn)實世界理解圖像處理掌握Grok-1.5VisionPreview,體驗多模態(tài)AI的強大功能和無限潛力。