歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/
1、月之暗面Kimi多模態(tài)圖片理解模型 API 發(fā)布
2025年1月15日,北京月之暗面科技有限公司正式發(fā)布了全新多模態(tài)圖片理解模型moonshot-v1-vision-preview,該模型在原有moonshot-v1系列的基礎(chǔ)上進(jìn)一步增強了多模態(tài)能力,旨在幫助Kimi更好地理解世界。該Vision模型具備卓越的圖像識別能力,能夠識別復(fù)雜細(xì)節(jié)并區(qū)分相似對象,表現(xiàn)出色,尤其在OCR文字識別和圖像理解方面,超越傳統(tǒng)軟件的準(zhǔn)確性。
【AiBase提要:】
??? Vision模型具備強大的圖像識別能力,能夠準(zhǔn)確區(qū)分復(fù)雜細(xì)節(jié)和相似對象。
?? 在OCR文字識別和圖像理解方面表現(xiàn)優(yōu)異,識別潦草手寫內(nèi)容的能力超越普通軟件。
?? 模型支持多輪對話和工具調(diào)用等特性,使用靈活,但不支持聯(lián)網(wǎng)搜索。
2、MiniMax開源MiniMax-01全新系列模型
MiniMax于2025年1月15日發(fā)布了其全新開源系列模型MiniMax-01,包含基礎(chǔ)語言模型MiniMax-Text-01和視覺多模態(tài)模型MiniMax-VL-01。該系列通過創(chuàng)新的線性注意力機制和超大參數(shù)量,實現(xiàn)了高效的長文本處理,性能與國際頂尖模型相當(dāng)。
【AiBase提要:】
?? MiniMax-01系列模型采用創(chuàng)新的線性注意力機制,打破傳統(tǒng)架構(gòu)局限,支持長達(dá)400萬token的上下文處理。
?? 該系列模型在多項任務(wù)上追平了GPT-4o和Claude-3.5-Sonnet,尤其在長文任務(wù)中表現(xiàn)優(yōu)異。
?? MiniMax以業(yè)內(nèi)最低價格提供文本和多模態(tài)理解API服務(wù),標(biāo)準(zhǔn)定價為輸入token1元/百萬token,輸出token8元/百萬token。
詳情鏈接:https://github.com/MiniMax-AI
3、周鴻祎參演 AI 短劇開拍,AI做特效、AI硬件齊上陣
360集團創(chuàng)始人周鴻祎宣布參與拍攝國內(nèi)首部AI短劇,該劇將在西安開機,計劃于春節(jié)期間上線。短劇以穿越為主題,預(yù)計60集,旨在傳遞正能量并避免狗血劇情。周鴻祎希望通過短劇展示AI技術(shù),促進(jìn)其在日常生活中的普及,同時推動360的納米AI搜索產(chǎn)品的發(fā)展。
【AiBase提要:】
?? 短劇將在西安開機,計劃春節(jié)上線,主題為穿越,預(yù)計60集。
?? 特效畫面由納米AI搜索生成,降低拍攝成本,提升視覺效果。
?? 旨在普及AI知識,助力每個人掌握AI技術(shù),消除數(shù)字鴻溝。
4、阿里巴巴達(dá)摩院推出電商場景多模態(tài)大模型Valley2
阿里巴巴達(dá)摩院推出的Valley2是一款多模態(tài)大型語言模型,專為電商場景設(shè)計,旨在提升各領(lǐng)域的性能并拓展應(yīng)用邊界。該模型結(jié)合了先進(jìn)的視覺編碼器和創(chuàng)新的處理模塊,展現(xiàn)了在多個基準(zhǔn)測試中的卓越表現(xiàn),標(biāo)志著多模態(tài)語言模型的重大進(jìn)展。
【AiBase提要:】
?? Valley2基于電商場景設(shè)計,采用Qwen2.5作為主干,結(jié)合SigLIP-384視覺編碼器,提升多模態(tài)處理能力。
?? 訓(xùn)練過程包括文本-視覺對齊和鏈?zhǔn)剿季S后訓(xùn)練,確保模型在復(fù)雜問題解決中的高效性。
?? 在多個公開基準(zhǔn)測試中,Valley2表現(xiàn)卓越,尤其在電商領(lǐng)域的應(yīng)用中超越同規(guī)模模型。
詳情鏈接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
5、ChatGPT智能體來了!上線“Tasks”功能:智能處理提醒和待辦事項
OpenAI最近推出了ChatGPT的新功能“任務(wù)”,允許用戶安排未來的操作和提醒,使其更像傳統(tǒng)數(shù)字助理。該功能現(xiàn)已向Plus、Team和Pro訂閱用戶推送,用戶可以簡單地輸入任務(wù)及時間,ChatGPT將處理這些需求。盡管目前僅限于付費用戶。
【AiBase提要:】
? 新功能“任務(wù)”允許用戶安排未來的操作和提醒,提升ChatGPT的實用性。
?? 用戶可通過簡單輸入告知ChatGPT所需任務(wù)及時間,輕松管理日常事務(wù)。
?? 當(dāng)前僅向付費用戶推出,尚不明確是否會面向免費用戶,預(yù)計仍將是高級功能。
6、小型文本轉(zhuǎn)語音模型Kokoro-TTS,曾拿下TTS排行榜第一
Kokoro是一款新發(fā)布的語音合成模型,具有8200萬參數(shù),迅速在TTS領(lǐng)域嶄露頭角。其在Hugging Face平臺上發(fā)布后,憑借僅用不到100小時的音頻數(shù)據(jù),便在排行榜上奪得第一,展現(xiàn)了超高的性價比。盡管目前存在聲音克隆的局限性,但其訓(xùn)練過程的合規(guī)性和高效性為未來的發(fā)展奠定了基礎(chǔ)。
【AiBase提要:】
?? Kokoro-82M 是一款新發(fā)布的語音合成模型,具有8200萬參數(shù),支持多種語音包。
?? 該模型在 TTS 領(lǐng)域表現(xiàn)卓越,曾在排行榜上排名 第一 ,僅用不到100小時的音頻數(shù)據(jù)進(jìn)行訓(xùn)練。
?? Kokoro 模型的訓(xùn)練采用了開放許可證的數(shù)據(jù),確保合規(guī)性,但目前仍存在一些功能限制。
詳情鏈接:https://huggingface.co/hexgrad/Kokoro-82M
7、Topview AI推全球首個支持生成手拿產(chǎn)品的數(shù)字人Product Avatar
Topview AI推出的“Product Avatar”數(shù)字人解決方案為電商行業(yè)帶來了革命性的變化。商家只需上傳產(chǎn)品圖片,AI便能生成手持產(chǎn)品的數(shù)字人并進(jìn)行口播講解,極大地節(jié)省了拍攝時間和成本。該產(chǎn)品還支持多種語言和個性化定制,標(biāo)志著電商營銷進(jìn)入AI驅(qū)動的新階段。
【AiBase提要:】
?? AI數(shù)字人可快速生成,無需真人模特,節(jié)省時間和成本。
?? 支持1000多種數(shù)字人模特和28種語言,滿足全球市場需求。
?? 靈活高效的產(chǎn)品展示模式,商家可隨時更換產(chǎn)品,提升推廣效率。
詳情鏈接:https://www.topview.ai/ai-product-avatar
8、英偉達(dá)400萬美投資 MetAI 幾分鐘將CAD文件轉(zhuǎn)為3D世界
Nvidia最近對初創(chuàng)公司MetAI進(jìn)行了400萬美元的種子輪融資,旨在推動AI數(shù)字雙胞胎技術(shù)的發(fā)展。MetAI專注于利用AI和3D技術(shù)迅速將CAD文件轉(zhuǎn)換為功能性3D環(huán)境,大幅縮短數(shù)字雙胞胎的創(chuàng)建時間。該公司計劃在2025年將總部遷至美國,并擴大研發(fā)團隊,以滿足日益增長的市場需求。
【AiBase提要:】
?? Nvidia投資400萬美元于初創(chuàng)公司MetAI,推動AI數(shù)字雙胞胎技術(shù)發(fā)展。
?? MetAI利用AI和3D技術(shù)將CAD文件快速轉(zhuǎn)換為功能性3D環(huán)境,縮短數(shù)字雙胞胎創(chuàng)建時間。
?? MetAI計劃在2025年將總部遷至美國,并擴大研發(fā)團隊以應(yīng)對日益增長的市場需求。
9、訊飛星火4.0Turbo七大核心能力升級:數(shù)學(xué)、代碼能力超GPT-4o
訊飛星火4.0Turbo的全面升級標(biāo)志著科大訊飛在人工智能領(lǐng)域的又一重大突破。此次升級不僅在文本生成、語言理解等七大核心能力上實現(xiàn)了顯著提升,更在數(shù)學(xué)和代碼能力方面超越了GPT-4o,尤其是在復(fù)雜數(shù)學(xué)問題的處理上展現(xiàn)出更強的能力。
【AiBase提要:】
?? 數(shù)學(xué)能力顯著提升,超越GPT-4o,能夠處理復(fù)雜數(shù)學(xué)問題。
?? 新推出的星火深度推理模型X1,擁有1750億參數(shù),適用于深層次數(shù)據(jù)分析。
?? 科大訊飛自2020年以來累計研發(fā)投入125億元,支持AI技術(shù)的持續(xù)發(fā)展。
10、Gemini AI 實現(xiàn)視覺處理新突破:實時視頻與靜態(tài)圖像同步分析
谷歌的Gemini AI最近在視覺處理領(lǐng)域取得了重要突破,能夠同時處理實時視頻和靜態(tài)圖像。這項技術(shù)通過實驗性應(yīng)用AnyChat展示,標(biāo)志著人工智能在多流處理方面的進(jìn)步。開發(fā)者可以利用Gemini的架構(gòu)創(chuàng)建自定義平臺,應(yīng)用于教育、藝術(shù)等多個領(lǐng)域,展現(xiàn)出廣泛的應(yīng)用潛力。
【AiBase提要:】
?? Gemini AI實現(xiàn)實時視頻與靜態(tài)圖像的同步處理,打破以往限制。
?? AnyChat平臺展示了AI在教育、藝術(shù)等領(lǐng)域的廣泛應(yīng)用潛力。
?? 開發(fā)者可以輕松利用Gemini的技術(shù)構(gòu)建自己的視覺AI應(yīng)用。
詳情鏈接:https://huggingface.co/spaces/akhaliq/anychat
11、科大訊飛星火同傳語音大模型發(fā)布:達(dá)到人類專家譯員水平
科大訊飛今日發(fā)布了星火同傳語音大模型,標(biāo)志著國內(nèi)首個具備端到端語音同傳能力的大模型的問世。這一技術(shù)的推出,顯著提升了翻譯的流暢性和準(zhǔn)確性,尤其在國際交流場合中表現(xiàn)出色。該模型支持多種語言的即時翻譯,響應(yīng)時間縮短至5秒以內(nèi),達(dá)到人類專家的翻譯水平,預(yù)示著未來國際交流的便捷與高效。
【AiBase提要:】
?? 星火同傳語音大模型是國內(nèi)首個具備端到端語音同傳能力的大模型,顯著提升了翻譯效果。
?? 該模型在英譯中方面幾乎實現(xiàn)無延遲,適合國際展會和旅游等場景使用。
? 支持流式翻譯和自適應(yīng)語速調(diào)節(jié),翻譯的自然度和流暢度大幅提升,超越了國際同類技術(shù)。
12、OpenBMB發(fā)布多模態(tài)模型MiniCPM-o2.6手機也能進(jìn)行視覺和語音處理
OpenBMB推出的MiniCPM-o2.6是一款具有80億參數(shù)的多模態(tài)模型,旨在解決高計算資源需求與邊緣設(shè)備兼容性之間的挑戰(zhàn)。該模型在視覺、語音和語言處理方面表現(xiàn)出色,能夠高效運行于智能手機和平板電腦上。通過模塊化設(shè)計,MiniCPM-o2.6集成了多種強大組件,支持實時處理和多語言功能。
【AiBase提要:】
?? MiniCPM-o2.6是一款具有80億參數(shù)的多模態(tài)模型,能夠在邊緣設(shè)備上高效運行,支持視覺、語音和語言處理。
?? 該模型在OpenCompass基準(zhǔn)測試中表現(xiàn)優(yōu)異,視覺任務(wù)成績超過GPT-4V,并具備多語言處理能力。
??? MiniCPM-o2.6具備實時處理、語音克隆和情感控制等功能,適用于教育、醫(yī)療等多個行業(yè)的創(chuàng)新應(yīng)用。
詳情鏈接:https://huggingface.co/openbmb/MiniCPM-o-2_6
(舉報)