无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<dfn id="gu0aw"><tr id="gu0aw"></tr></dfn>

AI日報：Kimi發(fā)布多模態(tài)圖片理解模型API；周鴻祎參演AI短劇開拍；MiniMax-01系列模型開源；星火同傳語音大模型發(fā)布

2025-01-15 15:38 · 稿源：站長之家

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。

新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/

1、月之暗面Kimi多模態(tài)圖片理解模型 API 發(fā)布

2025年1月15日，北京月之暗面科技有限公司正式發(fā)布了全新多模態(tài)圖片理解模型moonshot-v1-vision-preview，該模型在原有moonshot-v1系列的基礎(chǔ)上進(jìn)一步增強了多模態(tài)能力，旨在幫助Kimi更好地理解世界。該Vision模型具備卓越的圖像識別能力，能夠識別復(fù)雜細(xì)節(jié)并區(qū)分相似對象，表現(xiàn)出色，尤其在OCR文字識別和圖像理解方面，超越傳統(tǒng)軟件的準(zhǔn)確性。

【AiBase提要:】
??? Vision模型具備強大的圖像識別能力，能夠準(zhǔn)確區(qū)分復(fù)雜細(xì)節(jié)和相似對象。
?? 在OCR文字識別和圖像理解方面表現(xiàn)優(yōu)異，識別潦草手寫內(nèi)容的能力超越普通軟件。
?? 模型支持多輪對話和工具調(diào)用等特性，使用靈活，但不支持聯(lián)網(wǎng)搜索。

2、MiniMax開源MiniMax-01全新系列模型

MiniMax于2025年1月15日發(fā)布了其全新開源系列模型MiniMax-01，包含基礎(chǔ)語言模型MiniMax-Text-01和視覺多模態(tài)模型MiniMax-VL-01。該系列通過創(chuàng)新的線性注意力機制和超大參數(shù)量，實現(xiàn)了高效的長文本處理，性能與國際頂尖模型相當(dāng)。

【AiBase提要:】
?? MiniMax-01系列模型采用創(chuàng)新的線性注意力機制，打破傳統(tǒng)架構(gòu)局限，支持長達(dá)400萬token的上下文處理。
?? 該系列模型在多項任務(wù)上追平了GPT-4o和Claude-3.5-Sonnet，尤其在長文任務(wù)中表現(xiàn)優(yōu)異。
?? MiniMax以業(yè)內(nèi)最低價格提供文本和多模態(tài)理解API服務(wù)，標(biāo)準(zhǔn)定價為輸入token1元/百萬token，輸出token8元/百萬token。
詳情鏈接:https://github.com/MiniMax-AI

3、周鴻祎參演 AI 短劇開拍，AI做特效、AI硬件齊上陣

360集團創(chuàng)始人周鴻祎宣布參與拍攝國內(nèi)首部AI短劇，該劇將在西安開機，計劃于春節(jié)期間上線。短劇以穿越為主題，預(yù)計60集，旨在傳遞正能量并避免狗血劇情。周鴻祎希望通過短劇展示AI技術(shù)，促進(jìn)其在日常生活中的普及，同時推動360的納米AI搜索產(chǎn)品的發(fā)展。

【AiBase提要:】
?? 短劇將在西安開機，計劃春節(jié)上線，主題為穿越，預(yù)計60集。
?? 特效畫面由納米AI搜索生成，降低拍攝成本，提升視覺效果。
?? 旨在普及AI知識，助力每個人掌握AI技術(shù)，消除數(shù)字鴻溝。

4、阿里巴巴達(dá)摩院推出電商場景多模態(tài)大模型Valley2

阿里巴巴達(dá)摩院推出的Valley2是一款多模態(tài)大型語言模型，專為電商場景設(shè)計，旨在提升各領(lǐng)域的性能并拓展應(yīng)用邊界。該模型結(jié)合了先進(jìn)的視覺編碼器和創(chuàng)新的處理模塊，展現(xiàn)了在多個基準(zhǔn)測試中的卓越表現(xiàn)，標(biāo)志著多模態(tài)語言模型的重大進(jìn)展。

【AiBase提要:】
?? Valley2基于電商場景設(shè)計，采用Qwen2.5作為主干，結(jié)合SigLIP-384視覺編碼器，提升多模態(tài)處理能力。
?? 訓(xùn)練過程包括文本-視覺對齊和鏈?zhǔn)剿季S后訓(xùn)練，確保模型在復(fù)雜問題解決中的高效性。
?? 在多個公開基準(zhǔn)測試中，Valley2表現(xiàn)卓越，尤其在電商領(lǐng)域的應(yīng)用中超越同規(guī)模模型。
詳情鏈接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5、ChatGPT智能體來了!上線“Tasks”功能:智能處理提醒和待辦事項

OpenAI最近推出了ChatGPT的新功能“任務(wù)”，允許用戶安排未來的操作和提醒，使其更像傳統(tǒng)數(shù)字助理。該功能現(xiàn)已向Plus、Team和Pro訂閱用戶推送，用戶可以簡單地輸入任務(wù)及時間，ChatGPT將處理這些需求。盡管目前僅限于付費用戶。

【AiBase提要:】
? 新功能“任務(wù)”允許用戶安排未來的操作和提醒，提升ChatGPT的實用性。
?? 用戶可通過簡單輸入告知ChatGPT所需任務(wù)及時間，輕松管理日常事務(wù)。
?? 當(dāng)前僅向付費用戶推出，尚不明確是否會面向免費用戶，預(yù)計仍將是高級功能。

6、小型文本轉(zhuǎn)語音模型Kokoro-TTS，曾拿下TTS排行榜第一

Kokoro是一款新發(fā)布的語音合成模型，具有8200萬參數(shù)，迅速在TTS領(lǐng)域嶄露頭角。其在Hugging Face平臺上發(fā)布后，憑借僅用不到100小時的音頻數(shù)據(jù)，便在排行榜上奪得第一，展現(xiàn)了超高的性價比。盡管目前存在聲音克隆的局限性，但其訓(xùn)練過程的合規(guī)性和高效性為未來的發(fā)展奠定了基礎(chǔ)。

【AiBase提要:】
?? Kokoro-82M 是一款新發(fā)布的語音合成模型，具有8200萬參數(shù)，支持多種語音包。
?? 該模型在 TTS 領(lǐng)域表現(xiàn)卓越，曾在排行榜上排名第一，僅用不到100小時的音頻數(shù)據(jù)進(jìn)行訓(xùn)練。
?? Kokoro 模型的訓(xùn)練采用了開放許可證的數(shù)據(jù)，確保合規(guī)性，但目前仍存在一些功能限制。
詳情鏈接:https://huggingface.co/hexgrad/Kokoro-82M

7、Topview AI推全球首個支持生成手拿產(chǎn)品的數(shù)字人Product Avatar

Topview AI推出的“Product Avatar”數(shù)字人解決方案為電商行業(yè)帶來了革命性的變化。商家只需上傳產(chǎn)品圖片，AI便能生成手持產(chǎn)品的數(shù)字人并進(jìn)行口播講解，極大地節(jié)省了拍攝時間和成本。該產(chǎn)品還支持多種語言和個性化定制，標(biāo)志著電商營銷進(jìn)入AI驅(qū)動的新階段。

【AiBase提要:】
?? AI數(shù)字人可快速生成，無需真人模特，節(jié)省時間和成本。
?? 支持1000多種數(shù)字人模特和28種語言，滿足全球市場需求。
?? 靈活高效的產(chǎn)品展示模式，商家可隨時更換產(chǎn)品，提升推廣效率。
詳情鏈接:https://www.topview.ai/ai-product-avatar

8、英偉達(dá)400萬美投資 MetAI 幾分鐘將CAD文件轉(zhuǎn)為3D世界

Nvidia最近對初創(chuàng)公司MetAI進(jìn)行了400萬美元的種子輪融資，旨在推動AI數(shù)字雙胞胎技術(shù)的發(fā)展。MetAI專注于利用AI和3D技術(shù)迅速將CAD文件轉(zhuǎn)換為功能性3D環(huán)境，大幅縮短數(shù)字雙胞胎的創(chuàng)建時間。該公司計劃在2025年將總部遷至美國，并擴大研發(fā)團隊，以滿足日益增長的市場需求。

【AiBase提要:】
?? Nvidia投資400萬美元于初創(chuàng)公司MetAI，推動AI數(shù)字雙胞胎技術(shù)發(fā)展。
?? MetAI利用AI和3D技術(shù)將CAD文件快速轉(zhuǎn)換為功能性3D環(huán)境，縮短數(shù)字雙胞胎創(chuàng)建時間。
?? MetAI計劃在2025年將總部遷至美國，并擴大研發(fā)團隊以應(yīng)對日益增長的市場需求。

9、訊飛星火4.0Turbo七大核心能力升級:數(shù)學(xué)、代碼能力超GPT-4o

訊飛星火4.0Turbo的全面升級標(biāo)志著科大訊飛在人工智能領(lǐng)域的又一重大突破。此次升級不僅在文本生成、語言理解等七大核心能力上實現(xiàn)了顯著提升，更在數(shù)學(xué)和代碼能力方面超越了GPT-4o，尤其是在復(fù)雜數(shù)學(xué)問題的處理上展現(xiàn)出更強的能力。

【AiBase提要:】
?? 數(shù)學(xué)能力顯著提升，超越GPT-4o，能夠處理復(fù)雜數(shù)學(xué)問題。
?? 新推出的星火深度推理模型X1，擁有1750億參數(shù)，適用于深層次數(shù)據(jù)分析。
?? 科大訊飛自2020年以來累計研發(fā)投入125億元，支持AI技術(shù)的持續(xù)發(fā)展。

10、Gemini AI 實現(xiàn)視覺處理新突破:實時視頻與靜態(tài)圖像同步分析

谷歌的Gemini AI最近在視覺處理領(lǐng)域取得了重要突破，能夠同時處理實時視頻和靜態(tài)圖像。這項技術(shù)通過實驗性應(yīng)用AnyChat展示，標(biāo)志著人工智能在多流處理方面的進(jìn)步。開發(fā)者可以利用Gemini的架構(gòu)創(chuàng)建自定義平臺，應(yīng)用于教育、藝術(shù)等多個領(lǐng)域，展現(xiàn)出廣泛的應(yīng)用潛力。

【AiBase提要:】
?? Gemini AI實現(xiàn)實時視頻與靜態(tài)圖像的同步處理，打破以往限制。
?? AnyChat平臺展示了AI在教育、藝術(shù)等領(lǐng)域的廣泛應(yīng)用潛力。
?? 開發(fā)者可以輕松利用Gemini的技術(shù)構(gòu)建自己的視覺AI應(yīng)用。
詳情鏈接:https://huggingface.co/spaces/akhaliq/anychat

11、科大訊飛星火同傳語音大模型發(fā)布:達(dá)到人類專家譯員水平

科大訊飛今日發(fā)布了星火同傳語音大模型，標(biāo)志著國內(nèi)首個具備端到端語音同傳能力的大模型的問世。這一技術(shù)的推出，顯著提升了翻譯的流暢性和準(zhǔn)確性，尤其在國際交流場合中表現(xiàn)出色。該模型支持多種語言的即時翻譯，響應(yīng)時間縮短至5秒以內(nèi)，達(dá)到人類專家的翻譯水平，預(yù)示著未來國際交流的便捷與高效。

【AiBase提要:】
?? 星火同傳語音大模型是國內(nèi)首個具備端到端語音同傳能力的大模型，顯著提升了翻譯效果。
?? 該模型在英譯中方面幾乎實現(xiàn)無延遲，適合國際展會和旅游等場景使用。
? 支持流式翻譯和自適應(yīng)語速調(diào)節(jié)，翻譯的自然度和流暢度大幅提升，超越了國際同類技術(shù)。

12、OpenBMB發(fā)布多模態(tài)模型MiniCPM-o2.6手機也能進(jìn)行視覺和語音處理

OpenBMB推出的MiniCPM-o2.6是一款具有80億參數(shù)的多模態(tài)模型，旨在解決高計算資源需求與邊緣設(shè)備兼容性之間的挑戰(zhàn)。該模型在視覺、語音和語言處理方面表現(xiàn)出色，能夠高效運行于智能手機和平板電腦上。通過模塊化設(shè)計，MiniCPM-o2.6集成了多種強大組件，支持實時處理和多語言功能。

【AiBase提要:】
?? MiniCPM-o2.6是一款具有80億參數(shù)的多模態(tài)模型，能夠在邊緣設(shè)備上高效運行，支持視覺、語音和語言處理。
?? 該模型在OpenCompass基準(zhǔn)測試中表現(xiàn)優(yōu)異，視覺任務(wù)成績超過GPT-4V，并具備多語言處理能力。
??? MiniCPM-o2.6具備實時處理、語音克隆和情感控制等功能，適用于教育、醫(yī)療等多個行業(yè)的創(chuàng)新應(yīng)用。
詳情鏈接:https://huggingface.co/openbmb/MiniCPM-o-2_6

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦AI日報：Kimi全新音頻基礎(chǔ)模型Kimi-Audio；階躍星辰開源圖像編輯模型Step1X-Edit；?夸克AI超級框上線 “拍照問夸克”

本期AI日報聚焦多項AI技術(shù)突破與應(yīng)用：1)Moonshot AI推出開源音頻模型Kimi-Audio，基于13億小時訓(xùn)練數(shù)據(jù)，支持語音識別等任務(wù)；2)階躍星辰開源圖像編輯模型Step1X-Edit，展現(xiàn)強大生成能力；3)夸克AI上線"拍照問夸克"功能，實現(xiàn)視覺問答；4)蘋果iOS18.5將在中國推送，帶來智能功能；5)谷歌發(fā)布601個生成式AI應(yīng)用案例，覆蓋多行業(yè)；6)微軟推出深度整合Windows的UFO2自動化系統(tǒng)；7)OpenAI升級ChatGPT至GPT-4o版本，提升STEM領(lǐng)域能力；8)Ema公司推出高性價比語言模型EmaFusion；9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型；10)LemonAI推出實時音視頻數(shù)字人產(chǎn)品Slice Live。此外，國內(nèi)方面，智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動大模型發(fā)展，寶馬中國宣布新車將接入DeepSeek技術(shù)。

?AI日報 ?音頻技術(shù) ?開源模型
薦AI日報：kimi宣布降價；OpenRouter發(fā)布免費模型Quasar Alpha；Midjourney V7重磅上線

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、IDC:到2028年中國人工智能投資將突破1000億美元根據(jù)國際數(shù)據(jù)公司的預(yù)測，中國在人工智能領(lǐng)域的投資將顯著增長，預(yù)計到2028年總投資將突破1000億美元，年均復(fù)合增長率達(dá)到35.2%。

?人工智能 ?投資預(yù)測 ?生成式AI
薦AI日報：小米首個推理大模型開源Xiaomi MiMo；快手上線AI筆記工具“喵記多”；騰訊拆分AI團隊

本文匯總了AI領(lǐng)域最新動態(tài)：1)小米開源70億參數(shù)大模型Xiaomi MiMo，在數(shù)學(xué)推理和代碼競賽中超越OpenAI和阿里模型；2)快手推出AI筆記工具"喵記多"，簡化筆記管理；3)Luma AI發(fā)布電影級鏡頭控制API，降低視頻生成門檻；4)騰訊重組AI團隊，加大語言模型研發(fā)投入；5)Anthropic為Claude引入新語音"Glassy"；6)谷歌NotebookLM新增50+語言音頻概述功能；7)xAI將發(fā)布Grok3.5模型；8)Meta推出獨立AI助手應(yīng)用挑戰(zhàn)ChatGPT；9)OpenAI緊急修復(fù)GPT-4o"諂媚"問題；10)Mac本地AI助手Simular升級隱私保護；11)CameraBench項目幫助AI理解鏡頭運動；12)谷歌推出個性化語言學(xué)習(xí)AI工具。

?人工智能 ?Xiaomi ?MiMo
薦AI日報：阿里通義千問登頂全球開源模型榜首；MiniMax推Speech-02語音模型；?ChatGPT付費用戶激增至2000萬

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里通義千問Qwen2.5-Omni登頂全球開源模型榜單2024年4月2日，HuggingFace發(fā)布了最新的大模型榜單，阿里巴巴的Qwen2.5-Omni憑借其卓越的性能和多模態(tài)能力，成功登頂，成為全球開源模?

?人工智能 ?開源模型 ?技術(shù)趨勢
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
薦AI日報：智譜開源32B/9B系列GLM模型并啟用Z.ai域名；OpenAI發(fā)布GPT-4.1系列模型；阿里魔搭上線MCP廣場

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術(shù)團隊近期宣布開源32B和9B系列的GLM模型，并推出全新交互體驗平臺Z.ai。這些模型遵循MIT許可協(xié)議，支持商業(yè)用途，提升了

?人工智能 ?開源模型 ?GLM模型
開源即支持！基于昇騰MindSpeed MM玩轉(zhuǎn)InternVL3多模態(tài)理解最新模型

多模態(tài)理解領(lǐng)域當(dāng)前已成了各家AI大模型公司“軍備競賽”的關(guān)鍵點之一，國內(nèi)外知名AI大模型公司都爭相通過發(fā)布最先進(jìn)的多模態(tài)大語言模型展現(xiàn)其在多模態(tài)理解領(lǐng)域的前沿能力。近期，上海AI實驗室推出了其最新的多模態(tài)大語言模型InternVL3 系列，相比上一代InternVL2. 5 模型，該模型展現(xiàn)出卓越的多模態(tài)感知和推理能力，同時進(jìn)一步擴展了其工具使用、GUI代理、工業(yè)圖像分析等

?多模態(tài)理解 ?AI大模型 ?InternVL3
薦AI日報：字節(jié)發(fā)布豆包1.5深度思考模型；微信首個AI助手 “元寶” 上線；OpenAI發(fā)布o4-mini、滿血版o3

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術(shù)直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3，這兩款模型具備同時處理文本、圖像和音頻的能力，并能調(diào)用外部工?

?人工智能 ?多模態(tài)模型 ?OpenAI
可靈AI發(fā)布全新2.0模型：上線多模態(tài)視頻編輯功能

快科技4月16日消息，據(jù)報道，可靈AI在北京舉行靈感成真”2.0模型發(fā)布會，正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹，可靈2.0模型在動態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度保持領(lǐng)先；可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。3月27日，全球AI基準(zhǔn)測試機構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單，快手可靈1.6pro（高品質(zhì)模

?可靈AI ?視頻生成模型 ?圖像生成模型
薦微信，OpenAI和Kimi想一起去了：大模型的盡頭依然還是社交平臺

AI圈最近彌漫著一股微妙的氣息。人們似乎不再熱議大語言模型的最新突破、以及AI應(yīng)用的無限可能時，一些代表著未來的AI巨頭，卻似乎正將目光投向互聯(lián)網(wǎng)那熟悉得不能再熟悉的角落——社交網(wǎng)絡(luò)與社區(qū)。近期的傳聞和動作頗具代表性，在大洋彼岸，手握ChatGPT和Sora等王牌的OpenAI，據(jù)稱正內(nèi)部測試類X的社交功能，其CEO Sam Altman甚至在私下征求反饋；而在國內(nèi)，憑借長文本能力

?AI社交網(wǎng)絡(luò) ?語言模型 ?OpenAI動態(tài)

熱文

3 天
7天

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM