无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 原創(chuàng) > 關鍵詞  > AI技術最新資訊  > 正文

    AI日報:重磅!阿里新夸克升級為“AI框”;谷歌開源多模態(tài)模型Gemma-3;潞晨科技開源視頻大模型Open-Sora 2.0

    2025-03-13 15:34 · 稿源:站長之家

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。

    新鮮AI產品點擊了解:https://top.aibase.com/

    1、阿里巴巴推出AI旗艦應用“新夸克” 全面升級為“AI超級框”

    阿里巴巴于3月13日推出了其全新升級的AI旗艦應用——新夸克。這款應用基于阿里通義的先進推理與多模態(tài)大模型,整合了多種AI功能,旨在為用戶提供無縫的智能體驗。新夸克不僅能夠進行智能對話,還具備深度思考和執(zhí)行能力,能夠滿足用戶在多個場景下的需求。

    【AiBase提要:】

    ?? 新夸克整合了AI對話、深度思考、深度搜索等多種功能,提供一站式服務。

    ?? 通過智能中樞系統(tǒng),新夸克能夠自動識別用戶指令并進行深度執(zhí)行。

    ?? 阿里巴巴計劃將通義系列模型的最新成果快速接入新夸克,以增強其功能。

    2、谷歌開源新一代多模態(tài)模型 Gemma-3:性能卓越、成本降低10倍

    谷歌最新發(fā)布的多模態(tài)大模型Gemma-3以其低成本和高性能引起了廣泛關注。該模型支持多種參數(shù)規(guī)模,最大可達270億參數(shù),且僅需一張H100顯卡進行高效推理,算力需求顯著降低。Gemma-3在對話模型評比中表現(xiàn)優(yōu)異,支持長文本處理和多模態(tài)數(shù)據(jù),展現(xiàn)出強大的語言處理能力和創(chuàng)新的架構設計,是當前算力要求最低的高性能模型之一。

    image.png

    【AiBase提要:】

    ?? Gemma-3是谷歌最新開源的多模態(tài)大模型,參數(shù)范圍從10億到270億,且算力需求降低10倍。

    ?? 模型采用創(chuàng)新的架構設計,有效處理長上下文和多模態(tài)數(shù)據(jù),支持文本與圖像的同時處理。

    ?? Gemma-3支持140種語言的處理能力,經過訓練優(yōu)化后在多項任務中表現(xiàn)優(yōu)異,展現(xiàn)了強大的綜合能力。

    詳情鏈接:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

    3、百度文心快碼推出Comate Zulu版本 并正式開放公測

    百度旗下的文心快碼推出了Comate Zulu版本,標志著在智能編程領域的一次重大突破。該版本通過結合文心大模型的強大能力和豐富的編程大數(shù)據(jù),為開發(fā)者提供了更高效的編程體驗。用戶可以通過自然語言與系統(tǒng)進行交流,快速搭建項目和理解代碼邏輯,大幅提升開發(fā)效率。公測活動將持續(xù)至3月28日,開發(fā)者可以在主流IDE中體驗這一創(chuàng)新功能。

    image.png

    【AiBase提要:】

    ??? 通過全自然語言實現(xiàn)需求,無需編寫代碼即可自動搭建項目,支持口語交流和圖片展示。

    ?? 快速理解代碼庫的業(yè)務邏輯,提供架構圖梳理和智能啟發(fā)思路,幫助開發(fā)者迅速上手新項目。

    ?? 自動搭建開發(fā)環(huán)境,支持依賴自動安裝和服務自啟動,實現(xiàn)從需求到代碼的端到端生成。

    詳情鏈接:https://comate.baidu.com

    4、字節(jié)Trae接入硅基流動SiliconCloud 支持DeepSeek多款模型API

    硅基流動平臺與字節(jié)跳動推出的AI IDE——Trae正式接入,提升了開發(fā)者的編程體驗。用戶可以通過簡單的步驟接入多款編碼模型,包括DeepSeek-R1、V3等,滿足不同需求。平臺還提供免費的API服務,助力開發(fā)者實現(xiàn)更高效的開發(fā)過程。未來,硅基流動將繼續(xù)擴展模型種類和合作應用,致力于為開發(fā)者提供更穩(wěn)定的服務。

    image.png

    【AiBase提要:】

    ?? Trae接入硅基流動,提供多種高效編碼模型,提升編程體驗。

    ?? 用戶可通過簡單步驟添加模型,獲取API密鑰。

    ?? 硅基流動致力于提供穩(wěn)定的API服務,未來將擴展模型種類。

    5、王炸更新!谷歌AI Studio再進化:YouTube視頻秒懂,AI作畫還能保持角色統(tǒng)一

    谷歌AI Studio的最新升級引發(fā)了科技圈的轟動,用戶現(xiàn)在可以直接通過YouTube鏈接理解視頻內容,無需下載和上傳。Gemini2.0Flash Experimental模型不僅在視頻解析上表現(xiàn)出色,還在圖像生成方面展現(xiàn)了驚人的一致性。

    image.png

    【AiBase提要:】

    ?? 谷歌AI Studio現(xiàn)在支持直接解析YouTube視頻鏈接,用戶可快速理解視頻內容。

    ??? Gemini2.0Flash exp在圖像生成方面表現(xiàn)卓越,角色在多張圖片中保持一致性。

    ? 更新標志著谷歌AI Studio從基礎模型向應用級工具的轉型,影響現(xiàn)有AI工具生態(tài)。

    詳情鏈接:https://ai.google.dev/gemini-api/docs/vision?lang=python&hl=zh-cn#youtube

    6、叫板Sora?潞晨科技開源視頻大模型Open-Sora2.0,降本提速

    潞晨科技推出的Open-Sora2.0以其僅20萬美元的訓練成本和110億參數(shù)的強大性能,成功挑戰(zhàn)了OpenAI Sora等行業(yè)標桿。該模型在多個評測中表現(xiàn)優(yōu)異,尤其在VBench中與OpenAI Sora的性能差距縮小至0.69%。

    image.png

    【AiBase提要:】

    ?? 成本低:Open-Sora2.0僅需20萬美元訓練成本,顯著低于行業(yè)標準。

    ?? 性能強:擁有110億參數(shù),性能接近OpenAI Sora,VBench評測中表現(xiàn)優(yōu)異。

    ?? 開源共享:全流程訓練代碼開源,推動視頻生成技術的共同發(fā)展。

    詳情鏈接:https://github.com/hpcaitech/Open-Sora

    7、阿里通義新視頻生成和編輯模型VACE 可控制運動軌跡、替換主體等

    阿里通義Wan團隊推出了全新的VACE模型,旨在降低視頻制作的門檻并提升創(chuàng)作效率。VACE的按條件生成視頻功能讓用戶可以通過文字描述快速實現(xiàn)創(chuàng)意,仿佛擁有了一支夢幻攝制組。此外,VACE還具備多種強大的編輯功能,如物體運動軌跡控制、視頻主體替換、風格遷移和視頻畫面智能擴展等。

    【AiBase提要:】

    ?? VACE模型通過文字描述快速生成視頻,提升創(chuàng)作效率。

    ?? 支持物體運動軌跡控制和視頻主體替換,靈活多變。

    ??? 具備視頻畫面智能擴展和風格遷移功能,豐富創(chuàng)作表現(xiàn)。

    詳情鏈接:https://arxiv.org/pdf/2503.07598

    8、理想汽車AI助手理想同學網頁版上線:接入DeepSeek R1滿血版

    理想汽車正式推出其人工智能助手理想同學網頁版,標志著其在智能服務領域的進一步擴展。該助手接入了DeepSeek R1V3671B滿血版,提供強大的問答能力和跨場景服務協(xié)同。用戶可以在不同模型之間切換,支持長文本輸入及圖像問答功能,提升了交互體驗。

    image.png

    【AiBase提要:】

    ?? 理想同學網頁版現(xiàn)已上線,用戶可在電腦端使用,拓展智能服務生態(tài)。

    ?? 接入DeepSeek R1V3671B滿血版,支持模型切換和深度思考功能,提升問答能力。

    ??? 支持千字長文本輸入和圖像問答,提供更強的用戶交互體驗。

    9、谷歌Gemini2.0Flash放出原生多模態(tài)圖像生成功能:支持多輪對話式實時編輯

    谷歌最新推出的Gemini2.0Flash在AI圖像生成領域引入了原生圖像生成技術,顯著提升了生成效率和準確性。與以往依賴于大型語言模型的方式不同,Gemini2.0Flash實現(xiàn)了圖像生成與文本理解的直接集成,使得創(chuàng)作過程更加流暢。

    image.png

    【AiBase提要:】

    ?? 原生圖像生成:Gemini2.0Flash將圖像生成功能直接集成,避免了信息失真,提高了生成效率和準確性。

    ??? 實時編輯:支持多輪對話式編輯,用戶可以用自然語言提出修改意見,AI能夠即時響應并調整圖像。

    ?? 企業(yè)應用:為營銷團隊和開發(fā)者提供強大工具,快速生成內容,降低設計成本,提高工作效率。

    10、Remade AI 開源8款 Wan2.1特效 LoRA,掀起 AI 視頻創(chuàng)作新熱潮

    Remade AI 在 Hugging Face 平臺推出了8款基于 Wan2.1模型的開源特效 LoRA,吸引了科技界的廣泛關注。這些特效模塊不僅能夠將靜態(tài)圖像轉化為動態(tài)視頻,還為 AI 視頻生成帶來了新的創(chuàng)意可能性。

    image.png

    【AiBase提要:】

    ??8款新特效 LoRA 包括擠壓、蛋糕化、膨脹等,豐富了 AI 視頻創(chuàng)作的可能性。

    ?? Wan2.1模型以其高效性和多功能性,成為視頻生成領域的頂尖選擇。

    ?? Remade AI 邀請全球用戶提出定制需求,承諾持續(xù)開源更多特效模塊。

    11、AI對口型革命性突破:Captions新模型Mirage打造超真實UGC視頻

    Captions公司推出的全新AI模型Mirage,標志著視頻生成技術的重大突破。該模型能夠實時生成UGC風格視頻,面部表情與肢體語言的真實度超越以往技術,簡化了視頻制作流程,尤其對廣告和內容創(chuàng)作者而言,將成本和時間大幅縮減。

    image.png

    【AiBase提要:】

    ?? Mirage模型能夠實時生成UGC視頻,無需依賴預錄素材或傳統(tǒng)工具。

    ?? 生成的角色面部表情與肢體語言真實度極高,難以分辨真假。

    ?? 支持29種語言生成視頻,極大簡化視頻制作流程,降低成本與時間。

    詳情鏈接:https://www.captions.ai/mirage

    12、谷歌推機器人控制模型Gemini Robotics,讓機器人像人類一樣思考行動

    谷歌的Gemini Robotics是一個革命性的機器人控制模型,旨在將人工智能的智慧注入機器人,使其在物理世界中更智能地行動?;贕emini2.0模型,Gemini Robotics具備強大的多模態(tài)理解能力,能夠理解文本、圖像、音頻和視頻,并具備出色的泛化能力,能快速適應新環(huán)境和指令。

    【AiBase提要:】

    ?? Gemini Robotics基于Gemini2.0模型,具備強大的多模態(tài)理解能力,能夠處理文本、圖像、音頻和視頻。

    ?? 該模型展現(xiàn)出卓越的泛化能力,能夠迅速適應新物體和環(huán)境,解決各種實際問題。

    ?? 谷歌在安全性方面采取了全面措施,確保機器人在執(zhí)行任務時的安全性和可靠性。

    詳情鏈接:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

    13、智譜AI宣布再獲珠海5億元融資

    珠海華發(fā)集團近期宣布向智譜公司投資5億元人民幣,旨在推動其GLM大模型的技術創(chuàng)新與生態(tài)發(fā)展。這一舉措標志著珠海國資正式加入智譜的投資陣容。智譜在融資方面表現(xiàn)優(yōu)異,去年成功完成多輪融資,總額超過40億元,吸引了多家知名投資機構。

    【AiBase提要:】

    ?? 珠海華發(fā)集團向智譜進行5億元戰(zhàn)略投資,支持其技術創(chuàng)新與生態(tài)發(fā)展。

    ?? 智譜在融資方面表現(xiàn)強勁,去年完成超過40億元的多輪融資,投資者涵蓋多個城市的國資力量。

    ?? 預計到2025年,智譜將推出全新開源大模型,推動AI行業(yè)的繁榮與發(fā)展。

    舉報

    • 相關推薦
    • AI日報:Kimi全新音頻基礎模型Kimi-Audio;階躍星辰開源圖像編輯模型Step1X-Edit;?夸克AI超級框上線 “拍照問夸克

      本期AI日報聚焦多項AI技術突破與應用:1)Moonshot AI推出開源音頻模型Kimi-Audio,基于13億小時訓練數(shù)據(jù),支持語音識別等任務;2)階躍星辰開源圖像編輯模型Step1X-Edit,展現(xiàn)強大生成能力;3)夸克AI上線"拍照問夸克"功能,實現(xiàn)視覺問答;4)蘋果iOS18.5將在中國推送,帶來智能功能;5)谷歌發(fā)布601個生成式AI應用案例,覆蓋多行業(yè);6)微軟推出深度整合Windows的UFO2自動化系統(tǒng);7)OpenAI升級ChatGPT至GPT-4o版本,提升STEM領域能力;8)Ema公司推出高性價比語言模型EmaFusion;9)Liquid AI發(fā)布面向邊緣設備的Hyena Edge模型;10)LemonAI推出實時音視頻數(shù)字人產品Slice Live。此外,國內方面,智譜與生數(shù)科技達成戰(zhàn)略合作推動大模型發(fā)展,寶馬中國宣布新車將接入DeepSeek技術。

    • 能理解海豚聲音!谷歌開發(fā)全新AI模型DolphinGemma

      快科技4月15日消息,谷歌公布了一款名為DolphinGemma”的大型語言模型,旨在幫助科學家理解海豚的聲音,并生成類似海豚的聲音序列。研究人員預計在未來幾個月內測試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)發(fā)聲系統(tǒng),以探索是否能夠翻譯并模仿海豚的聲音,進而實現(xiàn)與海豚的某種對話”。海豚是地球上最聰明且最善于溝通的動物之一,其社交互動極其復雜?

    • 可靈AI發(fā)布全新2.0模型:上線多模態(tài)視頻編輯功能

      快科技4月16日消息,據(jù)報道,可靈AI在北京舉行靈感成真”2.0模型發(fā)布會,正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹,可靈2.0模型在動態(tài)質量、語義響應、畫面美學等維度保持領先;可圖2.0模型在指令遵循、電影質感及藝術風格表現(xiàn)等方面顯著提升。3月27日,全球AI基準測試機構Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質模

    • 1000萬上下文!新開源多模態(tài)大模型,單個GPU就能運行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個大模型領域。僅過了2個月,Meta最新開源的Llama4Scout就將上下文擴展至1000萬,整整提升了5倍開啟千萬級時代。根據(jù)實驗數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • 開源即支持!基于昇騰MindSpeed MM玩轉InternVL3多模態(tài)理解最新模型

      多模態(tài)理解領域當前已成了各家AI大模型公司“軍備競賽”的關鍵點之一,國內外知名AI大模型公司都爭相通過發(fā)布最先進的多模態(tài)大語言模型展現(xiàn)其在多模態(tài)理解領域的前沿能力。近期,上海AI實驗室推出了其最新的多模態(tài)大語言模型InternVL3 系列,相比上一代InternVL2. 5 模型,該模型展現(xiàn)出卓越的多模態(tài)感知和推理能力,同時進一步擴展了其工具使用、GUI代理、工業(yè)圖像分析等

    • AI日報:小米首個推理大模型開源Xiaomi MiMo;快手上線AI筆記工具“喵記多”;騰訊拆分AI團隊

      本文匯總了AI領域最新動態(tài):1)小米開源70億參數(shù)大模型Xiaomi MiMo,在數(shù)學推理和代碼競賽中超越OpenAI和阿里模型;2)快手推出AI筆記工具"喵記多",簡化筆記管理;3)Luma AI發(fā)布電影級鏡頭控制API,降低視頻生成門檻;4)騰訊重組AI團隊,加大語言模型研發(fā)投入;5)Anthropic為Claude引入新語音"Glassy";6)谷歌NotebookLM新增50+語言音頻概述功能;7)xAI將發(fā)布Grok3.5模型;8)Meta推出獨立AI助手應用挑戰(zhàn)ChatGPT;9)OpenAI緊急修復GPT-4o"諂媚"問題;10)Mac本地AI助手Simular升級隱私保護;11)CameraBench項目幫助AI理解鏡頭運動;12)谷歌推出個性化語言學習AI工具。

    • 多模態(tài)和Agent成為大廠AI的新賽 點

      這是《窄播Weekly》的第52期,本期我們關注的商業(yè)動態(tài)是:當大廠的AI競爭策略開始傾斜向應用場景,多模態(tài)能力和代理執(zhí)行成為兩個焦點。大模型落地C端場景的核心,就是讓大模型的能力越來越接近人。沿著這個主旋律,可以劃分出兩個進化方向:一個是持續(xù)降低用戶與大模型進行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復雜任務的能力。前者的實現(xiàn),需要給到大模型多

    • 多模態(tài)和Agent成為大廠AI的新賽點

      本期《窄播Weekly》聚焦AI大廠競爭策略向應用場景傾斜的趨勢,重點分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出,大模型落地的核心在于讓人機交互更自然,具體表現(xiàn)為:1)通過多模態(tài)技術降低用戶使用門檻,如阿里夸克新推出的"拍照問夸克"功能;2)通過代理執(zhí)行提升復雜任務處理能力,如字節(jié)、百度等推出的通用Agent產品。國內外廠商路徑差異明顯:國?

    • AI日報:智譜開源32B/9B系列GLM模型并啟用Z.ai域名;OpenAI發(fā)布GPT-4.1系列模型;阿里魔搭上線MCP廣場

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術團隊近期宣布開源32B和9B系列的GLM模型,并推出全新交互體驗平臺Z.ai。這些模型遵循MIT許可協(xié)議,支持商業(yè)用途,提升了

    • AI日報阿里模型Qwen3即將來襲;GitHub開源MCP服務器;Runway發(fā)布Gen-4 Turbo

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布,標志著其在AI領域的又一重要進展。新推出的AI聽歌報告能夠精準識別用戶音樂偏好,場景