无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 原創(chuàng) > 關鍵詞  > 人工智能最新資訊  > 正文

    AI日報:蘋果AI國行版或隨iOS 18.6月底上線;Suno v4.5正式上線;Runway發(fā)布圖像一致性參考功能

    2025-05-06 15:33 · 稿源:站長之家

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。

    新鮮AI產品點擊了解:https://top.aibase.com/

    1、英偉達全新開源自動語音識別模型 Parakeet-TDT-0.6B-V2,語音轉錄能力再提升

    英偉達推出的Parakeet-TDT-0.6B-V2模型在自動語音識別領域取得了顯著進展。該模型結合開源理念與商業(yè)應用,提升了轉錄效率,能夠在一秒內完成60分鐘音頻的轉錄,且其詞錯誤率接近市場領先水平。通過支持多種開發(fā)環(huán)境及優(yōu)化多款GPU硬件,該模型為開發(fā)者提供了強大的工具,助力多樣化的語音應用場景。

    QQ_1746516639837.png

    【AiBase提要:】

    ? 超強轉錄能力:該模型能在一秒內完成60分鐘音頻的轉錄,顯著提高語音處理速度。

    ?? 技術參數:擁有6億個參數,結合FastConformer編碼器和TDT解碼器,詞錯誤率僅為6.05%。

    ?? 廣泛應用場景:支持多種應用,包括轉錄服務、語音助手等,兼容Python和PyTorch等開發(fā)環(huán)境。

    詳情鏈接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

    2、Suno v4.5正式上線,僅限付費用戶使用,生成歌曲延長至8分鐘

    Suno音樂生成平臺推出了其最新模型v4.5,專為Pro和Premier付費用戶設計,顯著提升了音質、風格多樣性和用戶體驗。新版本支持更廣泛的音樂風格,增強了聲線表現(xiàn)和音效層次,同時延長了歌曲生成時長至8分鐘。盡管部分用戶對付費限制表示遺憾,但也有人認為這一創(chuàng)新值得訂閱。

    【AiBase提要:】

    ?? v4.5支持更廣泛的音樂風格,具備智能混搭能力,提升創(chuàng)作自由度。

    ?? 聲線表現(xiàn)更為飽滿,情感表達精準,音域和情感深度顯著提升。

    ? 歌曲生成時長從4分鐘擴展至8分鐘,用戶可創(chuàng)作更長的音樂作品。

    3、Runway發(fā)布圖像一致性參考功能 Gen-4References 支持提取人物、場景或風格特征及多圖混合

    Runway最近推出的Gen-4References功能為其AI視頻生成模型增添了圖像一致性參考能力,使創(chuàng)作者能夠通過上傳參考圖像來提取人物、場景或風格特征,從而在生成內容中保持高度一致性。這一功能支持多張圖像的混合生成,為視頻創(chuàng)作提供了更大的控制力與創(chuàng)意自由,極大地簡化了設計流程,推動了AI在影視制作領域的應用。

    【AiBase提要:】

    ??? Gen-4References允許用戶上傳多張參考圖像,確保生成內容在不同場景中的一致性。

    ?? 該功能支持從電影制作到廣告設計等多種創(chuàng)作場景,提升了視覺連貫性。

    ?? Runway計劃進一步增強該功能,推動AI視頻生成技術的成熟與應用。

    4、Midjourney V7推出全新功能 “Omni-Reference”,讓圖像生成更靈活

    Midjourney最近推出的“Omni-Reference”功能為圖像生成帶來了革命性的變化。它允許用戶對圖像元素進行精確控制,支持多種對象生成和靈活的權重調整,從而提升創(chuàng)作的自由度和一致性。此功能不僅適用于藝術創(chuàng)作,還能在游戲開發(fā)、廣告設計等多個領域發(fā)揮重要作用,展示出廣泛的應用潛力。

    image.png

    【AiBase提要:】

    ?? Omni-Reference功能提供精準的圖像元素控制,用戶可上傳參考圖像以生成高度匹配的結果。

    ?? 支持多種對象生成,用戶可以在單張圖像中包含多個對象,適合復雜場景的創(chuàng)作。

    ?? 通過動態(tài)權重調整,用戶可控制參考圖像的影響強度,確保細節(jié)的一致性與風格的靈活性。

    5、Claude AI將升級:網頁版醞釀支持MCP定制鏈接

    近日,科技媒體TestingCatalog報道,Anthropic旗下的Claude網頁應用將通過引入Model Context Protocol(MCP)進行重大升級。這一新協(xié)議旨在打破Claude在谷歌服務方面的限制,預計將為用戶提供更靈活的使用體驗。MCP作為一種開放標準,將簡化大型語言模型與外部數據源和工具之間的通信,提升AI助手的集成能力。

    image.png

    【AiBase提要:】

    ?? 預計Claude AI將通過MCP標準實現(xiàn)更靈活的第三方服務集成。

    ?? MCP標準如同“USB-C接口”,將簡化AI與外部工具的連接方式。

    ?? 用戶可通過網頁直接訪問第三方工具,提升工作效率,降低本地部署需求。

    6、iOS18.6或為中國用戶啟用AI功能 國行蘋果AI或由阿里百度技術支持

    蘋果AI將在iOS18.6系統(tǒng)中首次啟用部分功能,背后有阿里巴巴和百度的技術支持。由于政策限制,海外大模型無法在中國提供服務,百度的文心一言大模型將成為國行版蘋果AI的核心引擎。同時,為確保內容合規(guī),蘋果引入阿里巴巴的審查機制。

    image.png

    【AiBase提要:】

    ??? 蘋果AI將在iOS18.6中首次啟用,背后有阿里和百度的技術支持。

    ?? 百度的文心一言大模型將作為國行版蘋果AI的核心智能引擎。

    ?? 阿里巴巴將提供審查機制,確保AI生成內容符合國內法規(guī)要求。

    7、OpenAI 重返非營利模式,終止營利性實體控制機制

    OpenAI 宣布重返非營利模式,結束營利性實體的控制,重組為公益公司。這一變動回應了外界對其商業(yè)化的擔憂,尤其是來自埃隆·馬斯克的批評。新的治理結構將確保社會效益透明,同時允許繼續(xù)吸引風險投資。OpenAI 計劃利用這一模式成為全球最大的慈善實體之一,預計2024年營收將突破20億美元。

    【AiBase提要:】

    ?? OpenAI 宣布重返非營利模式,終止營利性實體控制機制。

    ?? 新設公益公司仍在非營利組織監(jiān)督下,目標成為全球最大慈善實體之一。

    ?? 調整后的架構將確保社會效益指標的透明度,同時保持商業(yè)運作空間。

    8、Freepik 發(fā)布“F Lite”:一個為版權安全而構建的開放 AI 圖像模型

    Freepik最近推出了其文本到圖像生成模型“F Lite”,旨在為因版權問題而備受爭議的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商業(yè)授權圖像庫進行訓練,擁有約100億個參數。盡管在生成插圖和矢量風格作品方面表現(xiàn)出色,但在生成照片級逼真圖像時仍存在不足。

    free_pik_lite-770x828.png

    【AiBase提要:】

    ??? F Lite是Freepik推出的文本到圖像生成模型,旨在提供版權安全的替代方案。

    ?? 該模型基于Freepik自有圖像庫訓練,擁有約100億個參數,強調合法審查數據的重要性。

    ?? 盡管在插圖生成方面表現(xiàn)優(yōu)異,但F Lite在生成照片級圖像時仍面臨細節(jié)缺失等挑戰(zhàn)。

    9、OpenAI同意以30億美元收購AI編碼助Windsurf

    OpenAI近期宣布以約30億美元收購人工智能編碼助手Windsurf,此交易是其迄今為止最大的一筆收購,顯示出其在AI領域的雄心和實力。Windsurf的技術在開發(fā)者社區(qū)中備受推崇,此次收購可能會引發(fā)行業(yè)內的廣泛討論,尤其是在OpenAI與其他AI編碼助手之間的競爭關系上。

    image.png

    【AiBase提要:】

    ?? OpenAI以約30億美元收購人工智能編碼助手Windsurf,標志著其最大收購案。

    ?? 收購引發(fā)對OpenAI與其他AI編碼助手競爭關系的擔憂。

    ?? OpenAI縮減轉型計劃,面臨法律挑戰(zhàn)和外界批評。

    10、谷歌Gemini聊天機器人全新升級:支持多圖上傳和圖像編輯功能

    谷歌的Gemini聊天機器人最近進行了重要的更新,新增了多圖上傳和AI圖像編輯功能。該更新目前已向部分用戶開放,允許在網頁端同時上傳多張圖片,并對AI生成的圖像進行編輯。盡管這些功能尚未在所有賬戶中完全開放,但它們?yōu)橛脩籼峁┝烁蟮膭?chuàng)作靈活性,提升了整體用戶體驗。

    image.png

    【AiBase提要:】

    ??? 新增多圖上傳功能,部分用戶已可同時上傳多張圖片。

    ?? 引入AI圖像編輯功能,用戶可更改背景和替換物體。

    ?? 用戶需遵循谷歌使用條款,確保合規(guī)性。

    11、ChatGPT 訪問量激增,4月總計達47.86億次、首次超越 X

    根據Similarweb發(fā)布的2025年4月網站流量報告,ChatGPT的訪問量達到了47.86億次,首次超過社交媒體平臺X的40.28億次,顯示出生成式AI工具的快速普及。ChatGPT在工作日的訪問量接近2億次,反映出其作為生產力工具的廣泛應用。

    【AiBase提要:】

    ?? ChatGPT在2025年4月的訪問量達47.86億次,首次超過社交媒體平臺X的40.28億次。

    ?? 工作日訪問量接近2億次,表明ChatGPT作為生產力工具的廣泛應用。

    ?? ChatGPT的用戶基礎在全球范圍內持續(xù)擴大,尤其是在移動端的強勁增長。

    12、Excel MCP Server上線 可通過Claude等客戶端直接操作Excel文件

    Excel MCP Server是一款開源工具,基于模型上下文協(xié)議(MCP)開發(fā),允許用戶通過AI助手直接操作Excel文件,無需安裝微軟Excel軟件。該工具功能強大,支持創(chuàng)建、讀取、修改Excel數據,生成圖表和透視表,極大地方便了用戶的表格處理工作。

    Excel MCP Server 這款 MCP 服務器頗為實用,通過 AI 助手直接操作 Excel.jpg

    【AiBase提要:】

    ??? Excel MCP Server允許用戶通過AI助手直接操作Excel,無需安裝微軟Excel軟件。

    ?? 該工具支持創(chuàng)建、讀取、修改Excel數據,生成圖表和透視表,功能全面。

    ?? 作為開源項目,Excel MCP Server促進了社區(qū)開發(fā),支持多種AI客戶端的無縫集成。

    詳情鏈接:https://top.aibase.com/tool/excel-mcp-server

    13、Claude 移動應用即將推出語音模式,支持多種聲音選項

    Claude 移動應用即將進行重要升級,推出備受期待的語音模式功能。該模式采用推按式對話,支持多種聲音選項,并具備網頁搜索能力,搜索結果以要點形式呈現(xiàn),便于用戶理解和跟進。此外,用戶可以上傳文件作為上下文參考,提升了交互體驗。

    image.png

    【AiBase提要:】

    ?? Claude 移動應用即將上線語音模式,采用推按式對話并支持多種聲音選項。

    ?? 語音模式支持網頁搜索,輸出結果以要點形式呈現(xiàn),用戶可方便瀏覽。

    ?? 該功能還支持文件上傳,讓用戶可以在對話中使用圖片或文檔作為上下文參考。

    14、新一代唇形同步工具KeySync發(fā)布:突破表情泄漏與遮擋難題

    KeySync是一款創(chuàng)新的唇形同步工具,成功解決了AI唇形同步中的表情泄漏和嘴部遮擋問題。其獨特的兩階段框架設計使得唇部動作更加自然和精準,適用于影視制作、動畫、虛擬主播等多個領域。KeySync不僅支持高分辨率視頻處理,還能自動生成與音頻匹配的唇部動畫,大幅提升工作效率。

    image.png

    【AiBase提要:】

    ?? KeySync通過創(chuàng)新算法解決了表情泄漏和嘴部遮擋問題,提升了唇形同步的精準性和自然度。

    ?? 該工具支持高分辨率視頻處理,優(yōu)化了時間連貫性,確保唇部動作流暢自然,避免了傳統(tǒng)工具的常見問題。

    ?? KeySync的廣泛應用前景為影視、動畫、虛擬主播等行業(yè)帶來了新的機遇,提升了多語言視頻的質量和制作效率。

    詳情鏈接:https://github.com/antonibigata/keysync

    舉報

    • 相關推薦
    • AI日報:通義千問Qwen3重磅發(fā)布;抖音AI搜索能力開放;ChatGPT 搜索新增網購功能Suno V4.5本將發(fā)布

      本期AI日報重點內容: 1. 通義千問發(fā)布Qwen3大模型,在代碼、數學和通用能力方面表現(xiàn)突出,支持兩種思考模式并開源多個模型權重 2. 抖音開放AI搜索能力接口,為第三方應用提供豐富內容資源 3. ChatGPT新增網購功能,通過對話獲取個性化商品推薦 4. Suno AI即將推出V4.5版本,提升音樂生成真實度 5. Simular AI登陸macOS,打造本地化智能助手 6. 暗月之面開源Kimi-VL模型,可處理文本、圖像和視頻 7. UCLA與Meta推出d1框架,提升大語言模型推理速度 8. 通義靈碼上線Qwen3編程智能體 9. Gen-4References圖像生成技術驚艷亮相 10. Hugging Face推出可編程機械臂SO-101 11. Windsurf推出全新品牌標志 12. Ollama全面支持Qwen3模型本地部署

    • AI日報:阿里新模型Qwen3即將來襲;GitHub開源MCP服務器;Runway發(fā)布Gen-4 Turbo

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布,標志著其在AI領域的又一重要進展。新推出的AI聽歌報告能夠精準識別用戶音樂偏好,場景

    • 國行版iPhone即將變身AI手機:iOS 18.5正式版已在路上

      蘋果將于5月推送iOS 18.5正式版,為國行版iPhone帶來Apple智能功能。該AI系統(tǒng)提供照片編輯、通知摘要、自然語言搜索等智能化服務,目前僅支持iPhone 15 Pro系列及iPhone 16全系機型。升級需預留7GB存儲空間。蘋果在AI領域起步較晚,面臨銷量增長放緩壓力,需向投資者證明其技術實力。此次更新被視為蘋果在AI領域的重要布局,但老機型用戶無法體驗新功能。

    • AI日報:騰訊混元3D生成模型2.5版本發(fā)布;海螺推出圖像人物參考功能;百度上線移動端超級智能體心響App

      本文介紹了多款AI領域的新產品和技術進展:1)Kortix-AI推出開源通用AI智能體平臺Suna;2)騰訊混元3D生成模型升級至2.5版本;3)海螺AI推出基于單張圖像生成多角度角色圖像功能;4)百度發(fā)布"心響"App整合多智能體協(xié)作;5)Nari Labs開源媲美真人的對話語音模型Dia;6)Grok新增視覺處理和多語言支持;7)Genspark推出AI幻燈片工具;8)Character.AI發(fā)布讓靜態(tài)圖片"說話"的AvatarFX模型;9)pad.ws結合白板和代碼編輯器;10)OpenBMB開源社區(qū)推出長文本生成模型"卷姬";11)騰訊推出AI閱讀助手"企鵝讀伴";12)OpenAI有意收購Chrome瀏覽器;13)字節(jié)跳動調整AI產品線布局。這些創(chuàng)新展現(xiàn)了AI技術在自動化、3D生成、語音交互、內容創(chuàng)作等領域的快速發(fā)展。

    • AI日報:字節(jié)發(fā)布豆包1.5深度思考模型;微信首個AI助手 “元寶” 上線;OpenAI發(fā)布o4-mini、滿血o3

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3,這兩款模型具備同時處理文本、圖像和音頻的能力,并能調用外部工?

    • AI日報:ChatGPT重磅上線圖像功能;白嫖!Veo2登陸谷歌AI Studio;螞蟻百寶箱推“MCP專區(qū)”

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、報道稱字節(jié)跳動整合 AI 研發(fā)團隊,AI Lab 即將并入 Seed字節(jié)跳動正在進行AI研發(fā)團隊的整合,將獨立的字節(jié)AI Lab并入Seed團隊。這一舉措體現(xiàn)了字節(jié)在AI領域戰(zhàn)略布局的調整,旨在進?

    • AI日報:Vidu Q1正式上線;MCP SDK 正式支持流式 HTTP;抖音一季度封禁AI黑產賬號260萬個

      本文介紹了AI領域多項重要進展:1)MCP SDK支持流式HTTP協(xié)議,提升開發(fā)效率;2)Vidu Q1視頻生成模型上線,提供專業(yè)級視覺體驗;3)馬斯克計劃籌資250億美元開發(fā)Colossus 2超級計算機;4)Sand AI開源MAGI-1視頻生成模型;5)電商AI助手Add To Cart AI優(yōu)化購物體驗;6)Anthropic發(fā)布Claude Code編程指南;7)真我推出支持32種語言的AI翻譯耳機;8)2025年AI視頻企業(yè)TOP20榜單發(fā)布;9)清華GLM大模型免費開放;10)AI面試作弊工具引爭議;11)抖音AI治理封禁260萬違規(guī)賬號;12)全球首款具備嗅覺的機器人問世。這些創(chuàng)新展示了AI技術在視頻生成、編程輔助、電商、翻譯等領域的快速發(fā)展與應用潛力。

    • AI日報:OpenAI下周或發(fā)布GPT-4.1系列;Pika全新AI視頻功能Twists;商湯科技日日新V6震撼發(fā)布

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、報道稱OpenAI下周重磅發(fā)布GPT-4.1系列,包含Mini版和Nano版OpenAI即將發(fā)布GPT-4.1系列及o3系列,標志著其在多模態(tài)和推理能力上的重大進展。新加坡在AI技能學習上投入的時間顯著高于其他亞太國家,顯示出其在AI人才培養(yǎng)方面的競爭力。

    • 蘋果聯(lián)手阿里百度 國行版iPhone AI來了!年中前上市

      蘋果正積極推進在國行版iPhone上引入AI功能的計劃,預計這一目標將在2025年中期之前實現(xiàn)。蘋果最快計劃在iOS18.5版本中推出專為中國市場打造的AppleIntelligence功能。中國版AppleIntelligence還會安裝由阿里巴巴支持的審查引擎,確保AI生成的內容符合中國的本地法規(guī)要求。

    • AI日報:kimi宣布降價;OpenRouter發(fā)布免費模型Quasar Alpha;Midjourney V7重磅上線

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、IDC:到2028年中國人工智能投資將突破1000億美元根據國際數據公司的預測,中國在人工智能領域的投資將顯著增長,預計到2028年總投資將突破1000億美元,年均復合增長率達到35.2%。