歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。
新鮮AI產品點擊了解:https://top.aibase.com/
1、英偉達全新開源自動語音識別模型 Parakeet-TDT-0.6B-V2,語音轉錄能力再提升
英偉達推出的Parakeet-TDT-0.6B-V2模型在自動語音識別領域取得了顯著進展。該模型結合開源理念與商業(yè)應用,提升了轉錄效率,能夠在一秒內完成60分鐘音頻的轉錄,且其詞錯誤率接近市場領先水平。通過支持多種開發(fā)環(huán)境及優(yōu)化多款GPU硬件,該模型為開發(fā)者提供了強大的工具,助力多樣化的語音應用場景。
【AiBase提要:】
? 超強轉錄能力:該模型能在一秒內完成60分鐘音頻的轉錄,顯著提高語音處理速度。
?? 技術參數:擁有6億個參數,結合FastConformer編碼器和TDT解碼器,詞錯誤率僅為6.05%。
?? 廣泛應用場景:支持多種應用,包括轉錄服務、語音助手等,兼容Python和PyTorch等開發(fā)環(huán)境。
詳情鏈接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
2、Suno v4.5正式上線,僅限付費用戶使用,生成歌曲延長至8分鐘
Suno音樂生成平臺推出了其最新模型v4.5,專為Pro和Premier付費用戶設計,顯著提升了音質、風格多樣性和用戶體驗。新版本支持更廣泛的音樂風格,增強了聲線表現(xiàn)和音效層次,同時延長了歌曲生成時長至8分鐘。盡管部分用戶對付費限制表示遺憾,但也有人認為這一創(chuàng)新值得訂閱。
【AiBase提要:】
?? v4.5支持更廣泛的音樂風格,具備智能混搭能力,提升創(chuàng)作自由度。
?? 聲線表現(xiàn)更為飽滿,情感表達精準,音域和情感深度顯著提升。
? 歌曲生成時長從4分鐘擴展至8分鐘,用戶可創(chuàng)作更長的音樂作品。
3、Runway發(fā)布圖像一致性參考功能 Gen-4References 支持提取人物、場景或風格特征及多圖混合
Runway最近推出的Gen-4References功能為其AI視頻生成模型增添了圖像一致性參考能力,使創(chuàng)作者能夠通過上傳參考圖像來提取人物、場景或風格特征,從而在生成內容中保持高度一致性。這一功能支持多張圖像的混合生成,為視頻創(chuàng)作提供了更大的控制力與創(chuàng)意自由,極大地簡化了設計流程,推動了AI在影視制作領域的應用。
【AiBase提要:】
??? Gen-4References允許用戶上傳多張參考圖像,確保生成內容在不同場景中的一致性。
?? 該功能支持從電影制作到廣告設計等多種創(chuàng)作場景,提升了視覺連貫性。
?? Runway計劃進一步增強該功能,推動AI視頻生成技術的成熟與應用。
4、Midjourney V7推出全新功能 “Omni-Reference”,讓圖像生成更靈活
Midjourney最近推出的“Omni-Reference”功能為圖像生成帶來了革命性的變化。它允許用戶對圖像元素進行精確控制,支持多種對象生成和靈活的權重調整,從而提升創(chuàng)作的自由度和一致性。此功能不僅適用于藝術創(chuàng)作,還能在游戲開發(fā)、廣告設計等多個領域發(fā)揮重要作用,展示出廣泛的應用潛力。
【AiBase提要:】
?? Omni-Reference功能提供精準的圖像元素控制,用戶可上傳參考圖像以生成高度匹配的結果。
?? 支持多種對象生成,用戶可以在單張圖像中包含多個對象,適合復雜場景的創(chuàng)作。
?? 通過動態(tài)權重調整,用戶可控制參考圖像的影響強度,確保細節(jié)的一致性與風格的靈活性。
5、Claude AI將升級:網頁版醞釀支持MCP定制鏈接
近日,科技媒體TestingCatalog報道,Anthropic旗下的Claude網頁應用將通過引入Model Context Protocol(MCP)進行重大升級。這一新協(xié)議旨在打破Claude在谷歌服務方面的限制,預計將為用戶提供更靈活的使用體驗。MCP作為一種開放標準,將簡化大型語言模型與外部數據源和工具之間的通信,提升AI助手的集成能力。
【AiBase提要:】
?? 預計Claude AI將通過MCP標準實現(xiàn)更靈活的第三方服務集成。
?? MCP標準如同“USB-C接口”,將簡化AI與外部工具的連接方式。
?? 用戶可通過網頁直接訪問第三方工具,提升工作效率,降低本地部署需求。
6、iOS18.6或為中國用戶啟用AI功能 國行蘋果AI或由阿里百度技術支持
蘋果AI將在iOS18.6系統(tǒng)中首次啟用部分功能,背后有阿里巴巴和百度的技術支持。由于政策限制,海外大模型無法在中國提供服務,百度的文心一言大模型將成為國行版蘋果AI的核心引擎。同時,為確保內容合規(guī),蘋果引入阿里巴巴的審查機制。
【AiBase提要:】
??? 蘋果AI將在iOS18.6中首次啟用,背后有阿里和百度的技術支持。
?? 百度的文心一言大模型將作為國行版蘋果AI的核心智能引擎。
?? 阿里巴巴將提供審查機制,確保AI生成內容符合國內法規(guī)要求。
7、OpenAI 重返非營利模式,終止營利性實體控制機制
OpenAI 宣布重返非營利模式,結束營利性實體的控制,重組為公益公司。這一變動回應了外界對其商業(yè)化的擔憂,尤其是來自埃隆·馬斯克的批評。新的治理結構將確保社會效益透明,同時允許繼續(xù)吸引風險投資。OpenAI 計劃利用這一模式成為全球最大的慈善實體之一,預計2024年營收將突破20億美元。
【AiBase提要:】
?? OpenAI 宣布重返非營利模式,終止營利性實體控制機制。
?? 新設公益公司仍在非營利組織監(jiān)督下,目標成為全球最大慈善實體之一。
?? 調整后的架構將確保社會效益指標的透明度,同時保持商業(yè)運作空間。
8、Freepik 發(fā)布“F Lite”:一個為版權安全而構建的開放 AI 圖像模型
Freepik最近推出了其文本到圖像生成模型“F Lite”,旨在為因版權問題而備受爭議的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商業(yè)授權圖像庫進行訓練,擁有約100億個參數。盡管在生成插圖和矢量風格作品方面表現(xiàn)出色,但在生成照片級逼真圖像時仍存在不足。
【AiBase提要:】
??? F Lite是Freepik推出的文本到圖像生成模型,旨在提供版權安全的替代方案。
?? 該模型基于Freepik自有圖像庫訓練,擁有約100億個參數,強調合法審查數據的重要性。
?? 盡管在插圖生成方面表現(xiàn)優(yōu)異,但F Lite在生成照片級圖像時仍面臨細節(jié)缺失等挑戰(zhàn)。
9、OpenAI同意以30億美元收購AI編碼助Windsurf
OpenAI近期宣布以約30億美元收購人工智能編碼助手Windsurf,此交易是其迄今為止最大的一筆收購,顯示出其在AI領域的雄心和實力。Windsurf的技術在開發(fā)者社區(qū)中備受推崇,此次收購可能會引發(fā)行業(yè)內的廣泛討論,尤其是在OpenAI與其他AI編碼助手之間的競爭關系上。
【AiBase提要:】
?? OpenAI以約30億美元收購人工智能編碼助手Windsurf,標志著其最大收購案。
?? 收購引發(fā)對OpenAI與其他AI編碼助手競爭關系的擔憂。
?? OpenAI縮減轉型計劃,面臨法律挑戰(zhàn)和外界批評。
10、谷歌Gemini聊天機器人全新升級:支持多圖上傳和圖像編輯功能
谷歌的Gemini聊天機器人最近進行了重要的更新,新增了多圖上傳和AI圖像編輯功能。該更新目前已向部分用戶開放,允許在網頁端同時上傳多張圖片,并對AI生成的圖像進行編輯。盡管這些功能尚未在所有賬戶中完全開放,但它們?yōu)橛脩籼峁┝烁蟮膭?chuàng)作靈活性,提升了整體用戶體驗。
【AiBase提要:】
??? 新增多圖上傳功能,部分用戶已可同時上傳多張圖片。
?? 引入AI圖像編輯功能,用戶可更改背景和替換物體。
?? 用戶需遵循谷歌使用條款,確保合規(guī)性。
11、ChatGPT 訪問量激增,4月總計達47.86億次、首次超越 X
根據Similarweb發(fā)布的2025年4月網站流量報告,ChatGPT的訪問量達到了47.86億次,首次超過社交媒體平臺X的40.28億次,顯示出生成式AI工具的快速普及。ChatGPT在工作日的訪問量接近2億次,反映出其作為生產力工具的廣泛應用。
【AiBase提要:】
?? ChatGPT在2025年4月的訪問量達47.86億次,首次超過社交媒體平臺X的40.28億次。
?? 工作日訪問量接近2億次,表明ChatGPT作為生產力工具的廣泛應用。
?? ChatGPT的用戶基礎在全球范圍內持續(xù)擴大,尤其是在移動端的強勁增長。
12、Excel MCP Server上線 可通過Claude等客戶端直接操作Excel文件
Excel MCP Server是一款開源工具,基于模型上下文協(xié)議(MCP)開發(fā),允許用戶通過AI助手直接操作Excel文件,無需安裝微軟Excel軟件。該工具功能強大,支持創(chuàng)建、讀取、修改Excel數據,生成圖表和透視表,極大地方便了用戶的表格處理工作。
【AiBase提要:】
??? Excel MCP Server允許用戶通過AI助手直接操作Excel,無需安裝微軟Excel軟件。
?? 該工具支持創(chuàng)建、讀取、修改Excel數據,生成圖表和透視表,功能全面。
?? 作為開源項目,Excel MCP Server促進了社區(qū)開發(fā),支持多種AI客戶端的無縫集成。
詳情鏈接:https://top.aibase.com/tool/excel-mcp-server
13、Claude 移動應用即將推出語音模式,支持多種聲音選項
Claude 移動應用即將進行重要升級,推出備受期待的語音模式功能。該模式采用推按式對話,支持多種聲音選項,并具備網頁搜索能力,搜索結果以要點形式呈現(xiàn),便于用戶理解和跟進。此外,用戶可以上傳文件作為上下文參考,提升了交互體驗。
【AiBase提要:】
?? Claude 移動應用即將上線語音模式,采用推按式對話并支持多種聲音選項。
?? 語音模式支持網頁搜索,輸出結果以要點形式呈現(xiàn),用戶可方便瀏覽。
?? 該功能還支持文件上傳,讓用戶可以在對話中使用圖片或文檔作為上下文參考。
14、新一代唇形同步工具KeySync發(fā)布:突破表情泄漏與遮擋難題
KeySync是一款創(chuàng)新的唇形同步工具,成功解決了AI唇形同步中的表情泄漏和嘴部遮擋問題。其獨特的兩階段框架設計使得唇部動作更加自然和精準,適用于影視制作、動畫、虛擬主播等多個領域。KeySync不僅支持高分辨率視頻處理,還能自動生成與音頻匹配的唇部動畫,大幅提升工作效率。
【AiBase提要:】
?? KeySync通過創(chuàng)新算法解決了表情泄漏和嘴部遮擋問題,提升了唇形同步的精準性和自然度。
?? 該工具支持高分辨率視頻處理,優(yōu)化了時間連貫性,確保唇部動作流暢自然,避免了傳統(tǒng)工具的常見問題。
?? KeySync的廣泛應用前景為影視、動畫、虛擬主播等行業(yè)帶來了新的機遇,提升了多語言視頻的質量和制作效率。
詳情鏈接:https://github.com/antonibigata/keysync
(舉報)