11.11云上盛惠!海量產品 · 輕松上云!云服務器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、可靈AIAPI對口型能力全面開放、虛擬試穿升級至V1.5模型北京快手科技有限公司近日宣布可靈AIAPI完成新一輪升級,主要在虛擬試穿和對口型功能上取得顯著進展。Run:ai的軟件能夠?
浙大、騰訊優(yōu)圖、華中科技大學的團隊,提出輕量化MobileMamba!既良好地平衡了效率與效果,推理速度遠超現(xiàn)有基于Mamba的模型。輕量化模型研究的主陣地都在CNN和Transformer的設計。MobileMamba通過在不同F(xiàn)LOPs大小的模型上采用訓練和測試策略,顯著提升了性能和效率。
微軟AzureAI團隊宣布開源視覺模型——Florence-2。Florence-2是一個多功能視覺模型,可提供圖像描述、目標檢測、視覺定位、圖像分割等。尤其是在微調后,F(xiàn)lorence-2在公共基準測試中的性能與更大參數(shù)的專業(yè)模型相媲美。
【新智元導讀】當前的視覺模型哪個更好?Meta團隊最新一波研究來了。如何根據(jù)特定需求選擇視覺模型?ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指標上如何相互比較?來自MABZUAI和Meta的研究人員發(fā)表的最新研究,在「非標準」指標上全面比較了常見的視覺模型。-CLIP模型具有較高的形狀偏差,與其ImageNet精度相比,分類錯誤較少。
蘋果公司的研究者通過自回歸圖像模型驗證了視覺模型“參數(shù)越多性能越強”的規(guī)律,進一步證明隨著容量或預訓練數(shù)據(jù)量的增加,模型能不斷提升性能。AIM能有效利用大量未經整理的圖像數(shù)據(jù),訓練方法和穩(wěn)定性與最近的大型語言模型類似。對未來圖像模型性能提升和優(yōu)化提供了新的研究方向和思路。
GPT-4V的開源替代方案在中國的頂尖學府清華、浙大等的推動下,出現(xiàn)了一系列性能優(yōu)異的開源視覺模型。LLaVA、CogAgent和BakLLaVA是三種備受關注的開源視覺語言模型。雖然BakLLaVA在訓練過程中使用了LLaVA的語料庫,不允許商用,但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構,超越了當前的LLaVA方法,具備商用能力。
最近,在Pytorch發(fā)布會上,發(fā)布移動端Pytorch解決方案ExecuTorch,實現(xiàn)在移動端設備上大范圍地部署AI工具,并推出最新版本Pytorch2.1,推理速度大幅提升。在剛剛召開的PyTorch大會上,PyTorch發(fā)布了一大波更新,把深度學習從業(yè)者們高興壞了!正式推出ExecuTorch。下面是最新穩(wěn)定版本和更新的列表。
Roboflow推理服務器是一個易于使用的、面向生產環(huán)境的推理服務器,支持多種流行的計算機視覺模型架構和微調后的模型部署。它可以在各種設備和環(huán)境上部署,無需機器學習的先驗知識。它是一個部署和管理視覺AI模型非常方便的工具。
如果你只需要訓練一個線性層,就能拿將純視覺模型轉變?yōu)榫邆湔Z言理解能力的視覺語言模型,結果會怎樣?有研究人員想到了這個辦法。研究人員通過使用沒有文本監(jiān)督訓練的現(xiàn)成視覺編碼器來將文本映射到概念向量,以便直接比較單詞和圖像的表示。他們的簡單方法在92%的測試中都取得了成功。
+++Meta+AI+Research+發(fā)布了+DINOv2+開源項目,這是一款用于計算機視覺任務的基礎模型。DINOv2+在一個由+1.42+億張圖像構成的篩選數(shù)據(jù)集上進行了預訓練,可用作圖像分類、視頻動作識別、語義分割和深度估計等多個任務的骨干模型。該項目站點托管了使用+DINOv2+的多個計算機視覺任務的交互式演示。