歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/
1、Anthropic宣布Claude 3 Haiku支持微調(diào)
Anthropic宣布用戶現(xiàn)在可以在Amazon Bedrock中微調(diào)最新模型Claude 3 Haiku,提高模型在特定任務(wù)上的效果。微調(diào)功能使用戶能根據(jù)業(yè)務(wù)需求定制模型知識(shí)和能力,帶來(lái)諸多好處。
【AiBase提要:】
??? 用戶可以通過(guò)高質(zhì)量的提示-完成對(duì)進(jìn)行微調(diào),提升模型的專業(yè)能力。
? Claude 3 Haiku是最快和最具成本效益的模型,適合專門(mén)任務(wù)使用。
?? 客戶的專有訓(xùn)練數(shù)據(jù)保持在AWS環(huán)境內(nèi),確保安全性和低風(fēng)險(xiǎn)。
詳情鏈接:https://aws.amazon.com/cn/bedrock/claude/
2、Heygen推對(duì)口型工具 上傳照片+音頻即可說(shuō)話、唱歌
最近,AI照片“復(fù)活術(shù)”在網(wǎng)絡(luò)上掀起波瀾,Heygen推出對(duì)口型工具,讓照片中人物根據(jù)音頻內(nèi)容說(shuō)話、唱歌,支持長(zhǎng)達(dá)20秒音頻,唇形與表情同步。Heygen融資5億美元,由Benchmark領(lǐng)投,發(fā)展勢(shì)頭強(qiáng)勁。中國(guó)區(qū)用戶受限制,令部分用戶失望。Heygen利用生成式AI技術(shù)制作影片,已籌集7400萬(wàn)美元。
【AiBase提要:】
?? Heygen推出對(duì)口型工具,讓照片中人物根據(jù)音頻內(nèi)容說(shuō)話、唱歌,支持長(zhǎng)達(dá)20秒音頻。
?? Heygen融資5億美元,由Benchmark領(lǐng)投,發(fā)展勢(shì)頭強(qiáng)勁。
?? 中國(guó)區(qū)用戶受限制,令部分用戶失望。Heygen利用生成式AI技術(shù)制作影片,已籌集7400萬(wàn)美元。
詳情鏈接:https://labs.heygen.com/guest/expressive-photo-avatar
3、百度飛槳PaddleOCR發(fā)布v2.8.0新版本
PaddleOCR v2.8.0作為飛槳深度學(xué)習(xí)開(kāi)源框架下的文字識(shí)別開(kāi)發(fā)套件,發(fā)布了里程碑式的更新。這個(gè)版本引入了前沿的OCR技術(shù),包括PaddleOCR算法模型挑戰(zhàn)賽的冠軍方案,如場(chǎng)景文本識(shí)別算法SVTRv2和表格識(shí)別算法SLANet-LCNetV2,為OCR領(lǐng)域樹(shù)立了新的標(biāo)準(zhǔn)。項(xiàng)目結(jié)構(gòu)經(jīng)過(guò)深度優(yōu)化,非核心模塊被遷移至新倉(cāng)庫(kù),使項(xiàng)目更專注于OCR核心技術(shù)。新版本解決了歷史疑難問(wèn)題,提升了用戶體驗(yàn),增強(qiáng)了穩(wěn)定性、兼容性和性能。
【AiBase提要:】
?? PaddleOCR v2.8.0引入了前沿的OCR技術(shù),包括SVTRv2和SLANet-LCNetV2,樹(shù)立了OCR領(lǐng)域新標(biāo)準(zhǔn)。
?? 項(xiàng)目結(jié)構(gòu)優(yōu)化,非核心模塊遷移至新倉(cāng)庫(kù),專注于OCR核心技術(shù)。
?? 新版本解決歷史疑難問(wèn)題,提升用戶體驗(yàn),增強(qiáng)穩(wěn)定性、兼容性和性能。
詳情鏈接:https://github.com/PaddlePaddle/PaddleOCR
4、百度稱蘿卜快跑安全水平接近C919飛機(jī)
蘿卜快跑公司推出第六代無(wú)人車(chē),成功接入百度ApolloADFM大模型,安全性超過(guò)人類駕駛員10倍以上。百度對(duì)無(wú)人車(chē)安全性充滿信心,每輛車(chē)及乘客投保500萬(wàn)元保險(xiǎn)。運(yùn)行數(shù)據(jù)顯示出險(xiǎn)率僅為人類司機(jī)的1/14,安全性表現(xiàn)卓越。百度Apollo自動(dòng)駕駛技術(shù)已行駛超過(guò)1億公里,無(wú)重大傷亡事故,成功實(shí)現(xiàn)武漢全域、全時(shí)空自動(dòng)駕駛服務(wù)覆蓋。
【AiBase提要:】
?? 無(wú)人車(chē)安全性超過(guò)人類駕駛員10倍以上
?? 每輛車(chē)及乘客投保500萬(wàn)元保險(xiǎn)
??? 運(yùn)行數(shù)據(jù)顯示出險(xiǎn)率僅為人類司機(jī)的1/14
5、智譜AI宣布開(kāi)源視頻理解模型CogVLM2-Video
智譜AI最新開(kāi)源的CogVLM2-Video模型在視頻理解領(lǐng)域取得顯著進(jìn)展,通過(guò)解決時(shí)間信息丟失問(wèn)題,實(shí)現(xiàn)了優(yōu)異的性能表現(xiàn)。該模型不僅在視頻字幕生成和時(shí)間定位方面表現(xiàn)出色,還為視頻生成和摘要等任務(wù)提供了強(qiáng)大工具。通過(guò)自動(dòng)生成豐富的時(shí)間定位數(shù)據(jù)集,模型在公共視頻理解基準(zhǔn)上達(dá)到最新性能,展現(xiàn)出卓越的性能。
【AiBase提要:】
? CogVLM2-Video通過(guò)引入多幀視頻圖像和時(shí)間戳作為編碼器輸入,解決了現(xiàn)有視頻理解模型在處理時(shí)間信息丟失問(wèn)題上的局限。
?? 模型利用自動(dòng)化的時(shí)間定位數(shù)據(jù)構(gòu)建方法,生成了3萬(wàn)條與時(shí)間相關(guān)的視頻問(wèn)答數(shù)據(jù),為訓(xùn)練提供豐富的時(shí)間定位數(shù)據(jù)。
?? CogVLM2-Video在多個(gè)公開(kāi)評(píng)測(cè)集上展現(xiàn)了卓越性能,包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化評(píng)估指標(biāo)上的優(yōu)異表現(xiàn)。
詳情鏈接:https://github.com/THUDM/CogVLM2
6、騰訊AI實(shí)驗(yàn)室的項(xiàng)目vta-ldm:輸入視頻生成對(duì)齊音頻
隨著文本到視頻生成技術(shù)的進(jìn)步,研究者們關(guān)注如何生成與視頻輸入在語(yǔ)義和時(shí)間上對(duì)齊的音頻內(nèi)容。騰訊AI實(shí)驗(yàn)室推出VTA-LDM模型,通過(guò)隱含對(duì)齊技術(shù)提供高效音頻生成解決方案,拓展視頻生成應(yīng)用場(chǎng)景。
【AiBase提要:】
?? 研究聚焦于生成與視頻輸入在語(yǔ)義和時(shí)間上對(duì)齊的音頻內(nèi)容。
?? 探討了視覺(jué)編碼器、輔助嵌入和數(shù)據(jù)增強(qiáng)技術(shù)的重要性。
?? 實(shí)驗(yàn)結(jié)果顯示模型在視頻到音頻生成領(lǐng)域達(dá)到先進(jìn)水平,推動(dòng)相關(guān)技術(shù)發(fā)展。
詳情鏈接:https://top.aibase.com/tool/vta-ldmVTA-LDM
7、GPT-4o和Sonnet-3.5在視力測(cè)試中敗北,VLM們竟是“盲人”?
這篇文章揭示了視覺(jué)語(yǔ)言模型(VLMs)在圖像處理能力上的局限性,通過(guò)BlindTest測(cè)試發(fā)現(xiàn)它們并非像人類一樣能準(zhǔn)確理解圖像細(xì)節(jié)。文章呼吁對(duì)VLMs的視覺(jué)理解能力持謹(jǐn)慎態(tài)度,警示AI并未達(dá)到完全替代人類的水平。
【AiBase提要:】
?? VLMs在BlindTest測(cè)試中表現(xiàn)不佳,平均準(zhǔn)確率僅56.20%
?? VLMs處理圖像時(shí)缺乏精確的空間信息,難以判斷圖形重疊或相交
?? VLMs在數(shù)數(shù)時(shí)存在偏好,對(duì)數(shù)字5特別熟悉,表現(xiàn)不穩(wěn)定
論文地址:https://arxiv.org/pdf/2407.06581
文章詳細(xì)內(nèi)容:http://vquan.org.cn/ainews/10186.shtml
8、商湯科技發(fā)布「東風(fēng)」泰語(yǔ)大模型
商湯科技與泰國(guó)DTGO集團(tuán)及Quinnnova聯(lián)合發(fā)布了名為「東風(fēng)」的泰語(yǔ)大模型(DTLM),這是全球首個(gè)能夠在泰文、中文、英文三種語(yǔ)言環(huán)境下高效工作的AI大語(yǔ)言模型。該模型結(jié)合了商湯的基模型和算力優(yōu)勢(shì)以及DTGO對(duì)泰國(guó)語(yǔ)言文化的深入了解,旨在提供本地化的生成式AI體驗(yàn)。
【AiBase提要:】
?? 「東風(fēng)」是全球首個(gè)能夠在泰文、中文、英文三種語(yǔ)言環(huán)境下高效工作的AI大語(yǔ)言模型。
?? 模型結(jié)合了商湯的基模型和算力優(yōu)勢(shì)以及DTGO對(duì)泰國(guó)語(yǔ)言文化的深入了解,旨在提供本地化的生成式AI體驗(yàn)。
?? 模型將服務(wù)于泰國(guó)的個(gè)人用戶和企業(yè),滿足多語(yǔ)言需求,同時(shí)為當(dāng)?shù)仄髽I(yè)和政府客戶提供創(chuàng)新的AI解決方案,推動(dòng)泰國(guó)AI生態(tài)系統(tǒng)的發(fā)展。
9、三星 Galaxy AI 推出“數(shù)學(xué)輔導(dǎo)”新模式 告訴孩子解題技巧
三星在昨日的Unpacked活動(dòng)上宣布了Galaxy AI的重大進(jìn)展,推出了專為幫助兒童完成家庭作業(yè)而設(shè)計(jì)的AI助手。這一舉措展現(xiàn)了三星在人工智能領(lǐng)域的雄心壯志,為智能手機(jī)市場(chǎng)帶來(lái)新的競(jìng)爭(zhēng)維度,推動(dòng)整個(gè)行業(yè)向更智能、更有教育價(jià)值的方向發(fā)展。
【AiBase提要:】
?? 三星發(fā)布Galaxy AI,覆蓋高達(dá)2億臺(tái)設(shè)備,展現(xiàn)雄心壯志。
?? 家庭作業(yè)助手基于Galaxy AI的“圓圈搜索”功能,引導(dǎo)孩子完成問(wèn)題解決過(guò)程。
?? 家庭作業(yè)助手提供數(shù)學(xué)問(wèn)題解決,培養(yǎng)孩子獨(dú)立思考能力。
10、三家歐洲汽車(chē)制造商將集成ChatGPT功能 提升駕駛體驗(yàn)
Stellantis旗下的法國(guó)標(biāo)致、德國(guó)歐寶和英國(guó)沃克斯豪爾將整合ChatGPT人工智能技術(shù),通過(guò)SoundHound的ChatAI系統(tǒng)提供語(yǔ)音助手功能,改善駕駛體驗(yàn)。這一合作標(biāo)志著汽車(chē)科技的發(fā)展,將帶來(lái)更自然、流暢的駕駛交互體驗(yàn)。
【AiBase提要:】
?? Stellantis旗下Peugeot、Opel和Vauxhall將集成ChatGPT人工智能技術(shù),提升汽車(chē)產(chǎn)品功能。
?? 跨越17個(gè)國(guó)家,支持12種語(yǔ)言的語(yǔ)音助手系統(tǒng),為更多駕駛者提供便利。
?? SoundHound的ChatAI將帶來(lái)更自然的駕駛交互體驗(yàn),推動(dòng)汽車(chē)科技發(fā)展。
11、谷歌正通過(guò)Gemini AI訓(xùn)練機(jī)器人,提高導(dǎo)航和任務(wù)完成能力
谷歌正在利用Gemini AI訓(xùn)練機(jī)器人,提高其導(dǎo)航和任務(wù)完成能力。通過(guò)Gemini1.5Pro,機(jī)器人可以執(zhí)行自然語(yǔ)言指令,計(jì)劃執(zhí)行超出導(dǎo)航范圍的任務(wù)。研究表明,Gemini讓機(jī)器人成功執(zhí)行用戶指令的成功率高達(dá)90%。盡管處理指令需要一定時(shí)間,但這些機(jī)器人有望幫助人們完成各種任務(wù),如找到遺失物品。
【AiBase提要:】
?? Gemini AI訓(xùn)練機(jī)器人,提高導(dǎo)航和任務(wù)完成能力
?? Gemini1.5Pro讓機(jī)器人執(zhí)行自然語(yǔ)言指令
?? 研究發(fā)現(xiàn)Gemini讓機(jī)器人能夠計(jì)劃執(zhí)行超出導(dǎo)航范圍的指令
12、OpenAI首次披露AGI評(píng)估標(biāo)準(zhǔn):ChatGPT僅為第一級(jí)
OpenAI公司公布了內(nèi)部量表,用于追蹤其大型語(yǔ)言模型在通用人工智能(AGI)方面的進(jìn)展,展示了其在AGI領(lǐng)域的雄心。該舉措為業(yè)界提供了衡量AI發(fā)展的新標(biāo)準(zhǔn),引發(fā)了對(duì)AI安全和倫理的擔(dān)憂。
【AiBase提要:】
?? OpenAI創(chuàng)建AGI評(píng)估標(biāo)準(zhǔn),展示雄心
?? 量表分為五級(jí),包括能創(chuàng)造新創(chuàng)新的AI和執(zhí)行整個(gè)組織工作的AI
? 專家對(duì)AGI實(shí)現(xiàn)時(shí)間表存在分歧,OpenAI與洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室合作探索AI在生物科學(xué)研究中的應(yīng)用
(舉報(bào))