无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > Grok-1.5Vision最新資訊  > 正文

    馬斯克XAI發(fā)布Grok-1.5 Vision 多模態(tài)模型 可處理文本和圖片信息

    2024-04-15 14:07 · 稿源:站長之家

    站長之家(ChinaZ.com)4月15日 消息:在人工智能領(lǐng)域,多模態(tài)模型的發(fā)展一直是行業(yè)關(guān)注的焦點(diǎn)。近日,馬斯克X AI公司發(fā)布了其最新的多模態(tài)模型——Grok-1.5Vision,這一模型不僅能夠處理文本信息,還能夠理解和分析各種視覺數(shù)據(jù),如文檔、圖表、截圖和照片,標(biāo)志著公司在人工智能技術(shù)上邁出了重要一步。

    Grok-1.5Vision模型在多項(xiàng)基準(zhǔn)測試中展現(xiàn)了其卓越的性能,與業(yè)界領(lǐng)先的GPT4V模型相比,不僅不相上下,甚至在多個指標(biāo)上實(shí)現(xiàn)了超越。特別值得一提的是,在新推出的RealWorldQA真實(shí)世界物理空間基準(zhǔn)測試中,Grok-1.5Vision模型的表現(xiàn)超越了GPT4V以及其他所有參與測試的模型。

    image.png

    RealWorldQA基準(zhǔn)測試是一項(xiàng)新的評估標(biāo)準(zhǔn),旨在測試多模態(tài)模型對真實(shí)世界物理空間的理解能力。該測試包含了超過700個問題和答案,主要采用來自車輛前攝像頭等實(shí)際環(huán)境中的圖像。Grok-1.5Vision模型在這一測試中的優(yōu)異表現(xiàn),得益于其在多學(xué)科推理和理解文檔、科學(xué)圖表等方面的出色能力。

    此外,Grok-1.5Vision模型在不使用思維鏈提示的情況下,在多個數(shù)據(jù)集上的對比測試中也展現(xiàn)了令人矚目的表現(xiàn)。這表明該模型在處理和理解現(xiàn)實(shí)世界空間方面具有強(qiáng)大的能力,這對于推動人工智能技術(shù)的實(shí)際應(yīng)用具有重要意義。

    馬斯克X AI還提供了應(yīng)用代碼示例,展示了Grok-1.5Vision模型如何將流程圖轉(zhuǎn)化為Python代碼,并執(zhí)行一個簡單的猜數(shù)字游戲。這些示例不僅展示了模型的實(shí)際應(yīng)用潛力,也為開發(fā)者提供了寶貴的參考。

    Grok-1.5Vision模型的發(fā)布,不僅展示了馬斯克X AI在人工智能領(lǐng)域的技術(shù)實(shí)力,也為未來多模態(tài)模型的發(fā)展和應(yīng)用開辟了新的可能性。隨著該模型的進(jìn)一步優(yōu)化和應(yīng)用,我們有理由相信,它將在多個領(lǐng)域發(fā)揮重要作用,推動人工智能技術(shù)向前發(fā)展。

    官網(wǎng)地址:https://top.aibase.com/tool/grok-1-5-vision-preview

    舉報(bào)

    • 相關(guān)推薦
    • 阿里Qwen3發(fā)布馬斯克立刻官宣:下周推出Grok 3.5

      快科技4月29日消息,馬斯克剛剛在社交平臺X上稱,下周將向SuperGrok訂閱者推出Grok 3.5,并將該條信息頂置。據(jù)馬斯克稱,Grok 3.5是第一個能夠準(zhǔn)確回答有關(guān)火箭發(fā)動機(jī)或電化學(xué)技術(shù)問題的人工智能。同時(shí),Grok可以從第一原理推理并得出互聯(lián)網(wǎng)上根本不存在的答案。Grok 3.5被馬斯克旗下的xAI宣傳為全球首個人工智能能從第一性原理推理,生成網(wǎng)絡(luò)上不存在的答案”。而今年2月18日,xAI正式發(fā)布Grok 3,并在兩天后把Grok 3免費(fèi)向所有公眾開放,超越ChatGPT,登頂蘋果應(yīng)用商店免費(fèi)應(yīng)用下載排行榜第一名。馬斯克曾稱Grok 3為地球上最聰明的人工智

    • 馬斯克:下周推出Grok 3.5 能準(zhǔn)確回答火箭相關(guān)問題

      xAI公司宣布其Grok3.5測試版將于下周正式推出,這一消息在技術(shù)社區(qū)引起了廣泛關(guān)注。首批測試版將僅對SuperGrok訂閱用戶開放,訂閱費(fèi)用為每月30美元。據(jù)AIbase了解,Grok3.5在火箭發(fā)動機(jī)和電化學(xué)等領(lǐng)域的精準(zhǔn)技術(shù)解答能力引發(fā)了熱議

    • 可靈AI發(fā)布全新2.0模型:上線多模態(tài)視頻編輯功能

      快科技4月16日消息,據(jù)報(bào)道,可靈AI在北京舉行靈感成真”2.0模型發(fā)布會,正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹,可靈2.0模型在動態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度保持領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。3月27日,全球AI基準(zhǔn)測試機(jī)構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模

    • 多模態(tài)和Agent成為大廠AI的新賽 點(diǎn)

      這是《窄播Weekly》的第52期,本期我們關(guān)注的商業(yè)動態(tài)是:當(dāng)大廠的AI競爭策略開始傾斜向應(yīng)用場景,多模態(tài)能力和代理執(zhí)行成為兩個焦點(diǎn)。大模型落地C端場景的核心,就是讓大模型的能力越來越接近人。沿著這個主旋律,可以劃分出兩個進(jìn)化方向:一個是持續(xù)降低用戶與大模型進(jìn)行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復(fù)雜任務(wù)的能力。前者的實(shí)現(xiàn),需要給到大模型多

    • 多模態(tài)和Agent成為大廠AI的新賽點(diǎn)

      本期《窄播Weekly》聚焦AI大廠競爭策略向應(yīng)用場景傾斜的趨勢,重點(diǎn)分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出,大模型落地的核心在于讓人機(jī)交互更自然,具體表現(xiàn)為:1)通過多模態(tài)技術(shù)降低用戶使用門檻,如阿里夸克新推出的"拍照問夸克"功能;2)通過代理執(zhí)行提升復(fù)雜任務(wù)處理能力,如字節(jié)、百度等推出的通用Agent產(chǎn)品。國內(nèi)外廠商路徑差異明顯:國?

    • 剛剛,商湯發(fā)布第六代大模型:6000億參數(shù)多模態(tài)MoE,中長視頻直接可推理

      現(xiàn)在的國產(chǎn)AI應(yīng)用,一口氣看好幾分鐘的視頻,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就搖身一變成“名偵探”做剖析:它會對整個視頻的內(nèi)容先做一個總結(jié),再按照秒級,對視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認(rèn)為:銀河通用合伙人、大模型負(fù)責(zé)人張直政表示:除此之外,上海交通大學(xué)副教授閆維新對這個問題的看法是:總言之,商湯作為國?

    • 1000萬上下文!新開源多模態(tài)大模型,單個GPU就能運(yùn)行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個大模型領(lǐng)域。僅過了2個月,Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬,整整提升了5倍開啟千萬級時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • UniToken:多模態(tài)AI的“全能選手”,一次編碼搞定文理解與像生成

      復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架,首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼,有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略(視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)),UniToken在多個基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在:1)統(tǒng)一的雙邊視覺編碼

    • 蘋果Siri團(tuán)隊(duì)大換血!Vision Pro班底全面上馬

      蘋果正對Siri團(tuán)隊(duì)進(jìn)行大規(guī)模重組,由新任工程主管Mike Rockwell主導(dǎo)改革。Rockwell從Vision Pro項(xiàng)目調(diào)來核心成員,重組了語音、理解、性能等關(guān)鍵團(tuán)隊(duì)。Vision Pro項(xiàng)目副手Ranjit Desai將負(fù)責(zé)Siri主要工程事務(wù),Olivier Gutknecht接手用戶體驗(yàn)設(shè)計(jì)。此次重組旨在簡化開發(fā)流程,提升Siri功能。蘋果AI/ML團(tuán)隊(duì)此前因管理混亂被員工戲稱為"AI/less"。業(yè)內(nèi)建議蘋果應(yīng)考慮重塑Siri品牌形象,推出全新數(shù)字助手以擺脫負(fù)面評價(jià)。

    • 全球第一個會原創(chuàng)的AI來了!馬斯克Grok 3.5將提供互聯(lián)網(wǎng)上根本不存在的答案

      馬斯克宣布Grok 3.5早期測試版將于下周發(fā)布,該AI模型將采用"第一性原理"推理方式,能準(zhǔn)確回答火箭發(fā)動機(jī)和電化學(xué)技術(shù)等專業(yè)問題。與現(xiàn)有AI依賴網(wǎng)絡(luò)搜索不同,Grok 3.5通過推理模型從頭創(chuàng)建答案,可能提供互聯(lián)網(wǎng)上不存在的獨(dú)特解決方案。馬斯克稱這將是全球首個能"原創(chuàng)"的AI。目前Grok 3下載量已飆升10倍,新版本將面向SuperGrok訂閱者開放。該技術(shù)雖需更高算力成本,但代表了AI推理能力的重大突破。未來幾周將公布更多性能細(xì)節(jié)。