无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 文生圖最新資訊  > 正文

    正交微調(diào)解鎖文本創(chuàng)建逼真圖像新能力 實(shí)現(xiàn)對生成圖像的精確控制

    2024-01-26 10:09 · 稿源:站長之家

    劃重點(diǎn):

    - 研究人員引入正交微調(diào)(OFT)方法,極大地增強(qiáng)了對基于文本的圖像生成模型的控制能力。

    - OFT 使用正交變換方法,保持神經(jīng)元之間的關(guān)系結(jié)構(gòu),確保模型的語義生成能力得到保留。

    - OFT 方法在生成質(zhì)量和效率方面表現(xiàn)出色,具有廣泛的實(shí)際應(yīng)用和影響。

    站長之家(ChinaZ.com)1月26日 消息:一直以來,基于文本的圖像生成技術(shù)一直備受關(guān)注,因?yàn)樗軌蚋鶕?jù)文字描述創(chuàng)建逼真的圖像。這些模型利用復(fù)雜的算法解讀文本并將其轉(zhuǎn)化為視覺內(nèi)容,模擬了人類獨(dú)有的創(chuàng)造力和理解能力。這項(xiàng)技術(shù)在各個領(lǐng)域都具有巨大的潛力,從平面設(shè)計(jì)到虛擬現(xiàn)實(shí),都可以創(chuàng)建與文本輸入相符的復(fù)雜圖像。

    image.png

    在這一領(lǐng)域中的一個關(guān)鍵挑戰(zhàn)是微調(diào)這些模型以實(shí)現(xiàn)對生成圖像的精確控制。模型在保持高保真度圖像生成和對文本提示的細(xì)膩解釋之間往往難以平衡。確保這些模型能夠準(zhǔn)確遵循文本指令并保持其創(chuàng)造性完整性是至關(guān)重要的,特別是在需要特定圖像特征或風(fēng)格的應(yīng)用中。目前,引導(dǎo)這些模型通常涉及調(diào)整網(wǎng)絡(luò)中的神經(jīng)元權(quán)重,可以通過小學(xué)習(xí)率更新或通過重新參數(shù)化神經(jīng)元權(quán)重來實(shí)現(xiàn)。然而,這些技術(shù)往往需要在保留模型預(yù)訓(xùn)練生成性能方面進(jìn)行改進(jìn)。

    來自包括智能系統(tǒng) MPI、劍橋大學(xué)、圖賓根大學(xué)、蒙特利爾大學(xué)、博世人工智能中心和阿蘭圖靈研究所在內(nèi)的多個機(jī)構(gòu)的研究人員介紹了正交微調(diào)(OFT)方法。

    該方法顯著提高了對基于文本的圖像生成模型的控制能力。OFT 采用正交變換方法,著重于保持超球能量(神經(jīng)元之間關(guān)系結(jié)構(gòu)的度量)。這種方法確保了模型的語義生成能力得到保留,從而實(shí)現(xiàn)更準(zhǔn)確和穩(wěn)定的基于文本提示的圖像生成。

    image.png

    OFT 方法可以從以下四個方向進(jìn)行全面審視,以對所提出的方法有一個整體的了解:

    1. 采用 OFT 進(jìn)行簡化微調(diào):OFT 使用正交變換來適應(yīng)大規(guī)?;谖谋镜膱D像生成模型,而不改變其超球能量。這種方法保持了模型的語義生成能力。

    2. 提高生成質(zhì)量和效率:OFT 應(yīng)用于兩個具體任務(wù):根據(jù)幾張參考圖片和文本提示生成特定主題的圖片,以及可控生成,即模型接收額外的控制信號。

    3. 實(shí)際應(yīng)用和廣泛影響:OFT 可以用于藝術(shù)家和平面設(shè)計(jì)師根據(jù)文字描述創(chuàng)建復(fù)雜的圖像和藝術(shù)作品。這可以大大加快創(chuàng)作過程,讓藝術(shù)家在較短時間內(nèi)探索更多的創(chuàng)意。此外,OFT 還可以為廣告和營銷提供基于特定文本輸入的獨(dú)特定制視覺內(nèi)容,快速原型化廣告概念和不同主題或營銷信息的視覺內(nèi)容。

    4. 開放挑戰(zhàn)和未來方向:解決 OFT 在可擴(kuò)展性方面的局限性,特別是與 Cayley 參數(shù)化涉及的矩陣求逆操作的計(jì)算效率相關(guān)的問題。研究如何結(jié)合多個 OFT 微調(diào)任務(wù)產(chǎn)生的正交矩陣,同時保留所有下游任務(wù)的知識。改進(jìn)參數(shù)效率的方法,以更少的偏見和更有效的方式來提高參數(shù)效率,仍然是一個重大挑戰(zhàn)。

    image.png

    正交微調(diào)方法極大地推動了基于 AI 的圖像生成。通過有效解決微調(diào)文本到圖像模型的挑戰(zhàn),OFT 提供了一種更可控、穩(wěn)定和高效的方法。這一突破為需要準(zhǔn)確從文本生成圖像的應(yīng)用開辟了新的可能性,標(biāo)志著 AI 創(chuàng)造力和視覺表現(xiàn)的新時代的到來。

    論文:https://openreview.net/forum?id=K30wTdIIYc

    項(xiàng)目網(wǎng)址:https://top.aibase.com/tool/orthogonal-finetuning-oft-

    舉報(bào)

    • 相關(guān)推薦
    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實(shí)拍級”圖像生成

      快科技4月17日消息,據(jù)報(bào)道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中,它能夠精準(zhǔn)高效地處理復(fù)雜問題;在創(chuàng)意寫作等通用任務(wù)方面,同樣表現(xiàn)出色。該模型采用MoE架構(gòu),總參數(shù)為200B,激?

    • UniToken:多模態(tài)AI的“全能選手”,一次編碼搞定文理解與圖像生成

      復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架,首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼,有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略(視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)),UniToken在多個基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在:1)統(tǒng)一的雙邊視覺編碼

    • 微美全息(WIMI.US)探索量子圖像壓縮算法,引領(lǐng)圖像處理領(lǐng)域顛覆性創(chuàng)新

      量子計(jì)算作為信息技術(shù)領(lǐng)域的顛覆性力量,其在量子圖像處理和圖像壓縮領(lǐng)域也顯示出巨大的技術(shù)潛力。隨著數(shù)字圖像處理技術(shù)的不斷演進(jìn),傳統(tǒng)圖像處理算法,本質(zhì)上依賴于并行計(jì)算,然,隨著圖像數(shù)量和分辨率的快速增長,這些經(jīng)典算法在計(jì)算資源和時間消耗上存在局限性。量子圖像壓縮技術(shù)的深入研究也將促進(jìn)量子算法和量子信息處理理論的進(jìn)一步發(fā)展,為量子信息技術(shù)的廣泛應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ),推動數(shù)字圖像處理技術(shù)邁向新的高度,實(shí)現(xiàn)更高效、更智能的圖像處理和壓縮。

    • 首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o(jì)3/o4-mini:史上最強(qiáng)、最智能模型

      快科技4月17日消息,今日,OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識圖已經(jīng)是小菜一碟了,現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻,并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí),OpenAI訓(xùn)練了o3/o4-mini如何?

    • AI日報(bào): OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

      【AI日報(bào)】欄目聚焦人工智能領(lǐng)域最新動態(tài):1) OpenAI推出ChatGPT圖像生成API,開發(fā)者可輕松集成AI繪圖功能,已生成超7億張圖片;2) 谷歌Gemini月活用戶突破3.5億,但仍落后于ChatGPT的6億用戶;3) OpenAI預(yù)測2029年收入將達(dá)1250億美元,AI代理業(yè)務(wù)成主要增長點(diǎn);4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview,優(yōu)化ComfyUI工作流;5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything,支持指定區(qū)域生成詳細(xì)描?

    • AI日報(bào):阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B,性能?

    • 友商沉默!vivo X200 Ultra為何拍照這么強(qiáng):圖像傳感器平均面積大幅領(lǐng)先

      vivo舉辦新品發(fā)布會,推出X200+Ultra新機(jī)。該機(jī)搭載超大底傳感器、全焦段覆蓋及防抖能力提升顯著,并配備兩顆藍(lán)玻璃濾光片LYT-818。此外,還提供外掛鏡頭頭,搭配聯(lián)合研發(fā)的2.35倍增距鏡頭,突破遠(yuǎn)攝極限,影像性能強(qiáng)大。

    • AI日報(bào):騰訊混元3D生成模型2.5版本發(fā)布;海螺推出圖像人物參考功能;百度上線移動端超級智能體心響App

      本文介紹了多款A(yù)I領(lǐng)域的新產(chǎn)品和技術(shù)進(jìn)展:1)Kortix-AI推出開源通用AI智能體平臺Suna;2)騰訊混元3D生成模型升級至2.5版本;3)海螺AI推出基于單張圖像生成多角度角色圖像功能;4)百度發(fā)布"心響"App整合多智能體協(xié)作;5)Nari Labs開源媲美真人的對話語音模型Dia;6)Grok新增視覺處理和多語言支持;7)Genspark推出AI幻燈片工具;8)Character.AI發(fā)布讓靜態(tài)圖片"說話"的AvatarFX模型;9)pad.ws結(jié)合白板和代碼編輯器;10)OpenBMB開源社區(qū)推出長文本生成模型"卷姬";11)騰訊推出AI閱讀助手"企鵝讀伴";12)OpenAI有意收購Chrome瀏覽器;13)字節(jié)跳動調(diào)整AI產(chǎn)品線布局。這些創(chuàng)新展現(xiàn)了AI技術(shù)在自動化、3D生成、語音交互、內(nèi)容創(chuàng)作等領(lǐng)域的快速發(fā)展。

    • 阿里開源通義新模型:指定首尾圖片生成視頻

      快科技4月18日消息,據(jù)報(bào)道,阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面,智能生成720p高清過渡視頻,為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法,能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后,模型會智能分析畫面中的視覺元素,包括物體形?

    • ChatGPT上線庫功能:可管理AI生成圖

      快科技4月16日消息,據(jù)報(bào)道,OpenAI近日宣布將為ChatGPT推出全新的Image Library圖庫功能,該功能將幫助用戶更高效地管理和查看AI生成的圖像。這項(xiàng)創(chuàng)新功能將逐步向所有用戶開放,包括移動端和網(wǎng)頁端的免費(fèi)版、Plus版及Pro版用戶。新功能的設(shè)計(jì)充分考慮了用戶體驗(yàn)的便捷性。用戶只需點(diǎn)擊ChatGPT側(cè)邊欄的Library入口,就能進(jìn)入一個直觀的圖像網(wǎng)格界面。在這個界面中,用戶可以輕?