无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

正交微調(diào)解鎖文本創(chuàng)建逼真圖像新能力實(shí)現(xiàn)對生成圖像的精確控制

2024-01-26 10:09 · 稿源：站長之家

劃重點(diǎn):
- 研究人員引入正交微調(diào)（OFT）方法，極大地增強(qiáng)了對基于文本的圖像生成模型的控制能力。
- OFT 使用正交變換方法，保持神經(jīng)元之間的關(guān)系結(jié)構(gòu)，確保模型的語義生成能力得到保留。
- OFT 方法在生成質(zhì)量和效率方面表現(xiàn)出色，具有廣泛的實(shí)際應(yīng)用和影響。

站長之家（ChinaZ.com）1月26日消息:一直以來，基于文本的圖像生成技術(shù)一直備受關(guān)注，因?yàn)樗軌蚋鶕?jù)文字描述創(chuàng)建逼真的圖像。這些模型利用復(fù)雜的算法解讀文本并將其轉(zhuǎn)化為視覺內(nèi)容，模擬了人類獨(dú)有的創(chuàng)造力和理解能力。這項(xiàng)技術(shù)在各個領(lǐng)域都具有巨大的潛力，從平面設(shè)計(jì)到虛擬現(xiàn)實(shí)，都可以創(chuàng)建與文本輸入相符的復(fù)雜圖像。

在這一領(lǐng)域中的一個關(guān)鍵挑戰(zhàn)是微調(diào)這些模型以實(shí)現(xiàn)對生成圖像的精確控制。模型在保持高保真度圖像生成和對文本提示的細(xì)膩解釋之間往往難以平衡。確保這些模型能夠準(zhǔn)確遵循文本指令并保持其創(chuàng)造性完整性是至關(guān)重要的，特別是在需要特定圖像特征或風(fēng)格的應(yīng)用中。目前，引導(dǎo)這些模型通常涉及調(diào)整網(wǎng)絡(luò)中的神經(jīng)元權(quán)重，可以通過小學(xué)習(xí)率更新或通過重新參數(shù)化神經(jīng)元權(quán)重來實(shí)現(xiàn)。然而，這些技術(shù)往往需要在保留模型預(yù)訓(xùn)練生成性能方面進(jìn)行改進(jìn)。

來自包括智能系統(tǒng) MPI、劍橋大學(xué)、圖賓根大學(xué)、蒙特利爾大學(xué)、博世人工智能中心和阿蘭圖靈研究所在內(nèi)的多個機(jī)構(gòu)的研究人員介紹了正交微調(diào)（OFT）方法。

該方法顯著提高了對基于文本的圖像生成模型的控制能力。OFT 采用正交變換方法，著重于保持超球能量（神經(jīng)元之間關(guān)系結(jié)構(gòu)的度量）。這種方法確保了模型的語義生成能力得到保留，從而實(shí)現(xiàn)更準(zhǔn)確和穩(wěn)定的基于文本提示的圖像生成。

OFT 方法可以從以下四個方向進(jìn)行全面審視，以對所提出的方法有一個整體的了解:

1. 采用 OFT 進(jìn)行簡化微調(diào):OFT 使用正交變換來適應(yīng)大規(guī)?；谖谋镜膱D像生成模型，而不改變其超球能量。這種方法保持了模型的語義生成能力。

2. 提高生成質(zhì)量和效率:OFT 應(yīng)用于兩個具體任務(wù):根據(jù)幾張參考圖片和文本提示生成特定主題的圖片，以及可控生成，即模型接收額外的控制信號。

3. 實(shí)際應(yīng)用和廣泛影響:OFT 可以用于藝術(shù)家和平面設(shè)計(jì)師根據(jù)文字描述創(chuàng)建復(fù)雜的圖像和藝術(shù)作品。這可以大大加快創(chuàng)作過程，讓藝術(shù)家在較短時間內(nèi)探索更多的創(chuàng)意。此外，OFT 還可以為廣告和營銷提供基于特定文本輸入的獨(dú)特定制視覺內(nèi)容，快速原型化廣告概念和不同主題或營銷信息的視覺內(nèi)容。

4. 開放挑戰(zhàn)和未來方向:解決 OFT 在可擴(kuò)展性方面的局限性，特別是與 Cayley 參數(shù)化涉及的矩陣求逆操作的計(jì)算效率相關(guān)的問題。研究如何結(jié)合多個 OFT 微調(diào)任務(wù)產(chǎn)生的正交矩陣，同時保留所有下游任務(wù)的知識。改進(jìn)參數(shù)效率的方法，以更少的偏見和更有效的方式來提高參數(shù)效率，仍然是一個重大挑戰(zhàn)。

正交微調(diào)方法極大地推動了基于 AI 的圖像生成。通過有效解決微調(diào)文本到圖像模型的挑戰(zhàn)，OFT 提供了一種更可控、穩(wěn)定和高效的方法。這一突破為需要準(zhǔn)確從文本生成圖像的應(yīng)用開辟了新的可能性，標(biāo)志著 AI 創(chuàng)造力和視覺表現(xiàn)的新時代的到來。

論文:https://openreview.net/forum?id=K30wTdIIYc

項(xiàng)目網(wǎng)址:https://top.aibase.com/tool/orthogonal-finetuning-oft-

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

字節(jié)發(fā)布豆包1.5深度思考模型：“實(shí)拍級”圖像生成

快科技4月17日消息，據(jù)報(bào)道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場，字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中，它能夠精準(zhǔn)高效地處理復(fù)雜問題；在創(chuàng)意寫作等通用任務(wù)方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動技術(shù)發(fā)布
薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架，首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼，有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略（視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)），UniToken在多個基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在：1）統(tǒng)一的雙邊視覺編碼

?UniToken ?多模態(tài)建模 ?視覺編碼
微美全息（WIMI.US）探索量子圖像壓縮算法，引領(lǐng)圖像處理領(lǐng)域顛覆性創(chuàng)新

量子計(jì)算作為信息技術(shù)領(lǐng)域的顛覆性力量，其在量子圖像處理和圖像壓縮領(lǐng)域也顯示出巨大的技術(shù)潛力。隨著數(shù)字圖像處理技術(shù)的不斷演進(jìn)，傳統(tǒng)圖像處理算法，本質(zhì)上依賴于并行計(jì)算，然，隨著圖像數(shù)量和分辨率的快速增長，這些經(jīng)典算法在計(jì)算資源和時間消耗上存在局限性。量子圖像壓縮技術(shù)的深入研究也將促進(jìn)量子算法和量子信息處理理論的進(jìn)一步發(fā)展，為量子信息技術(shù)的廣泛應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ)，推動數(shù)字圖像處理技術(shù)邁向新的高度，實(shí)現(xiàn)更高效、更智能的圖像處理和壓縮。

?量子計(jì)算 ?圖像處理 ?圖像壓縮
首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o(jì)3/o4-mini：史上最強(qiáng)、最智能模型

快科技4月17日消息，今日，OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布，這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解，OpenAI o3/o4-mini首次具備真正的視覺推理能力，看圖識圖已經(jīng)是小菜一碟了，現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻，并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí)，OpenAI訓(xùn)練了o3/o4-mini如何?

?OpenAI ?AI模型 ?視覺推理
AI日報(bào)： OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

【AI日報(bào)】欄目聚焦人工智能領(lǐng)域最新動態(tài)：1) OpenAI推出ChatGPT圖像生成API，開發(fā)者可輕松集成AI繪圖功能，已生成超7億張圖片；2) 谷歌Gemini月活用戶突破3.5億，但仍落后于ChatGPT的6億用戶；3) OpenAI預(yù)測2029年收入將達(dá)1250億美元，AI代理業(yè)務(wù)成主要增長點(diǎn)；4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview，優(yōu)化ComfyUI工作流；5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything，支持指定區(qū)域生成詳細(xì)描?

?OpenAI ?ChatGPT ?圖像生成
AI日報(bào)：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
友商沉默！vivo X200 Ultra為何拍照這么強(qiáng)：圖像傳感器平均面積大幅領(lǐng)先

vivo舉辦新品發(fā)布會，推出X200+Ultra新機(jī)。該機(jī)搭載超大底傳感器、全焦段覆蓋及防抖能力提升顯著，并配備兩顆藍(lán)玻璃濾光片LYT-818。此外，還提供外掛鏡頭頭，搭配聯(lián)合研發(fā)的2.35倍增距鏡頭，突破遠(yuǎn)攝極限，影像性能強(qiáng)大。
薦AI日報(bào)：騰訊混元3D生成模型2.5版本發(fā)布；海螺推出圖像人物參考功能；百度上線移動端超級智能體心響App

本文介紹了多款A(yù)I領(lǐng)域的新產(chǎn)品和技術(shù)進(jìn)展：1)Kortix-AI推出開源通用AI智能體平臺Suna；2)騰訊混元3D生成模型升級至2.5版本；3)海螺AI推出基于單張圖像生成多角度角色圖像功能；4)百度發(fā)布"心響"App整合多智能體協(xié)作；5)Nari Labs開源媲美真人的對話語音模型Dia；6)Grok新增視覺處理和多語言支持；7)Genspark推出AI幻燈片工具；8)Character.AI發(fā)布讓靜態(tài)圖片"說話"的AvatarFX模型；9)pad.ws結(jié)合白板和代碼編輯器；10)OpenBMB開源社區(qū)推出長文本生成模型"卷姬"；11)騰訊推出AI閱讀助手"企鵝讀伴"；12)OpenAI有意收購Chrome瀏覽器；13)字節(jié)跳動調(diào)整AI產(chǎn)品線布局。這些創(chuàng)新展現(xiàn)了AI技術(shù)在自動化、3D生成、語音交互、內(nèi)容創(chuàng)作等領(lǐng)域的快速發(fā)展。

?人工智能 ?AI產(chǎn)品 ?開源平臺
阿里開源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報(bào)道，阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面，智能生成720p高清過渡視頻，為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法，能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后，模型會智能分析畫面中的視覺元素，包括物體形?

?阿里巴巴 ?通義萬相 ?視頻生成技術(shù)
ChatGPT上線圖庫功能：可管理AI生成圖片

快科技4月16日消息，據(jù)報(bào)道，OpenAI近日宣布將為ChatGPT推出全新的Image Library圖庫功能，該功能將幫助用戶更高效地管理和查看AI生成的圖像。這項(xiàng)創(chuàng)新功能將逐步向所有用戶開放，包括移動端和網(wǎng)頁端的免費(fèi)版、Plus版及Pro版用戶。新功能的設(shè)計(jì)充分考慮了用戶體驗(yàn)的便捷性。用戶只需點(diǎn)擊ChatGPT側(cè)邊欄的Library入口，就能進(jìn)入一個直觀的圖像網(wǎng)格界面。在這個界面中，用戶可以輕?

?OpenAI ?ChatGPT ?Image

熱文

3 天
7天

1

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

1

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<address id="ojy99"></address>