站長之家(ChinaZ.com)3月19日 消息:騰訊近日推出了一項名為OMG的新研究,這項研究支持在一張圖片中生成多角色多概念。這是一個突破性的進展,因為以前的ID或概念保持項目只能將一個人還原在圖片里面,而有了這個項目以后,就可以實現(xiàn)多人合照了。
項目地址:https://top.aibase.com/tool/omg
該項目還支持與原有的ID保持項目一起使用,比如Lora以及InstantID。這意味著,用戶可以在一個項目中同時使用多個模型,無需進行額外的調(diào)整。這對于需要處理大量圖像的研究人員和開發(fā)者來說,無疑是一個巨大的便利。
OMG的代碼已經(jīng)開源,這意味著所有的開發(fā)者都可以查看其插件實現(xiàn)。這無疑將進一步推動該領域的研究和發(fā)展。
OMG是一個為個性化生成設計的框架,它能友好地處理遮擋問題,能在一幅圖像中無縫集成多種概念。這個框架包含兩個階段:第一階段專注于圖像布局的生成和為處理遮擋而收集視覺理解信息;第二階段則利用這些視覺理解信息,并結合精心設計的噪聲混合技術,將多個概念融合在一起,同時考慮遮擋因素。
在噪聲混合過程中,選擇合適的開始去噪時間點對于保持人物身份和圖像布局至關重要。這一點的發(fā)現(xiàn),無疑將為未來的研究提供重要的參考。
此外,OMG還能與多種單概念生成模型兼容,如LoRA和InstantID。尤其值得一提的是,LoRA模型可以直接從這個網(wǎng)址獲取并使用。這無疑將進一步推動該領域的研究和發(fā)展。
總的來說,騰訊的這項新研究,不僅為我們提供了一個全新的視角來處理圖像生成問題,也為未來的研究提供了重要的參考。我們期待看到更多的研究成果在這個領域出現(xiàn)。
(舉報)