11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
很多小伙伴在使用SD3.5、DALL·E3、Midjourney、豆包等文生圖模型時(shí),總是感覺生成的圖片和預(yù)期的相差甚遠(yuǎn)。今天就用Stability.ai發(fā)布的SD3.5官方教程為大家解讀一下,如何用最貼切的文本提示詞來生成精準(zhǔn)的圖片。文本提示案例:采用鳥瞰視角,從天空向下看一座繁華的城市夜景,街道燈火通明,車流不息,霓虹燈牌閃爍,給人一種現(xiàn)代都市的活力感。
快科技12月20日消息,近日快手可靈AI宣布基座模型再升級(jí),視頻生成推出可靈1.6模型。據(jù)快手官方介紹,1.6模型在文本響應(yīng)度、畫面美感及運(yùn)動(dòng)合理性上均有明顯提升,畫面更穩(wěn)定更生動(dòng),對(duì)運(yùn)動(dòng)、時(shí)序類動(dòng)作、運(yùn)鏡等文字描述響應(yīng)更好。并且動(dòng)態(tài)質(zhì)量進(jìn)一步增強(qiáng),運(yùn)動(dòng)更加合理,人物表情更自然;同時(shí)1.6模型畫面質(zhì)量也再次進(jìn)化,色彩、光影、細(xì)節(jié)表現(xiàn)均明顯提升,提供支持標(biāo)準(zhǔn)和高品質(zhì)模式,圖生視頻效果提升同樣顯著。此前在今年9月份,可靈AI 1.5模型上線,當(dāng)時(shí)就已經(jīng)支持高品質(zhì)模式,與可靈1.0模型只能生成最高720P的視頻不同,可靈1.5模型則
【新智元導(dǎo)讀】Meta最近開源了一個(gè)7B尺寸的SpiritLM的多模態(tài)語言模型,能夠理解和生成語音及文本,可以非常自然地在兩種模式間轉(zhuǎn)換,不僅能處理基本的語音轉(zhuǎn)文本和文本轉(zhuǎn)語音任務(wù)能捕捉和再現(xiàn)語音中的情感和風(fēng)格。在純文本大模型取得進(jìn)展的同時(shí),其他模態(tài)數(shù)據(jù),如語音與文本結(jié)合的語言模型也成為了一個(gè)熱門的研究領(lǐng)域,但現(xiàn)有的模型要么在僅包含語音的數(shù)據(jù)上進(jìn)行訓(xùn)練,要么是關(guān)注特定任務(wù),如文本轉(zhuǎn)語音、自動(dòng)語音識(shí)別或翻譯,在其他模態(tài)數(shù)據(jù)和任務(wù)上的泛化能力十分有限。研究人員還直接評(píng)估了模型對(duì)輸入提示的處理能力,結(jié)果發(fā)現(xiàn),無論是哪種提示,模型都能得到很高的評(píng)分,表明還有很大的空間來進(jìn)一步提高模型在保持情感表達(dá)方面的能力,也意味著,智能體在理解和生成情感豐富的內(nèi)容方面還有很大的潛力可以挖掘。
【新智元導(dǎo)讀】LLM訓(xùn)練速度還可以再飆升20倍!英偉達(dá)團(tuán)隊(duì)祭出全新架構(gòu)歸一化Transformer,上下文越長,訓(xùn)練速度越快能維持原有精度。AI的未來,或許就此改寫......最近,英偉達(dá)團(tuán)隊(duì)拋出的一枚重磅炸彈,提出了全新神經(jīng)網(wǎng)絡(luò)架構(gòu)——?dú)w一化Transformer,基于超球面進(jìn)行表示學(xué)習(xí)。下圖6展示了,注意力模塊和MLP模塊的特征學(xué)習(xí)率,應(yīng)用于MLP中間狀態(tài)的縮放因子,應(yīng)用于QK點(diǎn)積之前?
國產(chǎn)手機(jī)最近都開始躍躍欲試,新旗艦即將出擊,AI是重磅提升點(diǎn)。日前發(fā)布的ColorOS15就加入了不少AI能力,小布助手可以理解語義,一句話幫助用戶實(shí)現(xiàn)復(fù)雜操作可以實(shí)現(xiàn)AI影像創(chuàng)作等等,類似功能也將成為安卓旗艦標(biāo)配。這個(gè)功能國行機(jī)型是完全無法使用的,此前業(yè)內(nèi)推測(cè)國內(nèi)將更換文心一言等合作商,實(shí)現(xiàn)類似功能。
它早已不是一家單純的通信運(yùn)營商是通過構(gòu)建多模態(tài)基座大模型,打造全要素“AI”服務(wù)運(yùn)營體系,成為通用人工智能時(shí)代的供給者、匯聚者和運(yùn)營者。
【新智元導(dǎo)讀】近日,一向畫風(fēng)精致的「蘋果牌AI」,也推出了升級(jí)版的多模態(tài)大模型,從1B到30B參數(shù),涵蓋密集和專家混合模型,密集文本、多圖理解,多項(xiàng)能力大提升。多模態(tài)大語言模型如今已是大勢(shì)所趨。最后一欄表明,作者優(yōu)化的組合實(shí)現(xiàn)了最佳的整體性能,平衡了基準(zhǔn)測(cè)試中的所有功能。
Luma剛宣布即將發(fā)布1.5版本,沒想到今天就正式上線了,這速度真可以啊。根據(jù)「AIGC開放社區(qū)」實(shí)際使用體驗(yàn)來看,與1.0相比,1.5最大提升就是生成視頻的質(zhì)量,尤其是清晰度、光影、飽和度、構(gòu)圖、運(yùn)鏡等方面,基本可以媲美OpenAI的Sora。Luma1.5每天是可以免費(fèi)試用的但是有限額,超過之后第二天會(huì)恢復(fù)。
上海科技大學(xué)、賓夕法尼亞大學(xué)、Deemos科技和NeuDim科技的研究人員聯(lián)合推出了一個(gè)創(chuàng)新模型DressCode。用戶通過DressCode只需要輸入文本就能生成各種精美的3D服裝模型,例如,一件法式蕾絲邊的連衣裙;紅色絲綢的睡衣等。所有預(yù)覽都是可視化操作,用戶可以通過簡(jiǎn)單的操作旋轉(zhuǎn)、縮放、平移3D模型,從多個(gè)角度審視服裝細(xì)節(jié),這對(duì)于那些非專業(yè)設(shè)計(jì)人員來說非常有幫助。
OpenAI正深入探索文本水印技術(shù)的前沿領(lǐng)域,然,該公司坦言,這一創(chuàng)新領(lǐng)域仍面臨重重技術(shù)挑戰(zhàn)與待解難題。OpenAI巧妙地設(shè)想通過微妙調(diào)整ChatGPT生成文本中的詞匯選擇,來在字里行間編織一張不可見的數(shù)字指紋”即文本水印。公司正將更多目光投向視聽內(nèi)容的認(rèn)證工具開發(fā)上,力求在保障內(nèi)容創(chuàng)作者權(quán)益的同時(shí),促進(jìn)數(shù)字內(nèi)容的健康流通與多元發(fā)展。