91精品视频在线看_久久国产精品久久国产片_青春草在线视频精品_伊人天天躁夜夜躁狠狠

歡迎您訪問近期OpenAI和Stability發布Sora與Stable Diffusion 3,均采用Diffusion Transformer架!

近期OpenAI和Stability發布Sora與Stable Diffusion 3,均采用Diffusion Transformer架

更新時間:2025-04-12 15:37:58作者:佚名

序言背景 - 索拉和穩定擴散3

最近,在同一時期,兩個AI巨頭Openai和穩定性分別發布了他們的新作品-Sora [1]和穩定的擴散3 [2]。令人驚訝的是,這兩家公司的研究團隊采用了擴散變壓器體系結構。術語擴散變壓器并不熟悉它。當DIT [3]首次掛起Arxiv時,我只是在潛意識中以為這項工作只是擴散模型家族的額外選擇,而我對此并沒有太多關注。但是今天,我們回顧了Sora和穩定擴散的兩個熱門話題的擴散變壓器3。AI巨頭的動作為我們提供了一些靈感。

一些偏僻的單詞 - 我的一些早期隨機想法

在穩定擴散進入公眾眼前之前,我仍然對擴散模型有一個嚴肅的刻板印象,他認為擴散模型只是一個充滿“學術風格”的模型。我特別記得,為了嘗試DDPM對測試集的效果,我會盡快閱讀DDPM紙,并下載模型,調試并一口氣準備好測試集。結果,我發現需要幾分鐘的時間來拍攝一張照片,這使我感到不知所措。

在CVPR接受穩定的擴散[4]之后,我開始再次提高對擴散模型的看法,但是當時我對基于馴服變壓器,Maskgit和Muse代表的技術的技術更加樂觀。這主要是因為自2017年以來,變壓器對計算機視覺社區的影響已經滲透到各個子場中,并且在無意中確定了變壓器的位置。后來,Chatgpt的出現進一步固定了變壓器的狀態,我什至開始富有想象力:變形金剛在自然語言處理領域取得了巨大的成功。基于變壓器即將到來的多模式統一的時代是否即將到來?從今天開始,這個問題確實很棒,但是足以證明變形金剛確實值得。

預知

那么,所謂的擴散變壓器到底是什么?為了易于理解,有必要在引入它之前了解其一些先發制人的知識。顧名思義,可以簡單地將擴散變壓器分為:擴散變壓器=擴散 +變壓器。這對應于我們將在下面介紹的主流擴散模型(潛在擴散模型)和變壓器模型。

潛在擴散模型

一些大wig上的其他大wig已經給出了關于什么是擴散模型的詳細說明,您可以自己搜索它們。簡而言之,該模型通過“添加噪聲”來污染圖片的像素,從而了解“去除噪聲”的過程。生成圖片時,模型逐漸將完整的高斯噪聲降低,并逐步恢復,直到模型輸出圖像中的每個像素不再是噪聲,這是我們期望的干凈圖像。

什么是潛在擴散模型?顧名思義,擴散模型消除噪聲的對象已從“像素”變為“隱藏的空間特征”。隱藏的擴散模型分別包括兩個部分

結合了前兩個,我們獲得了隱藏的擴散模型,并使用穩定的擴散模型體系結構呈現最經典:

statue讀_stable怎么讀音發音_stable是什么意思?怎么讀

stable怎么讀音發音_stable是什么意思?怎么讀_statue讀

穩定擴散的模型體系結構圖。紅色區域代表壓縮模型的過程,將圖片轉換為特征。綠色區域代表擴散模型的學習和生成過程。變壓器

Transformer首先用于機器翻譯任務,即完成具有相同長度和長度的句子的翻譯過程,其處理的對象是“ word”(soken)。說到變壓器,我們與之相關的最簡單的事情是它的自我發揮機制,這也很清楚。今天,我們需要更多地關注變壓器模型本身的另一個功能 - 自動回歸(AR)。

statue讀_stable是什么意思?怎么讀_stable怎么讀音發音

變壓器機器翻譯流程圖

Transformer是一種經典的自動回歸模型,就像LSTM一樣。那么什么是自動性?我認為與與Chatgpt的互動結合使用很容易理解。當我們在網絡上與Chatgpt交談時,我們會發現Chatgpt的答復實際上會一個一個一個彈出。換句話說,此過程可以稱為“下一個單詞預測”(在這里借用GPT預培訓方法的陳述以促進理解,兩者本質上是不同的)。

應該注意的是,“單詞”可能是英語中的每個單詞,也可能是用來表示圖像的某種形式,這是一個更廣泛的定義。然后,對于圖像中的單詞,需要與上一篇文章中的壓縮模型結合使用。如前所述,壓縮模型的過程具有準確的損失。特定的損失在于,在壓縮模型將連續圖像處理成特征之后,該圖像需要在特征空間中離散,即最初是小數的像素值將被處理為整數。這樣,確切的值將變得不準確,從而導致準確性喪失。當計算機處理文本時,它實際上會看到一堆整數。為了促進人類的理解,我們人為地建立了一個詞匯,以一種自然語言對應。這個過程稱為令牌。同樣,對于離散圖像功能,我們還可以得到這樣的詞匯,稱為代碼簿,與代碼書相對應的單詞將用作變壓器的輸入并進一步處理。

那么,如果要生成圖像stable是什么意思?怎么讀,變形金剛會怎么做?結合了以前的壓縮模型過程,讓我們以馴服變壓器為例。它首先需要預測一個單詞,然后將此單詞用作下一個預測的“信息”。變形金剛將進一步預測基于此單詞的下一個單詞,然后將上一個單詞(該單詞)發送給變壓器本身,依此類推。最后,直到模型預測的一定數量的單詞之前,這些單詞可以組合成圖片的相應特征,然后從壓縮模型恢復到圖片(像素),我們可以用肉眼識別。

概括

盡管潛在擴散模型和變壓器為人工智能的發展增添了很大的標記,但這些技術也具有固有的缺點。對于擴散模型,自2020年DDPM的誕生以來,連續三年的工作延續了原始的經典U-NET架構,并且仍然依靠網絡結構設計中的早期研究經驗,并有很大的改進空間;始終批評的變壓器是其“錯誤積累”。簡而言之,錯誤擴散來自變壓器“預測下一個單詞”的生成模型。如果之前生成的單詞是錯誤的,那么在生成后續單詞時,模型將“將是錯誤的”,這將導致錯誤的積累。擴散模型從一代范式中避免了這個問題,因為它同時消除了所有像素的噪聲(我們稱此范式為非自動化范圍)。如何同時解決這兩者的缺點已成為一個很好的研究主題。

現在我們既了解擴散模型又了解變壓器,一個自然的想法是:如果我們做“ A+B”怎么辦?如果此“ A+B”可以同時解決上述問題,那么它自然會更好。因此,我們將在下面談論擴散變壓器。

什么是擴散變壓器?

statue讀_stable怎么讀音發音_stable是什么意思?怎么讀

擴散變壓器來自文章“具有變壓器的可擴展擴散模型”。這項工作的作用是通過“ A+B”的想法將隱藏的擴散模型與變壓器結合在一起。我們研究了AI巨人通過研究動機,方法設計和個人思想所青睞擴散變壓器的原因。

研究動機

工作的動機實際上與上一篇文章中描述的擴散模型的缺點一致。基于早期工作經驗,擴散模型仍然有很大改進網絡結構設計的空間。受隱藏空間擴散模型范式的啟發stable是什么意思?怎么讀,這項工作成功地用變壓器取代了擴散模型中的經典U-NET結構。在進一步改善網絡體系結構的復雜性的前提下,它可以顯著提高產生的圖像的質量,并在Imagenet數據集的生成任務上獲得2.27 FID得分(FID分數2.27是標準數據集Imagenet的驚人得分)。

方法設計

statue讀_stable怎么讀音發音_stable是什么意思?怎么讀

擴散變壓器的模型架構圖

總體而言,擴散變壓器(DIT)具有一種特殊的機制,可以添加和denoise圖像,以及強大的變壓器自我發揮機制,以及上一篇文章中提到的變壓器“預測下一個單詞”的特征。給定輸入圖像,DIT首先通過擴散模型的標準噪聲添加過程污染壓縮特征,從而拼接了噪聲結合特征,條件特征和地面真實的相應特征,并將它們輸入變壓器以輸出結果,完成了DIT講道。

stable是什么意思?怎么讀_statue讀_stable怎么讀音發音

DIT訓練過程的示意圖

在訓練過程中,DIT計算標準LSIMPLE = ∥?θ(XT)??T∥22至①和②的擴散損失。同時,DIT還限制了①和③之間的KL差異,以確保預測σ與地面真相分布一致。

statue讀_stable是什么意思?怎么讀_stable怎么讀音發音

對于每個DIT模塊的詳細信息,我們可以在其論文中介紹模型架構圖(從右到左):

stable是什么意思?怎么讀_statue讀_stable怎么讀音發音

修補過程圖

statue讀_stable是什么意思?怎么讀_stable怎么讀音發音

為什么Spade模塊擴散變壓器的模型結構圖?

擴散變壓器的研究動機實際上很簡單。它結合了隱藏擴散模型實現的相對良好的性能效果與變壓器強大的模型體系結構相結合,希望將擴散模型提高到更高的水平。正如Openai和穩定性都選擇了擴散變壓器一樣,這使我考慮了它。實際上,該模型還有其他可用選項,例如Mamba。那么,什么可以使擴散變壓器成為AI巨人的獨特選擇?

stable怎么讀音發音_statue讀_stable是什么意思?怎么讀

穩定擴散3生成包含文本的圖片

statue讀_stable怎么讀音發音_stable是什么意思?怎么讀

Sora壓縮視頻的流程圖

statue讀_stable怎么讀音發音_stable是什么意思?怎么讀

stable是什么意思?怎么讀_statue讀_stable怎么讀音發音

由Sora生成的2K圖像,擴散變壓器擬合的應用

Fit [7]是DIT的隨后延續,來自“ Fit:擴散模型的靈活視覺變壓器”。

statue讀_stable怎么讀音發音_stable是什么意思?怎么讀

擬合與DIT之間的區別

已解決,但沒有完全解決。盡管DIT解決了U -NET問題,但從SORA和穩定擴散3的成功應用來看,擴散變壓器的設計無疑取得了巨大的成功,但與此同時,DIT架構也帶來了由于變壓器的存在,即變壓器的分辨率固定問題,也帶來了新的問題。擬合的誕生是使DIT體系結構能夠應用于任何決議。具體而言,FIT用繩索(繩索,旋轉位置嵌入)替換了DIT的原始位置代碼,并將自我注意力的機制變成了掩蓋的自我注意機制。有趣的是,這項工作的靈感來自一些大型語言模型的工作,并用Swiglu代替了Feed前層中的MLP。無論是在訓練還是測試過程中,FIT都會將輸入擴展到最大長度,并且在生成圖像時,僅采用與分辨率相關的單詞數量,以通過任何分辨率通過擴散變壓器實現圖像生成。

statue讀_stable怎么讀音發音_stable是什么意思?怎么讀

適合模型架構圖Unidiffuser

Unidiffuser [8]是另一個將擴散模型與變壓器結合的工作,從“一個變壓器擬合了大規模的多模式擴散中的所有分布”。

寫完這篇文章后,我在文章開始時就在不知不覺中回應了我對變形金剛的多模式統一性的想象。當我第一次閱讀Zhu Jun老師團隊的Unidiffusers時,我非常了不起。不僅是因為變壓器“真正”統一了模態,而且還通過擴散模型統一了,回憶也很有趣。

stable怎么讀音發音_stable是什么意思?怎么讀_statue讀

Unidiffuser的效果顯示

stable是什么意思?怎么讀_statue讀_stable怎么讀音發音

從上圖中,我們可以看到Unidiffuser不僅可以意識到文本和圖片貝語網校,還可以完成多個任務,例如同時生成文本和圖片,圖像描述,無條件的圖像/文本生成,圖片/文本/文本變化,圖片/文本編輯,圖片插值等,這在很大程度上從一代人的角度實現了多模型的統一性。

statue讀_stable是什么意思?怎么讀_stable怎么讀音發音

擴散器與其他定制擴散器之間差異的示意圖

具體來說,Unidiffuser可以同時以兩種不同的模式,圖片和文本處理數據,總體解決方案只需要稍作更改。在訓練過程中,對于整個Unidiffuser的輸出,我們可以根據經典的擴散損失對其進行重寫,然后GET:EX0,Y0,?X,?Y,TX,TY = ∥?θ(XTX,YTY,YTY,YTY,TX,TY) - [?X,?Y]∥22;在測試過程中,無分類器指導也適用于Unidiffuser架構。就統一模式而言,Unidiffuser有幾個有趣的設計:

stable怎么讀音發音_statue讀_stable是什么意思?怎么讀

Unidiffuser的模型架構圖摘要

Sora和穩定擴散3的到來,無論是在科學研究中還是應用程序實施中,都在2024年為AIGC社區帶來了新的活力。擴散的變壓器作為后起之秀,使每個人都期待它。我想知道今年的擴散變壓器是否會再次顛覆AIGC范式,例如2022年的穩定擴散。當我撰寫本文時,我在編寫它時變得越來越好奇。

參考

1.^Video?Generation?Models?as?World?Simulators?https://openai.com/research/video-generation-models-as-world-simulators
2.^Stable?Diffusion?3?https://stability.ai/news/stable-diffusion-3
3.^Scalable?Diffusion?Models?with?Transformers?https://arxiv.org/abs/2212.09748
4.^High-Resolution?Image?Synthesis?with?Latent?Diffusion?Models?https://arxiv.org/abs/2112.10752
5.^Taming?Transformer?for?High-Resolution?Image?Synthesis?https://arxiv.org/abs/2012.09841
6.^Semantic?Image?Synthesis?with?Spatially-Adaptive?Normalization?https://arxiv.org/abs/1903.07291
7.^FiT:?Flexible?Vision?Transformer?for?Diffusion?Model?https://arxiv.org/abs/2402.12376
8.^One?Transformer?Fits?All?Distributions?in?Multi-Modal?Diffusion?at?Scale?https://arxiv.org/abs/2303.06555
9.^All?are?Worth?Words:?A?ViT?Backbone?for?Diffusion?Models?https://arxiv.org/abs/2209.12152

為您推薦

世界報與國家報競爭西語讀者占有率,但盈利轉化仍是艱巨任務

本學期,我們學校在課程中引入了一個引人入勝的新內容——英國文學閱讀課,其目的是培養學生的批判性思維能力,并讓學生一窺英國文學的魅力。【V1】通過互動討論、小組活動和學生展示,所有學生必將獲得對英語文學更深入和最新的理解。

2025-04-12 17:29

sign怎么讀?包含發音、用法和趣味故事等

首先,咱們先說說這個單詞的發音。英語中“sign”發音為/sain/,聽起來像是“賽恩”。總而言之,“sign”這個詞雖然看似簡單,但它的發音、用法和文化背景都非常豐富。無論是在學習英語的過程中,還是在實際交流中,掌握“sign”的發音和用法,都會讓我們的表達更加流暢和自信。

2025-04-11 21:15

澳式英語的三種口音類型:粗獷型、大眾型和文雅型解析

很多中國人都抱怨說,澳式英語不好聽,或很難聽得懂。等單詞,夸張的澳大利亞人讀起來就好像是ply、mite、die、sigh。另外,在日常用語中,同樣的英文單詞在澳式英語中表達的可能是不同的意思,下面,我們舉例來說明:說了這么多,大家有沒有記住一些常用的澳式英語表達呢?

2025-04-11 16:20

tera什么意思_tera怎么讀_tera翻譯_用法_詞組_同反義詞

tera的基本釋義為 基本解釋 兆兆,垓等等。貝語網校(www.www.kabiyimu.com)為您提供tera發音,英語單詞tera的音標,tera中文意思,tera的過去式,tera雙語例句等相關英語知識。

2025-04-11 10:24

telephone什么意思_telephone怎么讀_telephone翻譯_用法_詞組_同反義詞

telephone的基本釋義為 基本解釋 n. 電話;電話機;(電話機的)話筒;受話器vt.& vi. 以電話傳送(消息),給(某人)打電話;用電話與(某人)交談等等。貝語網校(www.www.kabiyimu.com)為您提供telephone發音,英語單詞telephone的音標,telephone中文意思,telephone的過去式,telephone雙語例句等相關英語知識。

2025-04-11 10:24

teamviewer什么意思_teamviewer怎么讀_teamviewer翻譯_用法_詞組_同反義詞

teamviewer的基本釋義為 基本解釋 n 團隊查看器等等。貝語網校(www.www.kabiyimu.com)為您提供teamviewer發音,英語單詞teamviewer的音標,teamviewer中文意思,teamviewer的過去式,teamviewer雙語例句等相關英語知識。

2025-04-11 10:24

加載中...
91精品视频在线看_久久国产精品久久国产片_青春草在线视频精品_伊人天天躁夜夜躁狠狠

            理论电影国产精品| 在线播放欧美女士性生活| 亚洲国产电影在线观看| 久久免费电影网| 欧美日韩的一区二区| 欧美一级黄色大片| 国产成人午夜高潮毛片| 国产91综合网| 欧美色图在线观看| 欧美一卡二卡三卡| 国产精品你懂的在线| 一级中文字幕一区二区| 日韩精品91亚洲二区在线观看| 轻轻草成人在线| 高清免费成人av| 91麻豆福利精品推荐| 色婷婷综合视频在线观看| 欧美老肥妇做.爰bbww| 五月综合激情日本mⅴ| 国产一区二区三区四| 91久久精品日日躁夜夜躁欧美| 在线欧美一区二区| 久久久久久久久久美女| 国产乱人伦偷精品视频不卡| 在线免费不卡视频| 欧美高清性hdvideosex| 蜜桃视频在线观看一区| 不卡免费追剧大全电视剧网站| 制服丝袜中文字幕亚洲| 亚洲欧美激情视频在线观看一区二区三区 | 国产一区二区精品久久91| 欧美成人性战久久| 亚洲午夜免费福利视频| 国产成人免费在线观看不卡| 欧美国产日本视频| 色诱亚洲精品久久久久久| 亚洲成a人片在线观看中文| 不卡的av电影| 亚洲成av人片在线观看| 2021中文字幕一区亚洲| 热久久免费视频| 国产视频911| 国产一区二区三区电影在线观看 | 在线免费观看视频一区| 日韩在线a电影| 中文字幕精品在线不卡| 欧美日韩国产一二三| 国产精品一级在线| 亚洲国产综合色| 久久久久久亚洲综合影院红桃 | 国产精品国产成人国产三级 | 成人av在线影院| 图片区小说区国产精品视频| 久久久蜜臀国产一区二区| 色婷婷av一区| 国产精品99久| av资源站一区| 久久亚洲综合av| 欧美亚洲综合在线| 国内一区二区在线| 久久综合久久久久88| 日本电影亚洲天堂一区| 国产精品影视在线观看| 午夜精品久久久久久久99樱桃 | 欧美午夜电影网| 国产成a人亚洲| 日产国产欧美视频一区精品 | 一区二区三区色| 国产欧美日韩亚州综合| 不卡的电视剧免费网站有什么| 免费看黄色91| 亚洲一区在线观看免费 | 国产在线精品一区二区| 亚洲一区二区影院| 最新国产の精品合集bt伙计| 在线观看日韩av先锋影音电影院| 国产精品系列在线观看| 蜜乳av一区二区三区| 亚洲va中文字幕| 一二三区精品福利视频| 欧美国产丝袜视频| 久久先锋影音av鲁色资源| 日韩欧美激情四射| 成人app网站| 国产99久久久久久免费看农村| 久久精品国产一区二区| 麻豆精品一区二区av白丝在线| 亚洲成av人片在线观看| 一区二区欧美精品| 亚洲精品国产无天堂网2021| 欧美久久久久免费| 精品污污网站免费看| 精品一二线国产| 亚洲欧美日本韩国| 亚洲三级电影网站| 国产精品国产三级国产专播品爱网 | 偷窥少妇高潮呻吟av久久免费| 亚洲精品免费电影| 国产ts人妖一区二区| 久久99精品久久久久久国产越南 | 国产亚洲成av人在线观看导航| 精品国产成人在线影院| av一区二区三区黑人| 99精品在线免费| 国产一区二区三区综合| 国产自产2019最新不卡| 国产99久久久国产精品潘金| 丁香一区二区三区| 色综合中文综合网| 亚洲欧美国产三级| 亚洲午夜在线视频| 亚洲国产精品久久一线不卡| 午夜久久久久久久久| 美美哒免费高清在线观看视频一区二区 | 成人激情动漫在线观看| 91蜜桃传媒精品久久久一区二区| 在线观看日韩毛片| 欧美成人高清电影在线| 日本一区二区三区四区| 亚洲精品亚洲人成人网| 日韩av一区二区三区| 国产精品亚洲第一区在线暖暖韩国| 大桥未久av一区二区三区中文| 日本免费新一区视频| 国产在线精品一区二区不卡了| av亚洲精华国产精华精华| 欧美性大战久久| 精品sm在线观看| 亚洲男同性恋视频| 黄色资源网久久资源365| 成人黄色网址在线观看| 欧美疯狂性受xxxxx喷水图片| 久久久不卡网国产精品二区| 国产精品美女久久久久久| 五月激情丁香一区二区三区| 国产a级毛片一区| 制服丝袜亚洲色图| 国产精品国产三级国产| 久久精品99国产精品日本| 一本到三区不卡视频| 精品久久久三级丝袜| 亚洲综合激情小说| 成人激情综合网站| 91精品国产综合久久精品麻豆 | 亚洲国产一区二区视频| 国产麻豆91精品| 国产亚洲精品aa| 成人污污视频在线观看| 精品国内二区三区| 国产欧美精品一区二区色综合| 亚洲444eee在线观看| 99re66热这里只有精品3直播| 精品国产免费人成在线观看| 亚洲午夜在线观看视频在线| 在线欧美小视频| 欧美一区二区福利在线| 精品亚洲欧美一区| 国产人成亚洲第一网站在线播放| 成人午夜视频免费看| 欧美一区二区三区在线观看视频 | 欧美在线一二三四区| 国产精品久久久久久久久晋中| 久久综合综合久久综合| 欧美日韩1区2区| 亚洲综合一区在线| 国产精品一区二区黑丝| 综合久久综合久久| 欧美少妇bbb| 奇米色777欧美一区二区| 久久久久国产精品免费免费搜索| 国产精品一区二区黑丝| 亚洲美女少妇撒尿| 69成人精品免费视频| 国产成人在线色| 亚洲最色的网站| 欧美大片在线观看一区二区| 成人福利视频网站| 午夜精品久久久久久久 | 久久一区二区三区国产精品| 成人激情动漫在线观看| 亚洲成人av免费| 国产性色一区二区| 欧美图片一区二区三区| 国产乱妇无码大片在线观看| 一区av在线播放| www一区二区| 欧美中文字幕亚洲一区二区va在线| 毛片av一区二区| 亚洲少妇30p| 精品国产网站在线观看| 色老汉av一区二区三区| 久久精品免费观看| 一区二区三区视频在线看| 久久久综合网站| 欧美日韩精品一区二区三区 | 欧美日韩高清一区二区不卡| 国产成人免费网站| 日韩高清在线一区| 亚洲男人的天堂网| 国产无一区二区|