动漫成人无码精品一区二区三区_欧美日本高清在线不卡区_免费无码Av片在线观看_亚洲人成网站观看在线播放

只需一個(gè) GPU:Stable Diffusion的推理基準(zhǔn)
發(fā)布時(shí)間: 2024-08-09 15:17

我需要什么才能運(yùn)行最先進(jìn)的文本到圖像模型?游戲卡可以完成這項(xiàng)工作嗎?還是我應(yīng)該買一個(gè)高級(jí)的 A100?如果我只有 CPU 怎么辦?


為了闡明這些問(wèn)題,我們提出了不同 GPU 和 CPU 上Stable Diffusion的推理基準(zhǔn)。以下是我們的發(fā)現(xiàn):


  • 許多消費(fèi)級(jí) GPU 可以很好地完成這項(xiàng)工作,因?yàn)镾table Diffusion只需要大約 5 秒和 5 GB 的 VRAM 即可運(yùn)行。

  • 在輸出單張圖像的速度方面,最強(qiáng)大的 Ampere GPU(A100)僅比 3080 快 33%(或 1.85 秒)。

  • 通過(guò)將批量大小推至最大值,A100 可以提供 2.5 倍的推理吞吐量(與 3080 相比)。


我們的基準(zhǔn)測(cè)試使用文本提示作為輸入并輸出分辨率為 的圖像。我們使用Huggingface 擴(kuò)散器庫(kù)中的模型實(shí)現(xiàn),并從速度、內(nèi)存消耗、吞吐量和輸出圖像質(zhì)量方面分析推理性能。我們研究了硬件(GPU 模型、GPU 與 CPU)和軟件(單精度與半精度、pytorch 與 onnxruntime)的不同選擇如何影響推理性能。


作為參考,我們將提供以下 GPU 設(shè)備的基準(zhǔn)測(cè)試結(jié)果:A100 80GB PCIe、RTX3090、RTXA5500、RTXA6000、RTX3080、RTX8000。


最后但并非最不重要的一點(diǎn)是,我們很高興看到社區(qū)進(jìn)展如此迅速。例如,“切片注意力”技巧可以進(jìn)一步將 VRAM 成本降低到“低至 3.2 GB”,但推理速度會(huì)降低約 10%。我們也期待在不久的將來(lái),一旦ONNX 運(yùn)行時(shí)變得更加穩(wěn)定,就可以使用 CUDA 設(shè)備對(duì)其進(jìn)行測(cè)試。


速度


下圖展示了使用不同的硬件和精度生成單幅圖像的推理速度,使用(任意)文本提示:“一張宇航員在火星上騎馬的照片”。


Stable Diffusion Text2Image 速度(以秒為單位)


我們發(fā)現(xiàn):

  • 在我們測(cè)試的 Ampere GPU 上,生成單個(gè)輸出圖像的時(shí)間范圍3.74為5.59幾秒,包括消費(fèi)者 3080 卡到旗艦 A100 80GB 卡。

  • 半精度可40%將安培 GPU 的時(shí)間減少約,將52%上一代RTX8000GPU 的時(shí)間減少約。


我們認(rèn)為,由于使用了 ,Ampere GPU 的加速比半精度的“較小” TF32。對(duì)于不熟悉 的讀者,它是一種格式,已被用作主要深度學(xué)習(xí)框架(如 PyTorch 和 TensorFlow)上 Ampere GPU 的默認(rèn)單精度數(shù)據(jù)類型。由于它是一種真正的格式,因此可以預(yù)期半精度的加速比會(huì)更大。


我們?cè)?CPU 設(shè)備上運(yùn)行相同的推理作業(yè),以便了解在 GPU 設(shè)備上觀察到的性能。


Stable Diffusion Text2Image GPU 與 CPU


我們注意到:

  • GPU 的速度明顯更快——根據(jù)精度,速度可提高一到兩個(gè)數(shù)量級(jí)。

  • onnxruntime可以將 CPU 推理時(shí)間減少約40%到50%,具體取決于 CPU 的類型。


順便提一下,ONNX 運(yùn)行時(shí)目前沒(méi)有針對(duì) Hugging Face 擴(kuò)散器的穩(wěn)定CUDA 后端支持,我們?cè)诔醪綔y(cè)試中也沒(méi)有觀察到有意義的加速。我們期待在 ONNX 運(yùn)行時(shí)針對(duì)Stable Diffusion進(jìn)行進(jìn)一步優(yōu)化后進(jìn)行更全面的基準(zhǔn)測(cè)試。


內(nèi)存


我們還測(cè)量了運(yùn)行Stable Diffusion推理的內(nèi)存消耗。


Stable Diffusion Text2Image 內(nèi)存 (GB)


經(jīng)觀察,所有經(jīng)過(guò)測(cè)試的 GPU 的內(nèi)存使用情況都是一致的:


  • 7.7 GB運(yùn)行批量大小為 1 的單精度推理大約需要GPU 內(nèi)存。

  • 4.5 GB運(yùn)行批量大小為 1 的半精度推理大約需要GPU 內(nèi)存。


吞吐量


到目前為止,我們已經(jīng)測(cè)量了單個(gè)輸入的處理速度,這對(duì)于不能容忍哪怕是最小延遲的在線應(yīng)用程序來(lái)說(shuō)至關(guān)重要。但是,一些(離線)應(yīng)用程序可能會(huì)關(guān)注“吞吐量”,它衡量在固定時(shí)間內(nèi)處理的數(shù)據(jù)總量。


我們的吞吐量基準(zhǔn)測(cè)試將每個(gè) GPU 的批處理大小推至最大值,并測(cè)量它們每分鐘可以處理的圖像數(shù)量。最大化批處理大小的原因是讓張量核心保持繁忙,以便計(jì)算可以主導(dǎo)工作負(fù)載,避免任何非計(jì)算瓶頸并最大化吞吐量。


我們?cè)?pytorch 中以半精度運(yùn)行了一系列吞吐量實(shí)驗(yàn),并使用了每個(gè) GPU 可以使用的最大批量大小:


Stable Diffusion文本到圖像吞吐量(圖像/分鐘)


我們注意到:

  • 再次,A100 80GB 表現(xiàn)最佳,且具有最高的吞吐量。

  • A100 80GB 與其他卡在吞吐量方面的差距可以通過(guò)此卡上可使用的最大批量大小較大來(lái)解釋。


作為一個(gè)具體的例子,下圖顯示了當(dāng)我們將批處理大小從 1 更改為 28(不會(huì)導(dǎo)致內(nèi)存不足錯(cuò)誤的最大值)時(shí),A100 80GB 的吞吐量如何增加。同樣有趣的是,當(dāng)批處理大小達(dá)到某個(gè)值時(shí),吞吐量的增長(zhǎng)并不是線性的,而是趨于平穩(wěn),此時(shí) GPU 上的張量核心已飽和,GPU 內(nèi)存中的任何新數(shù)據(jù)都必須排隊(duì)才能獲得自己的計(jì)算資源。


Stable Diffusion Text2Image 批次大小與吞吐量(圖像/分鐘)


自動(dòng)播報(bào)


Hugging Face 團(tuán)隊(duì)對(duì)其擴(kuò)散器代碼進(jìn)行的更新聲稱,刪除自動(dòng)投射可將 pytorch 的半精度推理速度提高約 25%。


使用自動(dòng)播報(bào):


with autocast("cuda"):

   image = pipe(prompt).images[0] 


未使用自動(dòng)施放:

image = pipe(prompt).images[0] 


我們?cè)?NVIDIA RTX A6000 上重現(xiàn)了該實(shí)驗(yàn),并能夠驗(yàn)證速度和內(nèi)存使用方面的性能提升。我們預(yù)計(jì)其他支持半精度的設(shè)備也會(huì)有類似的改進(jìn)。


Stable Diffusion-text2image-pytorch-半精度速度



Stable Diffusion-text2image-pytorch-半精度內(nèi)存


綜上所述,請(qǐng)勿將 autocast 與 FP16 結(jié)合使用。


精確


我們很好奇半精度是否會(huì)降低輸出圖像的質(zhì)量。為了測(cè)試這一點(diǎn),我們修復(fù)了文本提示以及“潛在”輸入,并將它們輸入到單精度模型和半精度模型中。我們以增加的步數(shù)運(yùn)行了 100 次推理。每次運(yùn)行時(shí),都會(huì)保存兩個(gè)模型的輸出及其差異圖。


100 步中的單精度與半精度


我們的觀察是,單精度輸出和半精度輸出之間確實(shí)存在明顯差異,尤其是在早期步驟中。差異通常會(huì)隨著步驟數(shù)量的增加而減小,但可能不會(huì)消失。


有趣的是,這種差異可能并不意味著半精度輸出中存在偽影。例如,在步驟 70 中,下圖顯示半精度沒(méi)有在單精度輸出中產(chǎn)生偽影(額外的前腿):


單精度 v 半精度,步驟 70


重復(fù)實(shí)驗(yàn)


您可以使用捷智算平臺(tái)自帶的存儲(chǔ)庫(kù)來(lái)重現(xiàn)本文中呈現(xiàn)的結(jié)果。


設(shè)置


在運(yùn)行基準(zhǔn)測(cè)試之前,請(qǐng)確保您已完成存儲(chǔ)庫(kù)安裝步驟。


然后您需要設(shè)置 huggingface 訪問(wèn)令牌:

1、在 Hugging Face 上創(chuàng)建用戶賬戶并生成訪問(wèn)令牌。

2、將您的 huggingface 訪問(wèn)令牌設(shè)置為ACCESS_TOKEN環(huán)境變量:

export ACCESS_TOKEN=<hf_...> 


用法


啟動(dòng)benchmark.py腳本以將基準(zhǔn)測(cè)試結(jié)果附加到現(xiàn)有的 benchmark.csv 結(jié)果文件:

python ./scripts/benchmark.py


啟動(dòng)benchmark_quality.py腳本來(lái)比較單精度和半精度模型的輸出:

python ./scripts/benchmark_quality.py


備注

由于每次運(yùn)行的文本提示以及“潛在”輸入都是固定的,這相當(dāng)于運(yùn)行 100 步推理,并保存每一步的中間結(jié)果。

粵公網(wǎng)安備 44030502006483號(hào)、 粵ICP備15047669號(hào)
  • 捷易科技聯(lián)系人
  • 国产网站免费| 国产欧美精品午夜在线播放| 日本伦理黄色大片在线观看网站| 免费的黄色小视频| 亚洲精品中文一区不卡| 美女免费毛片| 国产伦精品一区二区三区在线观看| 国产网站免费| 日本在线www| 国产亚洲男人的天堂在线观看| 日韩中文字幕一区| 九九久久99| 91麻豆精品国产高清在线| 精品视频在线观看免费| 日日日夜夜操| 韩国毛片免费| 精品国产亚一区二区三区| 亚洲天堂在线播放| 国产综合91天堂亚洲国产| 精品国产三级a∨在线观看| 欧美日本韩国| a级毛片免费观看网站| 精品久久久久久中文| 国产a毛片| 国产伦久视频免费观看视频| 天天做日日干| 精品国产香蕉在线播出| 国产综合91天堂亚洲国产| 日韩在线观看视频网站| 韩国三级视频在线观看| 精品在线观看一区| 韩国三级视频在线观看| 国产一区二区精品久久91| 日本特黄特色aaa大片免费| 国产a视频| 韩国三级视频网站| 99久久网站| 精品国产一级毛片| 99色视频| 麻豆午夜视频| 国产麻豆精品视频| 国产美女在线观看| 国产一区二区精品久久| 香蕉视频一级| 国产美女在线观看| 国产亚洲精品aaa大片| 一级女性全黄久久生活片| 久久国产精品只做精品| 精品视频在线观看视频免费视频| 国产一区免费在线观看| 精品视频在线看| 亚洲第一色在线| 欧美一级视频免费| 欧美α片无限看在线观看免费| 精品久久久久久中文| 你懂的日韩| 青青青草视频在线观看| 久久成人综合网| 一本高清在线| 精品在线视频播放| 日本在线www| 欧美一级视频免费| 美女免费黄网站| 99热精品一区| 久久精品大片| 精品久久久久久中文| 国产成人女人在线视频观看| 99色视频在线观看| 精品国产一区二区三区久久久蜜臀| 久久精品免视看国产成人2021| 欧美激情一区二区三区在线| 日本特黄特色aaa大片免费| 一本高清在线| 午夜在线亚洲| 99色播| 黄视频网站在线观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 国产一级强片在线观看| 午夜在线亚洲| 成人高清免费| 欧美另类videosbestsex视频| 午夜欧美成人香蕉剧场| 成人免费观看视频| 99热精品在线| 国产麻豆精品视频| 成人高清护士在线播放| 成人在免费观看视频国产| 国产视频久久久久| 天天做人人爱夜夜爽2020毛片| 日韩在线观看视频网站| 久久福利影视| 国产极品白嫩美女在线观看看| 欧美一级视频免费| 久久国产一久久高清| 日韩在线观看免费完整版视频| 久久99这里只有精品国产| 你懂的日韩| 高清一级片| 国产精品自拍在线观看| 国产视频一区二区在线观看 | 国产激情一区二区三区| 韩国毛片| 精品国产一区二区三区精东影业 | 日韩av成人| 999精品影视在线观看| 天天做人人爱夜夜爽2020毛片| 久久久久久久久综合影视网| a级精品九九九大片免费看| 国产一区免费在线观看| 香蕉视频一级| 九九精品久久| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 黄视频网站免费观看| 高清一级毛片一本到免费观看| 久久99中文字幕久久| 天堂网中文在线| 四虎影视库国产精品一区| 精品国产一级毛片| 国产网站免费| 日韩在线观看视频黄| 欧美国产日韩久久久| 99久久精品国产麻豆| 欧美激情影院| 精品国产一级毛片| 欧美国产日韩久久久| 一本高清在线| 亚洲 激情| 麻豆午夜视频| 精品视频在线观看一区二区三区| 天堂网中文字幕| 日本特黄特色aaa大片免费| 久久国产一区二区| 日韩av片免费播放| 久久国产一久久高清| 欧美另类videosbestsex视频| 亚洲精品中文一区不卡| 精品视频在线观看一区二区| 日韩专区第一页| 欧美激情一区二区三区中文字幕| 韩国毛片基地| 深夜做爰性大片中文| 欧美大片一区| 韩国三级视频网站| 欧美激情一区二区三区在线播放 | 免费国产一级特黄aa大片在线| 美女免费精品视频在线观看| 九九热国产视频| 精品视频一区二区三区免费| 天天做日日干| 日韩专区在线播放| 国产成人啪精品| 国产成人啪精品| 天天做日日爱夜夜爽| 国产91精品露脸国语对白| 国产综合91天堂亚洲国产| 一级毛片视频免费| 精品国产香蕉伊思人在线又爽又黄| 亚洲女人国产香蕉久久精品| 日韩男人天堂| 999久久久免费精品国产牛牛| 国产一区二区精品久久| 国产伦精品一区三区视频| 午夜在线影院| 国产网站在线| 国产麻豆精品| 日日日夜夜操| 亚洲精品久久久中文字| 国产91精品一区二区| 欧美大片aaaa一级毛片| 一级毛片视频免费| 久久国产一区二区| 美国一区二区三区| 黄视频网站在线免费观看| 久久国产精品只做精品| 你懂的国产精品| 亚洲女初尝黑人巨高清在线观看| 色综合久久天天综线观看| 国产麻豆精品| 成人高清视频在线观看| 一级女性全黄生活片免费| 日本免费乱理伦片在线观看2018| 999精品影视在线观看| 你懂的日韩| 国产网站免费| 中文字幕一区二区三区精彩视频| 日韩专区一区| 精品视频在线观看视频免费视频| 国产一区精品| 精品在线视频播放| 国产一级生活片| 久久99中文字幕久久| 欧美国产日韩一区二区三区| 欧美激情一区二区三区视频高清 | 高清一级做a爱过程不卡视频| 国产麻豆精品| 亚洲精品永久一区| 青青青草影院| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 久久成人综合网| 日韩在线观看视频黄|