
我們真的沒(méi)有 GPU 計(jì)算能力了嗎,還是我們只是在 錯(cuò)誤的地方尋找 錯(cuò)誤類型的GPU?最近,GPU短缺的 消息隨處可見(jiàn)。生成式人工智能的爆炸式增長(zhǎng)導(dǎo)致了 對(duì)以人工智能為中心的 GPU 的瘋狂搶購(gòu)和漫長(zhǎng)的等待時(shí)間。對(duì)于正在成長(zhǎng)的提供大規(guī)模推理服務(wù)的人工智能公司來(lái)說(shuō),這種 GPU 的短缺并不是真正的問(wèn)題。 選擇合適的 GPU 才是。

AI 推理可擴(kuò)展性和“合適大小”的 GPU
當(dāng)今的“GPU 短缺”實(shí)際上是由于 使用效率低下以及對(duì)不符合大規(guī)模 AI 應(yīng)用程序需求的 GPU 支付過(guò)高的費(fèi)用造成的。大型云計(jì)算公司和硬件制造商的營(yíng)銷機(jī)器已經(jīng)成功地說(shuō)服開(kāi)發(fā)人員,他們 絕對(duì)需要最新、最強(qiáng)大的硬件 才能成為一家成功的 AI 公司。
A100 和 H100 非常適合訓(xùn)練高級(jí)模型,它們無(wú)疑是速度最快、最先進(jìn)的 GPU,理應(yīng)受到廣泛關(guān)注。但這些 GPU 數(shù)量不足,而且即使有售,也需要預(yù)付款或簽訂現(xiàn)有合同。
最近有一篇文章,有兩點(diǎn)證實(shí)了這一點(diǎn):
即使是 OpenAI 也無(wú)法獲得足夠的 GPU,這嚴(yán)重限制了其近期的發(fā)展路線圖。由于 GPU 短缺,OpenAI 無(wú)法部署其多模式模型。
盡管 Nvidia 試圖大幅提高產(chǎn)量,但最高端的 Nvidia GPU H100 仍將缺貨。
同時(shí),GPU 基準(zhǔn)測(cè)試數(shù)據(jù)表明,在許多用例中,您不需要最新、最強(qiáng)大的 GPU。消費(fèi)級(jí) GPU(RTX3090、A5000、RTX4090 等)不僅具有高可用性,而且 每美元可提供更多的推理,從而大大降低您的云成本。
在正確的階段選擇“合適大小”的 GPU 可以讓生成式 AI 公司走上盈利、可擴(kuò)展的增長(zhǎng)之路,降低云成本,并免受“GPU 短缺”的影響。
如何找到“合適尺寸”的 GPU?
在確定適合您應(yīng)用程序的“合適大小” GPU 時(shí),需要考慮幾個(gè)因素。第一步是評(píng)估應(yīng)用程序在 AI 模型生命周期的每個(gè)階段的需求。這意味著要考慮數(shù)據(jù)預(yù)處理、訓(xùn)練和推理等任務(wù)的不同計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)要求。
訓(xùn)練模型
在機(jī)器學(xué)習(xí)模型的訓(xùn)練階段,通常需要大量的計(jì)算資源。這包括使用高性能圖形處理單元 (GPU),其數(shù)量可能從數(shù)百到數(shù)千個(gè)不等。這些 GPU 需要通過(guò)專門設(shè)計(jì)的集群中的閃電般快速的網(wǎng)絡(luò)連接進(jìn)行連接,以確保機(jī)器學(xué)習(xí)模型獲得有效訓(xùn)練所需的資源。這些專門設(shè)計(jì)的集群針對(duì)機(jī)器學(xué)習(xí)的特定需求進(jìn)行了優(yōu)化,能夠處理訓(xùn)練階段所需的大量計(jì)算需求。
示例:訓(xùn)練Stable Diffusion(大約成本:60 萬(wàn)美元)

服務(wù)模型(推理)
在為您的模型提供服務(wù)時(shí),可擴(kuò)展性和吞吐量尤為重要。通過(guò)仔細(xì)考慮這些因素,您可以確保您的基礎(chǔ)設(shè)施能夠滿足不斷增長(zhǎng)的用戶群的需求。這包括注意預(yù)算限制和架構(gòu)考慮。
值得注意的是,在許多例子中,用于 推理的 GPU 要求明顯低于用于訓(xùn)練的 GPU 要求。盡管如此,許多人仍繼續(xù)使用相同的 GPU 執(zhí)行這兩項(xiàng)任務(wù)。這可能會(huì)導(dǎo)致效率低下,因?yàn)橛布赡芪瘁槍?duì)每項(xiàng)任務(wù)的獨(dú)特需求進(jìn)行優(yōu)化。通過(guò)花時(shí)間仔細(xì)評(píng)估您的基礎(chǔ)設(shè)施需求并進(jìn)行必要的調(diào)整,您可以確保您的系統(tǒng)盡可能高效、有效地運(yùn)行。
示例 1:消費(fèi)級(jí) GPU 上每美元可獲得的圖像數(shù)量增加 6 倍
在最近的 Stable Diffusion 基準(zhǔn)測(cè)試中,與專注于 AI 的 GPU 相比,消費(fèi)級(jí) GPU 每美元可生成 4 至 8 倍的圖像。大多數(shù)文本轉(zhuǎn)圖像領(lǐng)域的生成式 AI 公司都可以使用消費(fèi)級(jí) GPU 進(jìn)行大規(guī)模推理。經(jīng)濟(jì)性和可用性使其成為此用例的贏家。

示例 2:提供Stable Diffusion XL
在最近推出 SDXL 的公告中,Stability.ai 指出 SDXL 0.9 可在僅具有 16GB RAM 和至少 8GB vRAM 的現(xiàn)代消費(fèi)級(jí) GPU 上運(yùn)行。
大規(guī)模提供“合適規(guī)模”的人工智能推理
在捷智算平臺(tái),我們深知能夠在不花太多錢的情況下大規(guī)模提供 AI/ML 推理的重要性。因此,我們創(chuàng)建了一個(gè)全球分布的消費(fèi)級(jí) GPU 網(wǎng)絡(luò),該網(wǎng)絡(luò)從頭開(kāi)始設(shè)計(jì),以滿足您的需求。我們的客戶發(fā)現(xiàn),轉(zhuǎn)向捷智算平臺(tái)而不是依賴大型云計(jì)算提供商不僅可以節(jié)省 高達(dá) 90% 的云成本,還可以改善他們的產(chǎn)品供應(yīng)并減少開(kāi)發(fā)運(yùn)營(yíng)時(shí)間。
示例:24 小時(shí)內(nèi)生成 900 多萬(wàn)張圖片,僅需 1872 美元
在最近為客戶進(jìn)行的基準(zhǔn)測(cè)試中,我們?cè)?24 小時(shí)內(nèi)生成了 920 萬(wàn)張穩(wěn)定擴(kuò)散圖像,成本僅為 1872 美元 - 全部使用 Nvidia 的 3000/4000 系列 GPU。這意味著每美元可以生成約 5000 張圖像,從而為這家圖像生成公司節(jié)省了大量成本。

使用捷智算平臺(tái),您無(wú)需擔(dān)心昂貴的基礎(chǔ)設(shè)施維護(hù)或意外停機(jī)。如果它在您的系統(tǒng)上有效,它也可以應(yīng)用于捷智算平臺(tái)。相反,您可以專注于真正重要的事情 - 服務(wù)于不斷增長(zhǎng)的用戶群,同時(shí)保持盈利。
要了解您的用例是否適合消費(fèi)級(jí) GPU, 請(qǐng)立即聯(lián)系我們的團(tuán)隊(duì)。
