正在閱讀:

新卡皇RTX 4090來了,黃仁勛甩多枚新“核彈”炸場游戲、汽車與元宇宙

掃一掃下載界面新聞APP

新卡皇RTX 4090來了,黃仁勛甩多枚新“核彈”炸場游戲、汽車與元宇宙

旗艦顯卡售價12999元起,比頂配iPhone 14 Pro Max還便宜。

文|芯東西 ZeR0

編輯|漠影

芯東西9月21日報道,昨夜,NVIDIA(英偉達(dá))推出新一代GeForce RTX 40系列顯卡。

作為全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的GPU,RTX 40系列在性能和效率上都實(shí)現(xiàn)了巨大的代際飛躍。

其中,新旗艦產(chǎn)品RTX 4090 GPU的現(xiàn)代游戲性能相較上一代3090 Ti提升最高可達(dá)2倍,光線追蹤游戲性能的提升最高達(dá)到4倍,開大招DLSS 3后暢玩4K賽博朋克都不在話下。

英偉達(dá)創(chuàng)始人兼CEO黃仁勛在GTC大會主題演講的GeForce Beyond特別直播上介紹道,這意味著實(shí)時光線追蹤和利用AI生成像素的神經(jīng)網(wǎng)絡(luò)渲染的新時代已然來臨。

首發(fā)的40系列有三款。旗艦產(chǎn)品RTX 4090 24GB將于10月12日上市,建議零售價12999元起。RTX 4080 16GB、RTX 4080 12GB將于11月上市,建議零售價分別為9499元起和7199元起。

相比之下,RTX 3090首發(fā)價是11999元起,RTX 3090 Ti首發(fā)價是14999元起,一臺頂配iPhone 14 Pro Max首發(fā)價是13499元。

這么一看,RTX 4090的性價比“真香”。

華碩、七彩虹、耕升、影馳、技嘉、映眾、微星和索泰等頂級顯卡供應(yīng)商將在中國推出GeForce RTX 4090和4080 GPU標(biāo)頻版和超頻版。RTX 40系列GPU還會通過宏碁、外星人、華碩、戴爾、惠普、聯(lián)想、微星等全球領(lǐng)先OEM的產(chǎn)品出售。

NVIDIA還將限量推出RTX 4090和RTX 4080(16GB)FE版,以滿足粉絲需求。

這些還只是GTC主題演講的“前菜”,同樣利用Ada Lovelace架構(gòu),英偉達(dá)面向自動駕駛計算推出了超級芯片DRIVE Thor,算力較上一代DRIVE Orin翻倍,浮點(diǎn)性能達(dá)2000 TFLOPS。

專為元宇宙應(yīng)用打造的OVX計算機(jī)也升級至第二代,搭載了新Ada Lovelace L40數(shù)據(jù)中心GPU。

還有新款微型機(jī)器人計算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。

此外,英偉達(dá)在今年4月面向數(shù)據(jù)中心發(fā)布的旗艦計算產(chǎn)品H100 GPU同樣迎來關(guān)鍵進(jìn)展——全面投產(chǎn)。

面向元宇宙應(yīng)用,英偉達(dá)還首次通過云服務(wù)進(jìn)一步拓展其平臺的覆蓋范圍——發(fā)布英偉達(dá)首款軟件和基礎(chǔ)設(shè)施即服務(wù)(IaaS)產(chǎn)品Omniverse Cloud,為元宇宙應(yīng)用的設(shè)計、發(fā)布、運(yùn)營和體驗(yàn)提供全面的云服務(wù)。

01 40系顯卡秒全場,臺積電定制版4N工藝

在將近25年前,英偉達(dá)推出了可編程著色GPU,GPU徹底改變3D圖形。

2018年,在全球計算機(jī)圖形圖像頂會SIGGRAPH上,英偉達(dá)推出全新GPU架構(gòu)NVIDIA RTX,通過兩個全新處理器來擴(kuò)展可編程著色器——RT Core用于加速實(shí)時光線追蹤,Tensor Core用于處理矩陣運(yùn)算、加速AI。

今天,英偉達(dá)憋了4年的大招——第三代RTX架構(gòu)Ada Lovelace,終于正式登場!

這代RTX以數(shù)學(xué)家Ada Lovelace的名字命名,她被公認(rèn)為世界上第一位計算機(jī)程序員。

據(jù)介紹,Ada GPU可實(shí)現(xiàn)2倍的傳統(tǒng)光柵化游戲性能提升,對光線追蹤游戲的性能提升可以高達(dá)4倍。相較上一代Ampere架構(gòu),Ada在相同功耗下可帶來超過2倍的性能提升。

“Ada正在為完全基于仿真的未來游戲鋪路。”黃仁勛說。

今天英偉達(dá)推出的基于Ada Lovelace架構(gòu)的GPU有三款:GeForce RTX 4090提供24GB版本,GeForce RTX 4080提供16GB和12GB版本。

GeForce RTX 4090 GPU是全新GeForce RTX 40系列的旗艦產(chǎn)品,是全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的游戲GPU。

RTX 4090擁有760億個晶體管、16384個CUDA核心和24 GB高速美光GDDR6X顯存,在4K分辨率的游戲中持續(xù)以超過100 FPS運(yùn)行,在功耗、靜音、散熱等方面的提升都非常顯著。

在完整的光線追蹤游戲中,與前一代采用DLSS 2的旗艦GPU RTX 3090 Ti相比,采用DLSS 3的RTX 4090的性能提升可達(dá)4倍。

在現(xiàn)代游戲中,RTX 4090的性能提升高達(dá)2倍,同時保持了跟RTX 3090 Ti相同的450W功耗。

實(shí)現(xiàn)性能飆升的一個關(guān)鍵,是Ada引入了全新的NVIDIA DLSS 3超分辨率技術(shù)。該功能可在不影響畫質(zhì)和響應(yīng)速度的前提下,使用低分辨率內(nèi)容作為輸入,并運(yùn)用AI技術(shù)創(chuàng)造更多高質(zhì)量幀。

黃仁勛說,玩像《賽博朋克2077》這樣的現(xiàn)代光線追蹤游戲,需對每個像素執(zhí)行超過600次光線追蹤計算來確定光照,與4年前推出的首批光線追蹤游戲相比提升高達(dá)16倍。但GPU中負(fù)責(zé)此類計算的晶體管數(shù)量并沒有以同比增加,借助AI,英偉達(dá)在4年內(nèi)將性能提升了16倍。

無論是對GPU性能要求較高的游戲,還是受到CPU限制的游戲,都將從該技術(shù)中受益。3D藝術(shù)家無需代理就可以利用精確的物理學(xué)和逼真的材料渲染完整的光線追蹤環(huán)境,并實(shí)時查看效果。

兩款次旗艦RTX 4080的配置則明顯跟RTX 4090拉開了差距。

RTX 4080 16GB擁有9728個CUDA核心和16 GB高速美光GDDR6X顯存,在現(xiàn)代游戲中的性能可達(dá)GeForce RTX 3080 Ti的2倍;在較低功率下,性能比GeForce RTX 3090 Ti更強(qiáng)。

RTX 4080 12GB擁有7680個CUDA核心和12GB 美光 GDDR6X顯存,性能跟3090 Ti同級。

02 7大技術(shù)創(chuàng)新,帶飛RTX 40系列性能

這次RTX 40系列GPU的性能大幅提升,背后有一系列技術(shù)創(chuàng)新的支撐。

1、架構(gòu)上的改進(jìn):英偉達(dá)與臺積電合作創(chuàng)建了針對GPU優(yōu)化的4N定制工藝,使RTX 40系列能夠集成760億個晶體管、超過18000個CUDA核心,較上一代Ampere多了70%,性能功耗比提升高達(dá)2倍。

2、SM流式多處理器:具有高達(dá)90 TFLOPS的著色器能力,吞吐量超過上一代產(chǎn)品2倍。

3、著色器執(zhí)行重排序(SER):通過即時重新安排著色器負(fù)載來提高執(zhí)行效率,從而更好地利用GPU資源。該技術(shù)可以實(shí)時重新調(diào)度任務(wù),被黃仁勛稱作是“與CPU的亂序執(zhí)行一樣的重大創(chuàng)新”,可將光線追蹤性能提升2-3倍,整體游戲性能提升25%。

4、第三代RT Cores:有效光線追蹤計算能力達(dá)到191 TFLOPS,是上一代產(chǎn)品2.8倍。

第三代RT Cores可提供2倍的光線與三角形求交性能,及兩個全新的重要硬件單元。Opacity Micromap引擎將光線追蹤的Alpha-Test幾何性能提升2倍;Micro-Mesh引擎可動態(tài)生成微網(wǎng)格,以產(chǎn)生額外的幾何圖形,可在提升幾何圖形豐富度的同時,不以傳統(tǒng)復(fù)雜幾何圖形處理的性能和存儲成本為代價。

5、第四代Tensor Cores:新增Hopper FP8 Transformer Engine,F(xiàn)P8張量處理性能高達(dá)1.4 Petaflops,超過上一代使用FP8加速性能的5倍。

6、Ada光流加速器:帶來2倍的性能提升,使DLSS 3能夠預(yù)測場景中的運(yùn)動,使神經(jīng)網(wǎng)絡(luò)能夠在保持圖像質(zhì)量的同時提高幀率。

7、雙NVIDIA編碼器(NVENC)將輸出時間至多縮短一半,并支持AV1。OBS、Blackmagic Design DaVinci Resolve、Discord以及更多的公司都已在采用NVENC AV1編碼器。

03 2000 TFLOPS,最強(qiáng)自動駕駛超級芯片來了

在推出新一代自動駕駛芯片前,黃仁勛照例先回顧了一遍戰(zhàn)績:英偉達(dá)在2018年推出的Xavier是世界上第一款專為深度學(xué)習(xí)設(shè)計的機(jī)器人處理器,此后每隔兩年,英偉達(dá)就會發(fā)布性能飛躍的新一代處理器。去年,英偉達(dá)發(fā)布的Altan更是將峰值性能拉到了1000 TOPS。

今天,黃仁勛放出新的大招——NVIDIA DRIVE Thor的吞吐量達(dá)到Atlan的2倍,整型峰值性能可達(dá)2000 TOPS,F(xiàn)P8精度的峰值性能可達(dá)到2000 TFLOPS,同時降低整體系統(tǒng)成本,目標(biāo)是汽車制造商的2025年車型。

實(shí)現(xiàn)這一目標(biāo),得益于三個因素:Grace CPU、Hopper GPU和Ada Lovelace GPU。Hopper集成的Transformer引擎有助于加速計算,Ada中多實(shí)例GPU的發(fā)明將有助于車載計算資源的集中化,可將成本降低數(shù)百美元。

Thor可配置為多種模式,可將其算力全部用于自動駕駛工作流,或者將其中一部分用于駕駛艙AI和信息娛樂,另一部分用于駕駛員輔助。

Thor的多計算域隔離,使其允許并發(fā)的、對時間敏感的多進(jìn)程無中斷運(yùn)行。車輛可以在一臺計算機(jī)上,同時運(yùn)行Linux、QNX和Android。

當(dāng)前汽車的停車、主動安全、駕駛員監(jiān)控、攝像頭鏡像、集群、信息娛樂等功能由不同的計算設(shè)備控制,未來這些功能可以統(tǒng)一由Thor支撐。

兩個DRIVE Thor還能利用最新的NVLink-C2C芯片互連技術(shù)“拼接”成一塊功能更強(qiáng)的芯片,作為運(yùn)行單個操作系統(tǒng)的整體平臺。

回到英偉達(dá)第二代機(jī)器人處理器DRIVE Orin上,Orin已經(jīng)被40多家汽車、卡車、無人駕駛出租車和穿梭巴士的制造公司采用。自動駕駛汽車的基本處理流水線可應(yīng)用于各種機(jī)器人系統(tǒng)。

Jetson系列是英偉達(dá)打造的機(jī)器人計算機(jī),擁有100萬開發(fā)者,在本屆GTC大會上,黃仁勛宣布推出一款微型機(jī)器人計算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。

有移動的機(jī)器人,也有觀察移動物體的機(jī)器人系統(tǒng)。英偉達(dá)邊緣AI平臺Metropolis的下載量已達(dá)100萬次,在全球擁有1000多家應(yīng)用合作伙伴。Orin還是Metropolis運(yùn)行所在的工業(yè)級IGX Edge AI平臺的機(jī)器人處理器。

全球大型工業(yè)自動化公司西門子將Metropolis和Orin IGX用于其工業(yè)邊緣計算平臺。

除了機(jī)器人開發(fā)外,Orin IGX也是醫(yī)療影像應(yīng)用的理想計算平臺。在Orin IGX上運(yùn)行的NVIDIA Clara Holoscan是一個低延遲的成像處理平臺,包含用于數(shù)據(jù)處理、AI模型訓(xùn)練、仿真和機(jī)器人開發(fā)應(yīng)用的庫。70多家領(lǐng)先的醫(yī)療設(shè)備公司、創(chuàng)企及醫(yī)療中心都在Clara Holoscan上進(jìn)行開發(fā)。

Activ Surgical、Proximie和Moon Surgical將在運(yùn)行于Orin IGX平臺的NVIDIA Clara Holoscan上構(gòu)建其手術(shù)機(jī)器人系統(tǒng)。

04 劍指元宇宙:第二代OVX計算機(jī)升級Ada架構(gòu),推出首款I(lǐng)aas云服務(wù)

面向元宇宙應(yīng)用,黃仁勛宣布推出第二代OVX計算機(jī),由全新Ada Lovelace L40數(shù)據(jù)中心GPU和增強(qiáng)的網(wǎng)絡(luò)技術(shù)提供支持,以提供突破性的實(shí)時圖形、AI和數(shù)字孿生模擬功能。

借助48GB超大幀緩沖區(qū),擁有8個L40 GPU的第二代OVX將能完成超大的Omniverse虛擬世界仿真。L40 GPU已全面進(jìn)入量產(chǎn)。第二代OVX系統(tǒng)將于明年年初向市場提供。

除了元宇宙專屬硬件外,英偉達(dá)還打造了其首款I(lǐng)aaS產(chǎn)品Omniverse Cloud服務(wù),可連接在云、本地或設(shè)備上運(yùn)行的Omniverse應(yīng)用。個人或團(tuán)隊可以借助該服務(wù)一鍵體驗(yàn)設(shè)計和協(xié)作3D工作流程的能力,而無需任何本地計算能力。

新的Omniverse容器現(xiàn)已可用于云部署,包括用于生成合成數(shù)據(jù)的Replicator、用于擴(kuò)展渲染農(nóng)場的Farm、用于構(gòu)建和訓(xùn)練AI機(jī)器人的Isaac Sim等。

英偉達(dá)為自主移動機(jī)器人打造的Isaac平臺進(jìn)入云端后,用戶可在NGC上獲取云就緒的Omniverse VMI虛擬機(jī)鏡像和Isaac容器,并將其部署到任何公有云上。

05 從云端到超算,H100全面投產(chǎn)

最后,我們來看一下面向數(shù)據(jù)中心和高性能計算的加速計算最新進(jìn)展。

黃仁勛說,NVIDIA平臺現(xiàn)已擁有350萬名開發(fā)者,12000家創(chuàng)企正基于英偉達(dá)的產(chǎn)品開創(chuàng)新業(yè)務(wù),英偉達(dá)通過550個SDK和AI模型為約3000個應(yīng)用提供加速。“總體來說,我們所服務(wù)的各行業(yè)總價值約為100萬億美元。”

面向數(shù)據(jù)中心,英偉達(dá)在今年4月發(fā)布的最新旗艦產(chǎn)品H100 Tensor Core GPU已經(jīng)進(jìn)入大規(guī)模量產(chǎn)。

H100包含800億個晶體管,采用了全新Hopper架構(gòu)、Transformer引擎、第二代多實(shí)例GPU、機(jī)密計算、第四代NVIDIA NVLink互連、DPX指令等多種創(chuàng)新技術(shù),能夠被用于加速高級推薦系統(tǒng)、大型語言模型等超大規(guī)模的AI模型訓(xùn)練。

據(jù)介紹,H100使企業(yè)能夠削減AI的部署成本,相較于上一代A100,在提供相同AI性能的情況下,可將能效提高3.5倍,總體擁有成本減少至1/3,所使用的服務(wù)器節(jié)點(diǎn)數(shù)也減少至1/5。

英偉達(dá)全球技術(shù)合作伙伴計劃于10月推出首批基于NVIDIA Hopper架構(gòu)的產(chǎn)品和服務(wù),到今年年底預(yù)計將有超過50款服務(wù)器型號面市,2023年上半年還將有數(shù)十款型號面市。

AWS、谷歌云、微軟Azure、Oracle Cloud Infrastructure將從明年開始率先在云端部署基于H100的實(shí)例。數(shù)家全球領(lǐng)先的高等教育和研究機(jī)構(gòu)的新一代超級計算機(jī)也將采用H100。

DGX H100系統(tǒng)現(xiàn)在即可訂購。該系統(tǒng)FP8精度的峰值性能可達(dá)到32 PFlops。每個DGX系統(tǒng)都包含NVIDIA Base Command和NVIDIA AI Enterprise軟件,可實(shí)現(xiàn)從單一節(jié)點(diǎn)到NVIDIA DGX SuperPOD的集群部署。

在軟件支持上,H100現(xiàn)包含為期五年的NVIDIA AI Enterprise軟件套件許可,這將優(yōu)化AI工作流程的開發(fā)部署,確保用戶可獲得構(gòu)建AI聊天機(jī)器人、推薦引擎、視覺AI等所需的AI框架和工具。

一些全球領(lǐng)先的大型語言模型和深度學(xué)習(xí)框架正在H100上進(jìn)行優(yōu)化,這些框架與Hopper架構(gòu)相結(jié)合,能夠顯著提升AI性能,將大型語言模型的訓(xùn)練時間縮短到幾天乃至幾小時。

06 推出兩種大型語言模型云服務(wù),助攻生物醫(yī)學(xué)研究

大型語言模型(LLM)是當(dāng)今最重要的AI模型之一。借助LLM,用戶只需通過較少的樣本來精調(diào)模型,就能高效執(zhí)行特定任務(wù)。Hopper架構(gòu)則有助于降低LLM的訓(xùn)練及部署門檻。

今天,英偉達(dá)推出Nemo LLM云服務(wù),用于訓(xùn)練大型語言模型。

Nemo包含社區(qū)構(gòu)建的一系列預(yù)訓(xùn)練基礎(chǔ)模型,其API可生成習(xí)得的提示embedding表和優(yōu)化的微服務(wù),可部署在本地、云中,適用于一個GPU或者多個GPU、多個節(jié)點(diǎn)?,F(xiàn)在注冊,10月就能搶先體驗(yàn)這項(xiàng)服務(wù)。

英偉達(dá)還推出了BioNeMo LLM服務(wù),用于訓(xùn)練和部署超算規(guī)模的大型生物分子語言模型。

領(lǐng)先的制藥公司、生物技術(shù)初創(chuàng)企業(yè)和前沿生物研究人員正在使用BioNeMo LLM服務(wù)和框架來開發(fā)用于生成、預(yù)測和理解生物分子數(shù)據(jù)的AI應(yīng)用,從而更好地了解疾病,并找到治療方法。

NVIDIA BioNeMo LLM服務(wù)將提供4個預(yù)訓(xùn)練語言模型:

1、ESM-1:這一最初由Meta AI Labs發(fā)布的蛋白質(zhì)LLM能夠處理氨基酸序列,最終生成用于預(yù)測各種蛋白質(zhì)特性和功能的表征。它還提高了科學(xué)家理解蛋白質(zhì)結(jié)構(gòu)的能力。

2、OpenFold:這是由學(xué)術(shù)界和產(chǎn)業(yè)界共同成立的Openfold聯(lián)盟創(chuàng)建的sota蛋白質(zhì)建模工具,可通過BioNeMo服務(wù)提供其開源AI工作流程。

3、MegaMolBART:這一基于14億分子訓(xùn)練而成的生成式化學(xué)模型可用于反應(yīng)預(yù)測、分子優(yōu)化和新分子的生成。

4、ProtT5:該模型是在慕尼黑工業(yè)大學(xué)RostLab的帶領(lǐng)下合作開發(fā)的,NVIDIA也是該項(xiàng)目的參與者之一。PortT5將ESM-1b等蛋白質(zhì)LLM的功能擴(kuò)展到序列生成。

這些模型針對推理進(jìn)行了優(yōu)化,并將通過NVIDIA DGX Foundry上運(yùn)行的云端API提供搶先體驗(yàn)。

07 結(jié)語:英偉達(dá)已成為一家全棧式計算公司

英偉達(dá)在1999年發(fā)明的GPU,激發(fā)PC游戲市場的增長、重新定義了計算機(jī)顯卡并助燃了現(xiàn)代AI普及的浪潮。此次新推出的Ada Lovelace一代GPU,改進(jìn)了作為神經(jīng)渲染引擎的全部三個RTX處理器,對于游戲玩家、虛擬世界創(chuàng)作者都帶來了新的生產(chǎn)力工具。

可以看到,如今的英偉達(dá)已發(fā)展成為一家全棧式計算公司,無論是加速計算,還是計算機(jī)圖形,都通過在架構(gòu)、設(shè)計和算法方面進(jìn)行創(chuàng)新疊加來實(shí)現(xiàn)性能的突破。與此同時,AI技術(shù)已經(jīng)滲透到英偉達(dá)產(chǎn)品的各個角落,用于與更多技術(shù)創(chuàng)新的結(jié)合,推動科學(xué)及工業(yè)領(lǐng)域更多AI新應(yīng)用的突破,并為數(shù)字經(jīng)濟(jì)發(fā)展提供動力。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

英偉達(dá)

6.9k
  • 美股三大指數(shù)集體收漲,道指、標(biāo)普500指數(shù)均連漲六日
  • 傳將分拆中國業(yè)務(wù),英偉達(dá):這些說法沒有任何依據(jù)

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

新卡皇RTX 4090來了,黃仁勛甩多枚新“核彈”炸場游戲、汽車與元宇宙

旗艦顯卡售價12999元起,比頂配iPhone 14 Pro Max還便宜。

文|芯東西 ZeR0

編輯|漠影

芯東西9月21日報道,昨夜,NVIDIA(英偉達(dá))推出新一代GeForce RTX 40系列顯卡。

作為全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的GPU,RTX 40系列在性能和效率上都實(shí)現(xiàn)了巨大的代際飛躍。

其中,新旗艦產(chǎn)品RTX 4090 GPU的現(xiàn)代游戲性能相較上一代3090 Ti提升最高可達(dá)2倍,光線追蹤游戲性能的提升最高達(dá)到4倍,開大招DLSS 3后暢玩4K賽博朋克都不在話下。

英偉達(dá)創(chuàng)始人兼CEO黃仁勛在GTC大會主題演講的GeForce Beyond特別直播上介紹道,這意味著實(shí)時光線追蹤和利用AI生成像素的神經(jīng)網(wǎng)絡(luò)渲染的新時代已然來臨。

首發(fā)的40系列有三款。旗艦產(chǎn)品RTX 4090 24GB將于10月12日上市,建議零售價12999元起。RTX 4080 16GB、RTX 4080 12GB將于11月上市,建議零售價分別為9499元起和7199元起。

相比之下,RTX 3090首發(fā)價是11999元起,RTX 3090 Ti首發(fā)價是14999元起,一臺頂配iPhone 14 Pro Max首發(fā)價是13499元。

這么一看,RTX 4090的性價比“真香”。

華碩、七彩虹、耕升、影馳、技嘉、映眾、微星和索泰等頂級顯卡供應(yīng)商將在中國推出GeForce RTX 4090和4080 GPU標(biāo)頻版和超頻版。RTX 40系列GPU還會通過宏碁、外星人、華碩、戴爾、惠普、聯(lián)想、微星等全球領(lǐng)先OEM的產(chǎn)品出售。

NVIDIA還將限量推出RTX 4090和RTX 4080(16GB)FE版,以滿足粉絲需求。

這些還只是GTC主題演講的“前菜”,同樣利用Ada Lovelace架構(gòu),英偉達(dá)面向自動駕駛計算推出了超級芯片DRIVE Thor,算力較上一代DRIVE Orin翻倍,浮點(diǎn)性能達(dá)2000 TFLOPS。

專為元宇宙應(yīng)用打造的OVX計算機(jī)也升級至第二代,搭載了新Ada Lovelace L40數(shù)據(jù)中心GPU。

還有新款微型機(jī)器人計算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。

此外,英偉達(dá)在今年4月面向數(shù)據(jù)中心發(fā)布的旗艦計算產(chǎn)品H100 GPU同樣迎來關(guān)鍵進(jìn)展——全面投產(chǎn)。

面向元宇宙應(yīng)用,英偉達(dá)還首次通過云服務(wù)進(jìn)一步拓展其平臺的覆蓋范圍——發(fā)布英偉達(dá)首款軟件和基礎(chǔ)設(shè)施即服務(wù)(IaaS)產(chǎn)品Omniverse Cloud,為元宇宙應(yīng)用的設(shè)計、發(fā)布、運(yùn)營和體驗(yàn)提供全面的云服務(wù)。

01 40系顯卡秒全場,臺積電定制版4N工藝

在將近25年前,英偉達(dá)推出了可編程著色GPU,GPU徹底改變3D圖形。

2018年,在全球計算機(jī)圖形圖像頂會SIGGRAPH上,英偉達(dá)推出全新GPU架構(gòu)NVIDIA RTX,通過兩個全新處理器來擴(kuò)展可編程著色器——RT Core用于加速實(shí)時光線追蹤,Tensor Core用于處理矩陣運(yùn)算、加速AI。

今天,英偉達(dá)憋了4年的大招——第三代RTX架構(gòu)Ada Lovelace,終于正式登場!

這代RTX以數(shù)學(xué)家Ada Lovelace的名字命名,她被公認(rèn)為世界上第一位計算機(jī)程序員。

據(jù)介紹,Ada GPU可實(shí)現(xiàn)2倍的傳統(tǒng)光柵化游戲性能提升,對光線追蹤游戲的性能提升可以高達(dá)4倍。相較上一代Ampere架構(gòu),Ada在相同功耗下可帶來超過2倍的性能提升。

“Ada正在為完全基于仿真的未來游戲鋪路?!秉S仁勛說。

今天英偉達(dá)推出的基于Ada Lovelace架構(gòu)的GPU有三款:GeForce RTX 4090提供24GB版本,GeForce RTX 4080提供16GB和12GB版本。

GeForce RTX 4090 GPU是全新GeForce RTX 40系列的旗艦產(chǎn)品,是全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的游戲GPU。

RTX 4090擁有760億個晶體管、16384個CUDA核心和24 GB高速美光GDDR6X顯存,在4K分辨率的游戲中持續(xù)以超過100 FPS運(yùn)行,在功耗、靜音、散熱等方面的提升都非常顯著。

在完整的光線追蹤游戲中,與前一代采用DLSS 2的旗艦GPU RTX 3090 Ti相比,采用DLSS 3的RTX 4090的性能提升可達(dá)4倍。

在現(xiàn)代游戲中,RTX 4090的性能提升高達(dá)2倍,同時保持了跟RTX 3090 Ti相同的450W功耗。

實(shí)現(xiàn)性能飆升的一個關(guān)鍵,是Ada引入了全新的NVIDIA DLSS 3超分辨率技術(shù)。該功能可在不影響畫質(zhì)和響應(yīng)速度的前提下,使用低分辨率內(nèi)容作為輸入,并運(yùn)用AI技術(shù)創(chuàng)造更多高質(zhì)量幀。

黃仁勛說,玩像《賽博朋克2077》這樣的現(xiàn)代光線追蹤游戲,需對每個像素執(zhí)行超過600次光線追蹤計算來確定光照,與4年前推出的首批光線追蹤游戲相比提升高達(dá)16倍。但GPU中負(fù)責(zé)此類計算的晶體管數(shù)量并沒有以同比增加,借助AI,英偉達(dá)在4年內(nèi)將性能提升了16倍。

無論是對GPU性能要求較高的游戲,還是受到CPU限制的游戲,都將從該技術(shù)中受益。3D藝術(shù)家無需代理就可以利用精確的物理學(xué)和逼真的材料渲染完整的光線追蹤環(huán)境,并實(shí)時查看效果。

兩款次旗艦RTX 4080的配置則明顯跟RTX 4090拉開了差距。

RTX 4080 16GB擁有9728個CUDA核心和16 GB高速美光GDDR6X顯存,在現(xiàn)代游戲中的性能可達(dá)GeForce RTX 3080 Ti的2倍;在較低功率下,性能比GeForce RTX 3090 Ti更強(qiáng)。

RTX 4080 12GB擁有7680個CUDA核心和12GB 美光 GDDR6X顯存,性能跟3090 Ti同級。

02 7大技術(shù)創(chuàng)新,帶飛RTX 40系列性能

這次RTX 40系列GPU的性能大幅提升,背后有一系列技術(shù)創(chuàng)新的支撐。

1、架構(gòu)上的改進(jìn):英偉達(dá)與臺積電合作創(chuàng)建了針對GPU優(yōu)化的4N定制工藝,使RTX 40系列能夠集成760億個晶體管、超過18000個CUDA核心,較上一代Ampere多了70%,性能功耗比提升高達(dá)2倍。

2、SM流式多處理器:具有高達(dá)90 TFLOPS的著色器能力,吞吐量超過上一代產(chǎn)品2倍。

3、著色器執(zhí)行重排序(SER):通過即時重新安排著色器負(fù)載來提高執(zhí)行效率,從而更好地利用GPU資源。該技術(shù)可以實(shí)時重新調(diào)度任務(wù),被黃仁勛稱作是“與CPU的亂序執(zhí)行一樣的重大創(chuàng)新”,可將光線追蹤性能提升2-3倍,整體游戲性能提升25%。

4、第三代RT Cores:有效光線追蹤計算能力達(dá)到191 TFLOPS,是上一代產(chǎn)品2.8倍。

第三代RT Cores可提供2倍的光線與三角形求交性能,及兩個全新的重要硬件單元。Opacity Micromap引擎將光線追蹤的Alpha-Test幾何性能提升2倍;Micro-Mesh引擎可動態(tài)生成微網(wǎng)格,以產(chǎn)生額外的幾何圖形,可在提升幾何圖形豐富度的同時,不以傳統(tǒng)復(fù)雜幾何圖形處理的性能和存儲成本為代價。

5、第四代Tensor Cores:新增Hopper FP8 Transformer Engine,F(xiàn)P8張量處理性能高達(dá)1.4 Petaflops,超過上一代使用FP8加速性能的5倍。

6、Ada光流加速器:帶來2倍的性能提升,使DLSS 3能夠預(yù)測場景中的運(yùn)動,使神經(jīng)網(wǎng)絡(luò)能夠在保持圖像質(zhì)量的同時提高幀率。

7、雙NVIDIA編碼器(NVENC)將輸出時間至多縮短一半,并支持AV1。OBS、Blackmagic Design DaVinci Resolve、Discord以及更多的公司都已在采用NVENC AV1編碼器。

03 2000 TFLOPS,最強(qiáng)自動駕駛超級芯片來了

在推出新一代自動駕駛芯片前,黃仁勛照例先回顧了一遍戰(zhàn)績:英偉達(dá)在2018年推出的Xavier是世界上第一款專為深度學(xué)習(xí)設(shè)計的機(jī)器人處理器,此后每隔兩年,英偉達(dá)就會發(fā)布性能飛躍的新一代處理器。去年,英偉達(dá)發(fā)布的Altan更是將峰值性能拉到了1000 TOPS。

今天,黃仁勛放出新的大招——NVIDIA DRIVE Thor的吞吐量達(dá)到Atlan的2倍,整型峰值性能可達(dá)2000 TOPS,F(xiàn)P8精度的峰值性能可達(dá)到2000 TFLOPS,同時降低整體系統(tǒng)成本,目標(biāo)是汽車制造商的2025年車型。

實(shí)現(xiàn)這一目標(biāo),得益于三個因素:Grace CPU、Hopper GPU和Ada Lovelace GPU。Hopper集成的Transformer引擎有助于加速計算,Ada中多實(shí)例GPU的發(fā)明將有助于車載計算資源的集中化,可將成本降低數(shù)百美元。

Thor可配置為多種模式,可將其算力全部用于自動駕駛工作流,或者將其中一部分用于駕駛艙AI和信息娛樂,另一部分用于駕駛員輔助。

Thor的多計算域隔離,使其允許并發(fā)的、對時間敏感的多進(jìn)程無中斷運(yùn)行。車輛可以在一臺計算機(jī)上,同時運(yùn)行Linux、QNX和Android。

當(dāng)前汽車的停車、主動安全、駕駛員監(jiān)控、攝像頭鏡像、集群、信息娛樂等功能由不同的計算設(shè)備控制,未來這些功能可以統(tǒng)一由Thor支撐。

兩個DRIVE Thor還能利用最新的NVLink-C2C芯片互連技術(shù)“拼接”成一塊功能更強(qiáng)的芯片,作為運(yùn)行單個操作系統(tǒng)的整體平臺。

回到英偉達(dá)第二代機(jī)器人處理器DRIVE Orin上,Orin已經(jīng)被40多家汽車、卡車、無人駕駛出租車和穿梭巴士的制造公司采用。自動駕駛汽車的基本處理流水線可應(yīng)用于各種機(jī)器人系統(tǒng)。

Jetson系列是英偉達(dá)打造的機(jī)器人計算機(jī),擁有100萬開發(fā)者,在本屆GTC大會上,黃仁勛宣布推出一款微型機(jī)器人計算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。

有移動的機(jī)器人,也有觀察移動物體的機(jī)器人系統(tǒng)。英偉達(dá)邊緣AI平臺Metropolis的下載量已達(dá)100萬次,在全球擁有1000多家應(yīng)用合作伙伴。Orin還是Metropolis運(yùn)行所在的工業(yè)級IGX Edge AI平臺的機(jī)器人處理器。

全球大型工業(yè)自動化公司西門子將Metropolis和Orin IGX用于其工業(yè)邊緣計算平臺。

除了機(jī)器人開發(fā)外,Orin IGX也是醫(yī)療影像應(yīng)用的理想計算平臺。在Orin IGX上運(yùn)行的NVIDIA Clara Holoscan是一個低延遲的成像處理平臺,包含用于數(shù)據(jù)處理、AI模型訓(xùn)練、仿真和機(jī)器人開發(fā)應(yīng)用的庫。70多家領(lǐng)先的醫(yī)療設(shè)備公司、創(chuàng)企及醫(yī)療中心都在Clara Holoscan上進(jìn)行開發(fā)。

Activ Surgical、Proximie和Moon Surgical將在運(yùn)行于Orin IGX平臺的NVIDIA Clara Holoscan上構(gòu)建其手術(shù)機(jī)器人系統(tǒng)。

04 劍指元宇宙:第二代OVX計算機(jī)升級Ada架構(gòu),推出首款I(lǐng)aas云服務(wù)

面向元宇宙應(yīng)用,黃仁勛宣布推出第二代OVX計算機(jī),由全新Ada Lovelace L40數(shù)據(jù)中心GPU和增強(qiáng)的網(wǎng)絡(luò)技術(shù)提供支持,以提供突破性的實(shí)時圖形、AI和數(shù)字孿生模擬功能。

借助48GB超大幀緩沖區(qū),擁有8個L40 GPU的第二代OVX將能完成超大的Omniverse虛擬世界仿真。L40 GPU已全面進(jìn)入量產(chǎn)。第二代OVX系統(tǒng)將于明年年初向市場提供。

除了元宇宙專屬硬件外,英偉達(dá)還打造了其首款I(lǐng)aaS產(chǎn)品Omniverse Cloud服務(wù),可連接在云、本地或設(shè)備上運(yùn)行的Omniverse應(yīng)用。個人或團(tuán)隊可以借助該服務(wù)一鍵體驗(yàn)設(shè)計和協(xié)作3D工作流程的能力,而無需任何本地計算能力。

新的Omniverse容器現(xiàn)已可用于云部署,包括用于生成合成數(shù)據(jù)的Replicator、用于擴(kuò)展渲染農(nóng)場的Farm、用于構(gòu)建和訓(xùn)練AI機(jī)器人的Isaac Sim等。

英偉達(dá)為自主移動機(jī)器人打造的Isaac平臺進(jìn)入云端后,用戶可在NGC上獲取云就緒的Omniverse VMI虛擬機(jī)鏡像和Isaac容器,并將其部署到任何公有云上。

05 從云端到超算,H100全面投產(chǎn)

最后,我們來看一下面向數(shù)據(jù)中心和高性能計算的加速計算最新進(jìn)展。

黃仁勛說,NVIDIA平臺現(xiàn)已擁有350萬名開發(fā)者,12000家創(chuàng)企正基于英偉達(dá)的產(chǎn)品開創(chuàng)新業(yè)務(wù),英偉達(dá)通過550個SDK和AI模型為約3000個應(yīng)用提供加速。“總體來說,我們所服務(wù)的各行業(yè)總價值約為100萬億美元。”

面向數(shù)據(jù)中心,英偉達(dá)在今年4月發(fā)布的最新旗艦產(chǎn)品H100 Tensor Core GPU已經(jīng)進(jìn)入大規(guī)模量產(chǎn)。

H100包含800億個晶體管,采用了全新Hopper架構(gòu)、Transformer引擎、第二代多實(shí)例GPU、機(jī)密計算、第四代NVIDIA NVLink互連、DPX指令等多種創(chuàng)新技術(shù),能夠被用于加速高級推薦系統(tǒng)、大型語言模型等超大規(guī)模的AI模型訓(xùn)練。

據(jù)介紹,H100使企業(yè)能夠削減AI的部署成本,相較于上一代A100,在提供相同AI性能的情況下,可將能效提高3.5倍,總體擁有成本減少至1/3,所使用的服務(wù)器節(jié)點(diǎn)數(shù)也減少至1/5。

英偉達(dá)全球技術(shù)合作伙伴計劃于10月推出首批基于NVIDIA Hopper架構(gòu)的產(chǎn)品和服務(wù),到今年年底預(yù)計將有超過50款服務(wù)器型號面市,2023年上半年還將有數(shù)十款型號面市。

AWS、谷歌云、微軟Azure、Oracle Cloud Infrastructure將從明年開始率先在云端部署基于H100的實(shí)例。數(shù)家全球領(lǐng)先的高等教育和研究機(jī)構(gòu)的新一代超級計算機(jī)也將采用H100。

DGX H100系統(tǒng)現(xiàn)在即可訂購。該系統(tǒng)FP8精度的峰值性能可達(dá)到32 PFlops。每個DGX系統(tǒng)都包含NVIDIA Base Command和NVIDIA AI Enterprise軟件,可實(shí)現(xiàn)從單一節(jié)點(diǎn)到NVIDIA DGX SuperPOD的集群部署。

在軟件支持上,H100現(xiàn)包含為期五年的NVIDIA AI Enterprise軟件套件許可,這將優(yōu)化AI工作流程的開發(fā)部署,確保用戶可獲得構(gòu)建AI聊天機(jī)器人、推薦引擎、視覺AI等所需的AI框架和工具。

一些全球領(lǐng)先的大型語言模型和深度學(xué)習(xí)框架正在H100上進(jìn)行優(yōu)化,這些框架與Hopper架構(gòu)相結(jié)合,能夠顯著提升AI性能,將大型語言模型的訓(xùn)練時間縮短到幾天乃至幾小時。

06 推出兩種大型語言模型云服務(wù),助攻生物醫(yī)學(xué)研究

大型語言模型(LLM)是當(dāng)今最重要的AI模型之一。借助LLM,用戶只需通過較少的樣本來精調(diào)模型,就能高效執(zhí)行特定任務(wù)。Hopper架構(gòu)則有助于降低LLM的訓(xùn)練及部署門檻。

今天,英偉達(dá)推出Nemo LLM云服務(wù),用于訓(xùn)練大型語言模型。

Nemo包含社區(qū)構(gòu)建的一系列預(yù)訓(xùn)練基礎(chǔ)模型,其API可生成習(xí)得的提示embedding表和優(yōu)化的微服務(wù),可部署在本地、云中,適用于一個GPU或者多個GPU、多個節(jié)點(diǎn)?,F(xiàn)在注冊,10月就能搶先體驗(yàn)這項(xiàng)服務(wù)。

英偉達(dá)還推出了BioNeMo LLM服務(wù),用于訓(xùn)練和部署超算規(guī)模的大型生物分子語言模型。

領(lǐng)先的制藥公司、生物技術(shù)初創(chuàng)企業(yè)和前沿生物研究人員正在使用BioNeMo LLM服務(wù)和框架來開發(fā)用于生成、預(yù)測和理解生物分子數(shù)據(jù)的AI應(yīng)用,從而更好地了解疾病,并找到治療方法。

NVIDIA BioNeMo LLM服務(wù)將提供4個預(yù)訓(xùn)練語言模型:

1、ESM-1:這一最初由Meta AI Labs發(fā)布的蛋白質(zhì)LLM能夠處理氨基酸序列,最終生成用于預(yù)測各種蛋白質(zhì)特性和功能的表征。它還提高了科學(xué)家理解蛋白質(zhì)結(jié)構(gòu)的能力。

2、OpenFold:這是由學(xué)術(shù)界和產(chǎn)業(yè)界共同成立的Openfold聯(lián)盟創(chuàng)建的sota蛋白質(zhì)建模工具,可通過BioNeMo服務(wù)提供其開源AI工作流程。

3、MegaMolBART:這一基于14億分子訓(xùn)練而成的生成式化學(xué)模型可用于反應(yīng)預(yù)測、分子優(yōu)化和新分子的生成。

4、ProtT5:該模型是在慕尼黑工業(yè)大學(xué)RostLab的帶領(lǐng)下合作開發(fā)的,NVIDIA也是該項(xiàng)目的參與者之一。PortT5將ESM-1b等蛋白質(zhì)LLM的功能擴(kuò)展到序列生成。

這些模型針對推理進(jìn)行了優(yōu)化,并將通過NVIDIA DGX Foundry上運(yùn)行的云端API提供搶先體驗(yàn)。

07 結(jié)語:英偉達(dá)已成為一家全棧式計算公司

英偉達(dá)在1999年發(fā)明的GPU,激發(fā)PC游戲市場的增長、重新定義了計算機(jī)顯卡并助燃了現(xiàn)代AI普及的浪潮。此次新推出的Ada Lovelace一代GPU,改進(jìn)了作為神經(jīng)渲染引擎的全部三個RTX處理器,對于游戲玩家、虛擬世界創(chuàng)作者都帶來了新的生產(chǎn)力工具。

可以看到,如今的英偉達(dá)已發(fā)展成為一家全棧式計算公司,無論是加速計算,還是計算機(jī)圖形,都通過在架構(gòu)、設(shè)計和算法方面進(jìn)行創(chuàng)新疊加來實(shí)現(xiàn)性能的突破。與此同時,AI技術(shù)已經(jīng)滲透到英偉達(dá)產(chǎn)品的各個角落,用于與更多技術(shù)創(chuàng)新的結(jié)合,推動科學(xué)及工業(yè)領(lǐng)域更多AI新應(yīng)用的突破,并為數(shù)字經(jīng)濟(jì)發(fā)展提供動力。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。