AI的大模型時代 ≠ 只有大模型的AI時代
聲明:本文來自于微信公眾號 量子位(ID:QbitAI),作者:量子位,授權微新創想轉載發布。
什么樣的技術能經歷時間洗禮還歷久彌新?
答案或許可以歸總為一個“三部曲”般的規律——興起、發展和大規模應用,外加這個過程再一次演進式的迭代。
以史為鑒,引領第一次工業革命的是蒸汽機,當它演進成為內燃機并開始普及時,第二次工業革命的顛覆者——電能本身以及與它相關的各種設備正處于初創期,而在電力設備走向微電子的迭代革新時,各種燃油引擎還在持續改良和普及中。
從這個規律來看,大語言模型(簡稱LLM)出現后雖然霸占了所有與AI相關的關鍵詞,吸引了所有人的注意力,但這并不代表“LLM之前無AI”。
在大模型出盡風頭的同時,此前以決策為特長的老一代機器學習應用,以及側重感知能力的“傳統”深度學習應用也沒閑著,它們正走過喧囂的青春期,步入穩扎穩打的實戰階段。
何以為證?
某芯片大廠就推出了一連串的AI實戰手冊,分別鎖定制造與能源、醫藥、金融、交通與物流,以及教育行業的AI實踐。
在今年更新的物流交通和醫療健康AI實戰手冊中,就記錄了很多已經或正在落地的AI應用,及如何將它們順利部署和充分釋放其性能加速潛力,當然還有它們在一些耳熟能詳的頭部企業深入一線的應用實例。
所以,AI不是只有大模型。AI的大模型時代也 ≠ 只有大模型的AI時代。
成熟的AI,早就已經上崗了
或許你還不敢相信,現在哪怕小小的快遞背后,都已經有AI技術在加持了。
沒錯,而且近乎涉足了物流全流程:下單、發貨、分揀、轉運、配送……AI現在統統都要“管一管”。
以經典的OCR(光學字符識別)技術為例,它在物流“技術界”的地位可謂是舉足輕重,大幅提高了工作效率。
比如發貨時的寄件人填報地址、身份信息,電商倉庫核對出貨的貨品信息,都可以借助OCR,“啪地一下”,實現一鍵錄入。
隨著AI技術的愈發完善和應用的加深,這種速度做到了“沒有最快只有更快”。
我們熟知的韻達快遞就是如此,在三段碼OCR識別過程中,它原本希望AI能將OCR識別的準確率達到95%。
結果現在的AI卻給韻達“上了一課”,不僅準確率直接飆到接近98%,甚至時間也給“打了下去”:從130ms降至114ms。
△性能測試結果基于韻達于2022年10月進行的測試
而且OCR識別還僅僅是AI涉足物流行業的小小一隅,一張圖來看感受下它現在所起到的power:
嗯,AI如此all in,怪不得國內物流的速度都要起飛了呢。
不過朋友,這還僅僅是AI加速千行百業的一個案例,其實我們現在每天的出行,同樣也是充斥著AI的“味道”。
例如AI視頻分析技術,可以針對高速公路上的路況做到實時地分析。
不論是車流流量監控、車輛車牌識別,亦或是事故預警等等,AI可謂是將一切盡收眼底。
如此一來,便可以有效且精準地對路面狀況做到把控。
再如機場,在AI技術加持下的攝像頭,也可以細粒度識別航空器、車輛、人員,以及違邊等情況,這樣便對飛行區域的安全提供了一定的保障。
……
從以上幾個小小用例中不難看出,“成熟”的AI,或者說幾年前那些當紅明星類的AI應用看似風光不在,但它們實則已深入到我們生活中的方方面面,并且主打的就是一個“節支增效”。
那么如此“節支增效”背后,到底是怎么做到的?
不賣關子,直接上答案——
提供幫助的正是英特爾的平臺,特別是至強??可擴展處理器。同樣,我們前文所指的某芯片大廠也是英特爾,給出多個行業AI實戰手冊的還是它。
但解鎖如此能力的,可不僅僅是一顆CPU這么簡單,而是有英特爾軟件層面上的優化加成;換言之,就是“軟硬一體”后的結果。
簡單歸結:至強??可擴展處理器及其內置的AI加速器,以及OpenVINO??,oneAPI等一系列AI框架和優化軟件打輔助。
當前影響AI應用性能的要素無非兩個:算力和數據訪問速度。
目前最新的第四代至強??可擴展處理器的單顆CPU核數已經增長到最高60核。而在數據訪問速度上,各級緩存大小、內存通道數、內存訪問速度等都有一定程度的優化,另外在CPU Max系列中還集成了HBM高帶寬內存技術。
此外,在CPU指令集上也做了優化,內置了英特爾??高級矩陣擴展(英特爾??AMX)等硬件加速器,負責矩陣計算,加速深度學習工作負載,堪稱CPU加速AI應用的C位。
它有點類似于GPU里的張量核心(Tensor Core)。
AMX由兩部分組成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模塊,用來執行矩陣乘法指令。它可同時支持INT8和BF16數據類型,且BF16相較于FP32計算性能更優。
有了AMX指令集加持,性能比前一代至強??可擴展處理器內置的矢量神經網絡指令集VNNI提升達8倍,甚至更高。
除了核心硬件平臺外,實際情況中幫助這些行業實戰AI應用落地的,還有一系列英特爾“親生”但不“私享”的AI軟件工具。
例如前面提到的OCR加速就離不開OpenVINO??的優化,它刪減了很多訓練部分所需的冗余計算,主要支持推理部分。
而且也是專門針對英特爾硬件打造的優化框架,只需5行代碼就可以完成原有框架的替換。
用戶可以針對不同業務場景,來優化OpenVINO??運行參數。
這樣一套軟硬件組合拳打下來,英特爾不僅充分釋放了CPU計算潛力,而且在實際的推理場景中也實現了近乎GPU的性能,同時還有成本低、門檻低、易上手等附加優勢。
然而,這些僅僅是已經成熟上崗的AI技術在英特爾??平臺得到的優化,英特爾的能力還遠不止如此。
這就要說回大模型了。
當紅大模型,也在被加速
目前大語言模型正被全球各大科技公司競相追逐,畢竟現在科技圈都將它視為未來發展的趨勢所在。
雖然相比那些成熟的AI技術和應用,它距大規模落地還有段距離,但其技術領先性不容置疑,乃至“老一輩”的AI應用也有望在與它結合,或被它改造后重煥新生。
英特爾作為基礎算力輸出者和應用性能加速器,同樣在這場你追我趕的競技場中未雨綢繆,早有布局。
首先,大模型再先進,也需要有更多人用上它,才可充分變現其價值。要想“玩轉”它,在其龐大的體量面前,成本便是一個老大難的問題。
因此,英特爾就祭出了一款增強型的“減(量)重(化)神(工)器(具)”,可以讓一個十億參數的大語言模型瘦身3/4,增強其準確性,還能有效地提升大模型在英特爾??平臺上的推理性能。
具體而言,所用到的是SmoothQuant技術,英特爾將其適配到自己的平臺,并實現其增強。此方法已經整合至英特爾??Neural Compressor。這是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經架構搜索等多種常用模型壓縮技術的開源Python庫,它已經支持多款英特爾??架構的硬件,并且已經兼容TensorFlow、PyTorch、ONNX Runtime 和MXNet等主流框架。
其次,在硬件層面上,英特爾也有所發力。
例如最近大火的ChatGLM-6B,其借助第四代至強??可擴展處理器內置的英特爾??AMX,讓模型微調計算速度得以大幅提升;利用至強??CPU Max系列處理器集成的HBM,滿足大模型微調所需的大內存帶寬。
△英特爾? AMX 技術架構
除了CPU,英特爾還有專用的深度學習加速芯片Habana??Gaudi??2,其能在單個服務器內部署8張加速卡(稱為Habana處理單元,即Habana Processing Unit,簡稱為HPU),每張卡內存高達96GB,可提供足夠的空間來容納大模型。
因此即使是BLOOMZ這樣擁有1760億參數的千億級大語言模型,經英特爾優化后也能將性能時延控制在3.7秒。對于參數量為70億的較小模型BLOOMZ-7B,在Gaudi??2的單設備時延約為第一代Gaudi??的37.21%;而當設備數量都增加為8后,這一百分比進一步下降至約24.33%。
△BLOOMZ 在Gaudi??2和第一代Gaudi??上的推理時延測試結果
而后在軟件層面上,針對像ChatGLM這樣大受歡迎的大語言模型,英特爾還可以通過為其創建 OpenVINO? stateful模型來實現優化:壓縮權重以降低內存帶寬使用率,提升推理速度。
這便是英特爾“軟硬一體”打法在大模型應用上的直接體現了。而且硬件還不再僅限于CPU,更是有可在訓練和推理性能上都可與GPU比肩,在性價比上饞哭大家的Gaudi??。
最后在安全方面,英特爾也是做到了“魚與熊掌兼得”:基于英特爾??SGX/TDX的可信執行環境(TEE)可為大模型提供更安全的運行環境,還不需要拿性能做交換。
這便是英特爾在AI大模型時代中的“加速之道”了。
還會帶來怎樣的變革?
縱觀AI技術的發展之路,不難發現英特爾在其中履行著一條非常清晰的準則——用起來才是硬道理。甚至只在數據中心和邊緣中用都不夠,最好每個人的每臺電腦,每個信息終端設備都有獨立加速AI應用的能力才能“芯”滿意足。
因此英特爾已將創新使命調整為:在各種硬件產品中加入AI能力,并通過開放、多架構的軟件解決方案,推動AI應用的普及,促進“芯經濟”的崛起。
英特爾的“加速之道”不僅是讓技術更快落地和普及,更是要以用促用,以用促新,以用促變,為下一世代的技術變革埋下伏筆。
那么英特爾這條路上是否有一個終極目標?
或許正如Intel Innovation2023上不斷重復和強調的:
讓AI無處不在(AI Everywhere)。