堆棧AI Infra——AI大模型時(shí)代的“賣鏟人”
激石Pepperstone(http://hskilr.com/)報(bào)道:
類比計(jì)算機(jī)系統(tǒng)的基礎(chǔ)軟件層以及云計(jì)算三層架構(gòu)的PaaS層級,我們認(rèn)為,AI產(chǎn)業(yè)鏈中也有層級相似,定位于算力與應(yīng)用之間的“橋梁”角色的基礎(chǔ)軟件設(shè)施層即AI Infra。新一輪生成式AI浪潮,對于上層應(yīng)用而言機(jī)遇與挑戰(zhàn)并存,而AI Infra作為必要的基礎(chǔ)設(shè)施,我們認(rèn)為其技術(shù)及商業(yè)發(fā)展前景的確定性或更強(qiáng)。本文我們聚焦AI Infra,揭示其內(nèi)涵并總結(jié)目前國內(nèi)外項(xiàng)目的商業(yè)化進(jìn)展,再從工作流視角詳細(xì)梳理各環(huán)節(jié)及代表廠商。我們認(rèn)為,AI Infra是AI產(chǎn)業(yè)必不可少的基礎(chǔ)軟件堆棧,“掘金賣鏟”邏輯強(qiáng)、商業(yè)潛質(zhì)高,建議投資者持續(xù)關(guān)注AI Infra相關(guān)投資機(jī)會(huì)。
?摘要
在預(yù)訓(xùn)練大模型時(shí)代,我們可以從應(yīng)用落地過程里提煉出標(biāo)準(zhǔn)化的工作流,AI Infra的投資機(jī)會(huì)得以演繹。傳統(tǒng)ML時(shí)代AI模型通用性較低,項(xiàng)目落地停留在“手工作坊”階段,流程難以統(tǒng)一規(guī)范。而大規(guī)模預(yù)訓(xùn)練模型統(tǒng)一了“從0到1”的技術(shù)路徑,具備解決問題的泛化能力,能夠賦能“從1到100”的各類應(yīng)用,并存在相對標(biāo)準(zhǔn)化的工作流,由此衍生出AI Infra投資機(jī)會(huì)。GPT 4的開發(fā)經(jīng)驗(yàn)也體現(xiàn)專業(yè)分工的必要性:根據(jù)OpenAI的披露,在GPT 4的開發(fā)過程中,其對249人研發(fā)團(tuán)隊(duì)進(jìn)行了明確分工,并使用了數(shù)據(jù)標(biāo)注、分布式計(jì)算框架、實(shí)驗(yàn)管理等點(diǎn)工具。我們認(rèn)為這也說明了在大模型時(shí)代應(yīng)用基礎(chǔ)軟件的必要性。目前,AI Infra產(chǎn)業(yè)處于高速增長的發(fā)展早期,我們預(yù)計(jì)未來3-5年內(nèi)各細(xì)分賽道空間或保持30%+的高速增長,且各方向均有變現(xiàn)實(shí)踐與養(yǎng)成獨(dú)角獸企業(yè)的潛力。
“AI = Data + Code”,組織AI所需的養(yǎng)料即數(shù)據(jù),管理AI模型的訓(xùn)練部署過程,以及支持從模型到應(yīng)用的整合是AI Infra工具的關(guān)鍵能力。1)數(shù)據(jù)準(zhǔn)備:無論是支持經(jīng)典的機(jī)器學(xué)習(xí)模型還是大規(guī)模預(yù)訓(xùn)練模型,數(shù)據(jù)準(zhǔn)備都是耗時(shí)較久、較為關(guān)鍵的一環(huán)。我們認(rèn)為,LLM浪潮下高質(zhì)量的標(biāo)注數(shù)據(jù)和特征庫需求將持續(xù)增長,未來海量訓(xùn)練數(shù)據(jù)的需求或由合成數(shù)據(jù)滿足。此外,我們強(qiáng)調(diào)Data+AI平臺(tái)廠商的關(guān)鍵卡位。2)模型訓(xùn)練:預(yù)訓(xùn)練模型的獲取使得模型庫更加流行,LLM大規(guī)模訓(xùn)練需求也驅(qū)動(dòng)底層分布式計(jì)算引擎和訓(xùn)練框架的迭代。此外,我們認(rèn)為實(shí)驗(yàn)管理工具重要性較高。3)模型部署:LLM模型端的突破釋放出大規(guī)模應(yīng)用落地的潛能,更多模型從實(shí)驗(yàn)走向生產(chǎn)環(huán)境,我們認(rèn)為有望整體提振模型部署和監(jiān)控的需求。4)應(yīng)用整合:LLM賦能應(yīng)用催生對向量數(shù)據(jù)庫和應(yīng)用編排工具等的新需求。我們觀察到經(jīng)典的機(jī)器學(xué)習(xí)時(shí)代與大模型時(shí)代工具棧需求側(cè)重點(diǎn)有所不同,同時(shí),部分點(diǎn)工具正在拓寬產(chǎn)品功能邊界,LLMOps平臺(tái)型產(chǎn)品的可及市場空間天花板或更高。
正文
?初見:AI Infra是連接算力和應(yīng)用的AI中間層基礎(chǔ)設(shè)施
?本章主要討論:1)AI Infra在AI時(shí)代IT生態(tài)中的定位;2)為什么大模型浪潮下需要格外關(guān)注AI Infra投資機(jī)會(huì);3)AI Infra基礎(chǔ)軟件工具棧涵蓋內(nèi)容;4)AI Infra商業(yè)化初探。
?類比基礎(chǔ)軟件和PaaS,AI Infra是AI時(shí)代的中間層基礎(chǔ)設(shè)施
?從類比的角度理解AI Infra:AI時(shí)代連接硬件和上層應(yīng)用的中間層基礎(chǔ)設(shè)施。傳統(tǒng)本地部署時(shí)代,三大基礎(chǔ)軟件(數(shù)據(jù)庫、操作系統(tǒng)、中間件)實(shí)現(xiàn)控制硬件交互、存儲(chǔ)管理數(shù)據(jù)、網(wǎng)絡(luò)通信調(diào)度等共性功能,抽象并隔絕底層硬件系統(tǒng)的復(fù)雜性,讓上層應(yīng)用開發(fā)者能夠?qū)W⒂跇I(yè)務(wù)邏輯和應(yīng)用功能本身的創(chuàng)新實(shí)現(xiàn)。云時(shí)代同理,形成了IaaS、PaaS、SaaS三層架構(gòu),其中PaaS層提供應(yīng)用開發(fā)環(huán)境和基礎(chǔ)的數(shù)據(jù)分析管理服務(wù)。類比來看,我們認(rèn)為,進(jìn)入AI時(shí)代也有承擔(dān)類似功能的、連接算力和應(yīng)用的基礎(chǔ)設(shè)施中間層即AI Infra,提供基礎(chǔ)模型服務(wù)、賦能模型微調(diào)和應(yīng)用開發(fā)。
?大模型通用性賦能下應(yīng)用落地流程更加標(biāo)準(zhǔn)化,催生AI Infra投資機(jī)會(huì)
?LLM流行前,AI模型通用性較低,項(xiàng)目落地停留在“手工作坊”階段,流程難以統(tǒng)一規(guī)范。人工智能已有數(shù)十年的發(fā)展歷史,尤其是2006年以來以深度學(xué)習(xí)為代表的訓(xùn)練方法的成熟推動(dòng)第三波發(fā)展浪潮。然而,由于傳統(tǒng)的機(jī)器學(xué)習(xí)模型沒有泛化能力,大部分AI應(yīng)用落地以定制化項(xiàng)目的形式,包括需求、數(shù)據(jù)、算法設(shè)計(jì)、訓(xùn)練評估、部署和運(yùn)維等階段,其中,數(shù)據(jù)和訓(xùn)練評估階段往往需要多次循環(huán),較難形成一套標(biāo)準(zhǔn)化的端到端的流程和解決方案,也由此造成了邊際成本高、重復(fù)造輪子等問題。
?大規(guī)模預(yù)訓(xùn)練模型完成了“從0到1”的技術(shù)統(tǒng)一,泛化能力和通用性釋放出“從1到100”的落地需求,且存在相對標(biāo)準(zhǔn)化的流程,衍生出AI Infra投資機(jī)會(huì)。基于Transformer算法、超大參數(shù)量的預(yù)訓(xùn)練模型擁有泛化能力,一定程度上解決了原先需要按項(xiàng)目定制訓(xùn)練的問題,過去正因?yàn)镸L模型的非標(biāo)和項(xiàng)目制,下游需求并未被完全激發(fā)出來,LLM模型端的突破釋放出更大規(guī)模的應(yīng)用落地潛能。而后續(xù)的應(yīng)用過程中主要涉及:高質(zhì)量樣本數(shù)據(jù)的準(zhǔn)備、基礎(chǔ)模型獲取、模型微調(diào)及部署監(jiān)控、應(yīng)用編排開發(fā)上線等環(huán)節(jié),工作流較為標(biāo)準(zhǔn)化,我們建議投資者持續(xù)關(guān)注AI Infra投資機(jī)會(huì)。
?從OpenAI實(shí)踐看分工必要性,核心關(guān)注工作流相關(guān)的基礎(chǔ)軟件工具棧
?參考海外OpenAI的率先嘗試,工作流分工、點(diǎn)工具加持助力成功。一方面,OpenAI在《GPT-4 Technical Report》論文中[1]中披露了參與GPT 4開發(fā)的人員分工,共249人,角色分工明確,預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)和對齊、部署等6個(gè)大方向下又拆分成不同小組,其中數(shù)據(jù)集/數(shù)據(jù)基礎(chǔ)設(shè)施、分布式訓(xùn)練基礎(chǔ)設(shè)施、推理基礎(chǔ)設(shè)施等分別對應(yīng)工作流中的數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、部署應(yīng)用等環(huán)節(jié);另一方面,OpenAI使用了Scale數(shù)據(jù)標(biāo)注服務(wù)、Ray分布式計(jì)算框架和Weights and Biases(W&B)實(shí)驗(yàn)管理工具,且W&B的創(chuàng)立靈感就來自于其創(chuàng)始人之一在OpenAI的實(shí)習(xí)經(jīng)歷。我們認(rèn)為,OpenAI的率先嘗試經(jīng)驗(yàn)一定程度上說明專業(yè)分工和AI Infra基礎(chǔ)軟件堆棧在大模型時(shí)代的必要性。
AI Infra廣義上包含了基礎(chǔ)模型和基礎(chǔ)軟件棧兩層,本篇報(bào)告核心關(guān)注其中和工作流相關(guān)的基礎(chǔ)軟件工具棧。工作流的視角下,LLM的開發(fā)應(yīng)用主要涉及數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型部署、產(chǎn)品整合四個(gè)主要環(huán)節(jié),每個(gè)環(huán)節(jié)都有對應(yīng)的點(diǎn)工具,亦有集大成的LLMOps平臺(tái)型產(chǎn)品,我們將在下一章詳細(xì)解讀。
商業(yè)化起步中,已有變現(xiàn)實(shí)踐,細(xì)分賽道或均有長出獨(dú)角獸的潛力
商業(yè)化起步階段,有望在未來幾年快速成長為百億美元量級的產(chǎn)業(yè)。我們認(rèn)為,AI Infra整體處于高速增長的發(fā)展早期,如圖表9的整理,根據(jù)第三方數(shù)據(jù),目前大部分細(xì)分賽道規(guī)模在幾億至幾十億美元量級,我們預(yù)計(jì)在未來3-5年內(nèi)或?qū)⒈3?0+%的高速增長。同時(shí),Data+AI、MLOps/LLMOps等平臺(tái)型產(chǎn)品的市場空間天花板可能更高,我們也觀察到點(diǎn)工具廠商正在積極拓展產(chǎn)品邊界。我們認(rèn)為,AI Infra是AI時(shí)代不可或缺的基礎(chǔ)設(shè)施中間層,“掘金賣鏟”邏輯的確定性高,有望持續(xù)受益于LLM、AI應(yīng)用的繁榮。
海外廠商積極探索變現(xiàn),細(xì)分賽道或均有長出獨(dú)角獸的潛力。從微觀的視角,我們整理了AI Infra各細(xì)分賽道海外代表公司的商業(yè)模式,基本遵循按使用量付費(fèi)的定價(jià)模式。大多數(shù)創(chuàng)業(yè)公司成立時(shí)間較短,詳見圖表10,目前收入體量在數(shù)千萬至小幾億美元量級,其中數(shù)據(jù)相關(guān)的、平臺(tái)型的廠商起步較早、已初具規(guī)模,我們認(rèn)為這也符合數(shù)據(jù)需要前置于AI模型投入、平臺(tái)型廠商收入天花板更高的邏輯。此外,我們認(rèn)為LLM模型端突破將釋放出更大規(guī)模應(yīng)用落地的潛能,有望帶動(dòng)模型部署、應(yīng)用整合等后續(xù)環(huán)節(jié)的逐步起量。
探秘:從工作流視角梳理AI Infra投資機(jī)會(huì)?
大模型時(shí)代和傳統(tǒng)機(jī)器學(xué)習(xí)時(shí)代工具棧側(cè)重點(diǎn)有所不同
本章從企業(yè)訓(xùn)練模型、構(gòu)建AI賦能應(yīng)用的工作流視角出發(fā),詳解涉及的主要環(huán)節(jié),并關(guān)注LLMOps和MLOps在流程上的側(cè)重點(diǎn)差異。我們認(rèn)為AI = Data + Code,歷經(jīng)數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型部署、產(chǎn)品整合,分環(huán)節(jié)看:
? 數(shù)據(jù)準(zhǔn)備:高質(zhì)量標(biāo)注數(shù)據(jù)、特征庫需求持續(xù),合成數(shù)據(jù)或成未來趨勢。數(shù)據(jù)準(zhǔn)備無論在傳統(tǒng)的MLOps還是LLMOps中都是耗時(shí)較久、較為重要的一環(huán)。無監(jiān)督學(xué)習(xí)降低對標(biāo)注數(shù)據(jù)的需求,但RLHF機(jī)制體現(xiàn)了高質(zhì)量標(biāo)注數(shù)據(jù)的重要性,我們認(rèn)為未來超大參數(shù)量模型對海量訓(xùn)練數(shù)據(jù)的需求或由合成數(shù)據(jù)滿足。此外,Data+AI平臺(tái)廠商卡位關(guān)鍵。
? 模型訓(xùn)練:模型庫更加剛需,訓(xùn)練框架持續(xù)迭代,軟件工具協(xié)助實(shí)驗(yàn)管理。基于通用的LLM大模型微調(diào)、蒸餾出小模型成為高性價(jià)比的落地方式,因此需要能夠高效便捷地獲取預(yù)訓(xùn)練模型的模型庫;也催生更適應(yīng)LLM大規(guī)模訓(xùn)練需求的底層分布式計(jì)算引擎和訓(xùn)練框架。此外,我們認(rèn)為實(shí)驗(yàn)管理工具的重要性或始終較高。
? 模型部署:更多模型從實(shí)驗(yàn)走向真實(shí)業(yè)務(wù)環(huán)境,部署和監(jiān)控需求提升。我們認(rèn)為,LLM模型端的突破釋放出大規(guī)模應(yīng)用落地的潛能,更多的模型從實(shí)驗(yàn)環(huán)境走向生產(chǎn)環(huán)境,有望整體提振模型部署和監(jiān)控的需求。
? 應(yīng)用整合:催生向量數(shù)據(jù)庫和應(yīng)用編排框架新需求。LLM賦能應(yīng)用催生出對應(yīng)用產(chǎn)品整合相關(guān)工具產(chǎn)品的需求,其中較為關(guān)鍵的是向量數(shù)據(jù)庫和應(yīng)用編排工具。
數(shù)據(jù)準(zhǔn)備:高質(zhì)量標(biāo)注數(shù)據(jù)、特征庫需求持續(xù),合成數(shù)據(jù)或成未來趨勢
數(shù)據(jù)是模型的起點(diǎn),一定程度上決定了模型的效果和質(zhì)量,數(shù)據(jù)準(zhǔn)備無論在傳統(tǒng)的MLOps還是LLMOps中都是耗時(shí)較久、較為重要的一環(huán)。LLM帶來的新變化主要包括:1)雖然LLM的無監(jiān)督學(xué)習(xí)機(jī)制降低了對標(biāo)注數(shù)據(jù)的需求,但OpenAI的RLHF(Reinforcement Learning from Human Feedback)體現(xiàn)了高質(zhì)量標(biāo)注數(shù)據(jù)重要性;2)模型規(guī)模大幅提升,帶來日益增長的訓(xùn)練數(shù)據(jù)需求,長期看可能無法僅通過真實(shí)世界數(shù)據(jù)滿足,合成數(shù)據(jù)提供一種AIGC反哺AI的解法。此外,數(shù)據(jù)基礎(chǔ)管理軟件平臺(tái)的卡位始終關(guān)鍵,Data+AI平臺(tái)化趨勢持續(xù)演進(jìn)。
數(shù)據(jù)標(biāo)注:GPT的成功說明了高質(zhì)量標(biāo)注數(shù)據(jù)對提升模型效果的重要性。數(shù)據(jù)標(biāo)注位于模型開發(fā)的最上游,對圖像、視頻、文本、音頻等非結(jié)構(gòu)化原始數(shù)據(jù)添加標(biāo)簽,為AI提供人類先驗(yàn)知識(shí)的輸入。近年,無監(jiān)督學(xué)習(xí)(事先不定義明確目的)、強(qiáng)化學(xué)習(xí)(通過獎(jiǎng)勵(lì)函數(shù)來指導(dǎo)學(xué)習(xí)過程)等不需要標(biāo)注數(shù)據(jù)的機(jī)器學(xué)習(xí)分支方法論的出現(xiàn)引發(fā)市場對于數(shù)據(jù)標(biāo)注必要性的討論與擔(dān)憂。不過,OpenAI通過RLHF即基于人類反饋的強(qiáng)化學(xué)習(xí)來優(yōu)化模型,且從OpenAI[2]披露的分工中能看到有很多負(fù)責(zé)預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)等的AI科學(xué)家也參與到數(shù)據(jù)準(zhǔn)備中;最新開源的LLAMA 2的論文[3]中也有一段強(qiáng)調(diào)高質(zhì)量數(shù)據(jù)對模型訓(xùn)練結(jié)果影響的表述,Meta與第三方供應(yīng)商合作收集了近3萬個(gè)高質(zhì)量標(biāo)注,又向市場證明了高質(zhì)量數(shù)據(jù)標(biāo)注工作的重要性。
數(shù)據(jù)標(biāo)注廠商正在尋求智能化轉(zhuǎn)型、減少對人力的依賴。在數(shù)據(jù)標(biāo)注助力AI快速發(fā)展的同時(shí),AI也將反哺數(shù)據(jù)標(biāo)注更加自動(dòng)化、智能化,如利用模型進(jìn)行數(shù)據(jù)預(yù)處理再人工審核等。今年4月Meta AI發(fā)布的Segment Anything Model[4]的訓(xùn)練數(shù)據(jù)集SA-1B,就是通過智能數(shù)據(jù)引擎來輔助自動(dòng)化生成的,該數(shù)據(jù)引擎經(jīng)歷了輔助手動(dòng)標(biāo)注-半自動(dòng)標(biāo)注-自動(dòng)化標(biāo)注的訓(xùn)練過程。
特征庫(Feature Store):高質(zhì)量特征庫持續(xù)受益。特征是預(yù)測模型的輸入信號,可以簡單理解為模型中的自變量X,需要經(jīng)過特征工程從原始數(shù)據(jù)中篩選得到。而特征庫則是生產(chǎn)、管理、運(yùn)營ML過程中所需數(shù)據(jù)及特征的系統(tǒng),主要實(shí)現(xiàn)1)運(yùn)行各類數(shù)據(jù)管道(Pipeline)將原始數(shù)據(jù)轉(zhuǎn)換為特征值;2)存儲(chǔ)和管理特征和數(shù)據(jù);3)為訓(xùn)練和推理提供一致的特征服務(wù)。目前該領(lǐng)域的代表性產(chǎn)品包括:開源項(xiàng)目如Feast,獨(dú)立商業(yè)化公司如Tecton,大型科技廠商的ML平臺(tái)如Databricks、SageMaker等中亦有相應(yīng)模塊。數(shù)據(jù)和特征的質(zhì)量決定了機(jī)器學(xué)習(xí)的上限,我們認(rèn)為高質(zhì)量特征庫有望持續(xù)受益,同時(shí)國內(nèi)數(shù)據(jù)要素市場的蓬勃發(fā)展長期看有望為AI模型供應(yīng)更多高質(zhì)量的數(shù)據(jù)燃料。
合成數(shù)據(jù):做真實(shí)數(shù)據(jù)的“平替”,用AIGC反哺AI。一項(xiàng)來自Epoch AI Research團(tuán)隊(duì)的研究預(yù)測存量的高質(zhì)量語言數(shù)據(jù)將在2026年耗盡[5],低質(zhì)量的語言和圖像數(shù)據(jù)存量也將在未來的數(shù)十年間枯竭。面對潛在的數(shù)據(jù)瓶頸,合成數(shù)據(jù)即運(yùn)用計(jì)算機(jī)模擬生成的人造數(shù)據(jù),提供了一種成本低、具有多樣性、規(guī)避了潛在隱私安全風(fēng)險(xiǎn)的解決方法,生成式AI的逐漸成熟進(jìn)一步提供技術(shù)支撐。比如,自然語言修改圖片的Instruct-Pix2Pix模型在訓(xùn)練的時(shí)候就用到GPT3和Stable Diffusion來合成需要的提示詞和圖像的配對數(shù)據(jù)集;Amazon也利用合成數(shù)據(jù)來訓(xùn)練智能助手Alexa[6],以避免用戶隱私問題。合成數(shù)據(jù)市場參與者較多,獨(dú)立公司/項(xiàng)目如gretel、MOSTLY AI、datagen、hazy等,數(shù)據(jù)標(biāo)注廠商如Scale亦推出相關(guān)產(chǎn)品,此外主流科技公司英偉達(dá)、微軟、亞馬遜等均有不同場景的嘗試。
數(shù)據(jù)科學(xué)基礎(chǔ)平臺(tái):數(shù)據(jù)卡位始終關(guān)鍵,Data+AI是行業(yè)趨勢。廣義的數(shù)據(jù)科學(xué)涵蓋利用各類工具、算法理解數(shù)據(jù)蘊(yùn)藏含義的全過程,機(jī)器學(xué)習(xí)可以視為其中的一種方式和手段;狹義的數(shù)據(jù)科學(xué)也可以僅指代機(jī)器學(xué)習(xí)的前置步驟,包括準(zhǔn)備、預(yù)處理數(shù)據(jù)并進(jìn)行探索性分析等。正如我們從報(bào)告《人工智能十年展望(八):探索ChatGPT根基——數(shù)據(jù)與人工智能如何相互成就?》開始一直強(qiáng)調(diào)的觀點(diǎn),數(shù)據(jù)和AI一體兩翼,數(shù)據(jù)是模型的起點(diǎn)、且一定程度上決定了模型的最終效果和質(zhì)量,數(shù)據(jù)基礎(chǔ)設(shè)施廠商卡位關(guān)鍵,從Data向AI布局是技術(shù)能力和業(yè)務(wù)邏輯的自然延伸。LLM等大模型的滲透發(fā)展不僅額外增加了數(shù)據(jù)平臺(tái)上AI相關(guān)的工作流負(fù)載,還可以帶動(dòng)底層Data基礎(chǔ)設(shè)施的需求。
模型訓(xùn)練:模型庫更加剛需,訓(xùn)練框架持續(xù)迭代,軟件工具協(xié)助實(shí)驗(yàn)管理
大模型具有一定通用性,開發(fā)者們可以“站在巨人的肩膀上”,在預(yù)訓(xùn)練模型的基礎(chǔ)上通過少量增量訓(xùn)練蒸餾出專精的小模型以解決垂類場景的需求。LLM帶來的新變化主要包括:1)要想高效便捷地獲取模型,則需要一個(gè)集成托管各類模型的社區(qū)也即模型庫;2)催生更適應(yīng)LLM大規(guī)模訓(xùn)練需求的底層分布式計(jì)算引擎和訓(xùn)練框架。此外,模型訓(xùn)練過程涉及多次往復(fù)的修改迭代,無論是ML還是LLM都需要借助實(shí)驗(yàn)管理工具進(jìn)行版本控制和協(xié)作管理。
模型庫(Model Hub):把握從數(shù)據(jù)到模型的工作流入口。模型庫顧名思義是一個(gè)托管、共享了大量開源模型的平臺(tái)社區(qū),供開發(fā)者下載各類預(yù)訓(xùn)練模型,除模型外,主流的Model Hub平臺(tái)上還同時(shí)提供各類共享的數(shù)據(jù)集、應(yīng)用程序Demo等,是AI、ML細(xì)分領(lǐng)域的“GitHub”。典型代表廠商包括海外的Hugging Face、Replicate,國內(nèi)關(guān)注Gitee(開源中國推出的代碼托管平臺(tái))和ModelScope(阿里達(dá)摩院推出的AI開源模型社區(qū))等項(xiàng)目。在商業(yè)模型上,Model Hub廠商一般選擇切入下游的AutoTrain(自動(dòng)創(chuàng)建、優(yōu)化、評估模型)或模型推理服務(wù),也在嘗試就Model Hub功能收取訂閱制會(huì)員費(fèi)用。
分布式計(jì)算和深度學(xué)習(xí)框架:大模型“煉丹爐”。分布式計(jì)算引擎方面,LLM的訓(xùn)練過程需要大規(guī)模的GPU分布式計(jì)算集群,過去大數(shù)據(jù)已帶動(dòng)了以MapReduce、Spark為代表的分布式計(jì)算引擎的發(fā)展,但以Ray為代表的近年在AI大潮下興起的分布式計(jì)算框架則更貼合AI需求(Ray的首篇論文名為《Ray: A Distributed Framework for Emerging AI Applications[7]》),其核心模塊Ray Tune、Ray Rllib、Ray Train分別對應(yīng)機(jī)器學(xué)習(xí)調(diào)參、強(qiáng)化、深度學(xué)習(xí)調(diào)參的流程。Ray在官網(wǎng)的用戶案例中表示“Ray是使OpenAI能夠增強(qiáng)其訓(xùn)練ChatGPT和類似模型能力的關(guān)鍵”[8]。此外,Ray作為更底層的分布式計(jì)算引擎,和TensorFlow、PyTorch等深度學(xué)習(xí)框架兼容,而DeepSpeed、ColossalAI等則是在PyTorch等基礎(chǔ)框架之上針對LLM的優(yōu)化訓(xùn)練設(shè)計(jì)的新一代框架。
實(shí)驗(yàn)管理:記錄實(shí)驗(yàn)元數(shù)據(jù),輔助版本控制,保障結(jié)果可復(fù)現(xiàn)。模型訓(xùn)練是一種實(shí)驗(yàn)科學(xué),需要反復(fù)的修改與迭代,同時(shí)由于無法提前預(yù)知實(shí)驗(yàn)結(jié)果往往還涉及版本回溯、多次往復(fù),因此模型的版本控制和管理就較為必要,實(shí)驗(yàn)管理軟件可以輔助技術(shù)人員和團(tuán)隊(duì)追蹤模型版本、檢驗(yàn)?zāi)P托阅?。該領(lǐng)域代表廠商為Weights and Biases(W&B)和Neptune,跟蹤機(jī)器學(xué)習(xí)實(shí)驗(yàn),記錄實(shí)驗(yàn)元數(shù)據(jù),包括訓(xùn)練使用數(shù)據(jù)集、框架、進(jìn)度、結(jié)果等,支持以可視化的形式展現(xiàn)結(jié)果、多實(shí)驗(yàn)結(jié)果對比、團(tuán)隊(duì)協(xié)作共享等。此外,實(shí)驗(yàn)管理也是LLMOps/MLOps平臺(tái)型產(chǎn)品如星環(huán)科技Sophon、Google Vertex AI等產(chǎn)品中的重要模塊之一。
模型部署:更多模型從實(shí)驗(yàn)走向真實(shí)業(yè)務(wù)環(huán)境,部署和監(jiān)控需求提升
模型部署是讓模型從實(shí)驗(yàn)環(huán)境走向真實(shí)生產(chǎn)環(huán)境的重要環(huán)節(jié),借助模型部署工具能夠解決模型框架兼容性差的問題并提升模型運(yùn)行速度。模型監(jiān)控通過對模型輸出結(jié)果和性能指標(biāo)的追蹤,保障模型上線后的可用性。我們認(rèn)為,過去由于ML模型的非標(biāo)和項(xiàng)目制,大規(guī)模、持續(xù)性的模型部署和監(jiān)控需求未被完全激發(fā)出來,LLM模型端的突破釋放出大規(guī)模應(yīng)用落地的潛能,更多的模型從實(shí)驗(yàn)環(huán)境走向生產(chǎn)環(huán)境,我們認(rèn)為有望整體提振模型部署和監(jiān)控的需求。
模型部署:從實(shí)驗(yàn)走向生產(chǎn)的重要環(huán)節(jié)。模型部署指把訓(xùn)練好的模型在特定環(huán)境中運(yùn)行,需要盡量最大化資源利用效率,保證用戶使用端的高性能。模型部署領(lǐng)域參與者較多,比如Ray、Tensorflow、PyTorch等訓(xùn)練框架都提供配套的模型部署功能,模型庫廠商如Hugging Face、實(shí)驗(yàn)管理廠商如W&B也有相關(guān)產(chǎn)品,此外還有如Seldon、BentoML、OctoML等獨(dú)立項(xiàng)目/產(chǎn)品。和訓(xùn)練框架自帶的部署模塊相比,三方的綜合性產(chǎn)品能夠?yàn)椴煌蚣芟掠?xùn)練出來的模型提供一套相對統(tǒng)一的部署方式。以Seldon為例,在復(fù)雜的多模型推理場景下,Seldon通過模型可解釋性、異常值檢測等模塊,最終選出表現(xiàn)最好的模型進(jìn)行結(jié)果反饋。
模型監(jiān)控:模型可觀測性保障可靠可用。可觀測性在傳統(tǒng)IT系統(tǒng)運(yùn)維中就是重要的數(shù)智化手段之一,通過監(jiān)控各類機(jī)器、系統(tǒng)的運(yùn)行數(shù)據(jù)對故障和異常值提前告警。模型監(jiān)控同理,監(jiān)測模型上線后的數(shù)據(jù)流質(zhì)量以及表現(xiàn)性能,關(guān)注模型可解釋性,對故障進(jìn)行根因分析,預(yù)防數(shù)據(jù)漂移、模型幻覺等問題。模型可觀測性領(lǐng)域有較多創(chuàng)業(yè)公司,包括Fiddler、WhyLabs、Evidently AI等,實(shí)驗(yàn)管理廠商如W&B、模型部署廠商如Seldon也有所涉及,此外,傳統(tǒng)的IT運(yùn)維可觀測性廠商也有機(jī)會(huì)切入AI模型監(jiān)控領(lǐng)域,海外如Datadog已經(jīng)嘗試將Open AI的模型服務(wù)加入納管范疇,我們也建議關(guān)注國內(nèi)相關(guān)廠商的后續(xù)進(jìn)展。
應(yīng)用整合:催生向量數(shù)據(jù)庫和應(yīng)用編排框架新需求
正如前文提及,LLM模型端的突破釋放出更多應(yīng)用落地的潛能,由此催生出對應(yīng)用產(chǎn)品整合相關(guān)工具產(chǎn)品的需求,其中較為關(guān)鍵的是向量數(shù)據(jù)庫和LLM應(yīng)用編排工具。
向量數(shù)據(jù)庫:LLM的外部知識(shí)庫。讓通用大模型具備專業(yè)知識(shí)主要有兩種途徑,一是通過微調(diào)將專有知識(shí)內(nèi)化到LLM中;另一種則是利用向量數(shù)據(jù)庫給LLM增加外部知識(shí)庫,后者成本更低。向量數(shù)據(jù)庫和LLM的具體交互過程為:用戶首先將企業(yè)知識(shí)庫的全量信息通過嵌入模型轉(zhuǎn)化為向量后儲(chǔ)存在向量數(shù)據(jù)庫中,用戶輸入prompt時(shí),先將其同樣向量化,并在向量數(shù)據(jù)庫中檢索最為相關(guān)的內(nèi)容,再將檢索到的相關(guān)信息和初始prompt一起輸入給LLM模型,以得到最終返回結(jié)果。
向量化技術(shù)本身已較為成熟,海外模型如Word2Vec、FastText等,國內(nèi)中文Embedding模型有MokaAI開源的M3E、IDEA CCNL[9]開源的二郎神系列。向量數(shù)據(jù)庫廠商/產(chǎn)品主要包括Pinecone、Zilliz、星環(huán)科技Hippo等,另外也有傳統(tǒng)數(shù)據(jù)庫、大數(shù)據(jù)平臺(tái)廠商如PGSQL、Databricks通過增加向量查詢引擎插件來實(shí)現(xiàn)支持。我們認(rèn)為,向量數(shù)據(jù)庫是AI Answers類應(yīng)用落地的剛需,同時(shí)本土廠商在中文Embedding方面可能更具優(yōu)勢。
應(yīng)用編排框架:LLM應(yīng)用“粘合劑”。LLM應(yīng)用編排框架是一個(gè)封裝了各種大語言模型應(yīng)用開發(fā)所需邏輯和工具的代碼庫,LangChain是當(dāng)下最流行的框架之一,還有Anarchy、Dust、AutoGPT、LlamaIndex等。初始化的大模型存在無法聯(lián)網(wǎng)、無法調(diào)用其他API、無法訪問本地文件、對Prompt要求高、生成能力強(qiáng)但內(nèi)容準(zhǔn)確度無法保證等問題,應(yīng)用編排框架提供了相應(yīng)功能模塊,幫助實(shí)現(xiàn)從LLM到最終應(yīng)用的跨越。以LangChain為例,它主要包含以下幾個(gè)模塊:1)Prompt實(shí)現(xiàn)指令的補(bǔ)全和優(yōu)化;2)Chain調(diào)用外部數(shù)據(jù)源、工具鏈;3)Agent優(yōu)化模塊間的調(diào)用順序和流程;4)Memory增加上下文記憶。
集成開發(fā)環(huán)境:交互式Notebook逐漸流行。在上述AI建模流程中,開發(fā)者需要處理大量代碼編寫、分析、編譯、調(diào)試等工作,可以直接在對應(yīng)環(huán)節(jié)或平臺(tái)型產(chǎn)品的內(nèi)置環(huán)境中進(jìn)行,也可以使用專門的集成開發(fā)環(huán)境并調(diào)取所需功能。其中,Notebook是一種交互式的開發(fā)環(huán)境,和傳統(tǒng)的非交互式開發(fā)環(huán)境相比,Notebook可以逐單元格(Cell)編寫和運(yùn)行程序,出現(xiàn)錯(cuò)誤時(shí),僅需調(diào)整并運(yùn)行出現(xiàn)錯(cuò)誤的單元格,大大提升開發(fā)效率,因此近年逐漸流行、深受數(shù)據(jù)科學(xué)家和算法工程師的喜愛,被廣泛應(yīng)用于AI算法開發(fā)訓(xùn)練領(lǐng)域。
點(diǎn)工具不斷拓寬產(chǎn)品邊界,LLMOps一站式解決方案或更適應(yīng)國內(nèi)市場
點(diǎn)工具廠商正不斷拓寬能力邊界。前文我們詳細(xì)介紹了模型訓(xùn)練、構(gòu)建應(yīng)用工作流涉及的主要環(huán)節(jié)及各環(huán)節(jié)點(diǎn)工具廠商,事實(shí)上,這些點(diǎn)工具廠商在強(qiáng)項(xiàng)環(huán)節(jié)之外亦不斷拓寬產(chǎn)品能力邊界,比如數(shù)據(jù)標(biāo)注廠商Scale AI拓展合成數(shù)據(jù)業(yè)務(wù)并正在投入LLMOps領(lǐng)域的Scale Spellbook(做一個(gè)基于大語言模型的開發(fā)者工具平臺(tái));模型庫廠商Hugging face切入AutoTrain和模型部署;實(shí)驗(yàn)管理廠商W&B切入模型部署和模型監(jiān)控等。
MLOps/LLMOps提供一站式平臺(tái)解決方案,可及市場空間更大,多采取Data+AI一體化戰(zhàn)略。除點(diǎn)工具外還有平臺(tái)型的MLOps/LLMOps產(chǎn)品,基本涵蓋了上述流程的主要環(huán)節(jié),大型科技企業(yè)、數(shù)據(jù)基礎(chǔ)軟件廠商均參與其中。我們認(rèn)為,基于整體數(shù)字化進(jìn)程和軟件付費(fèi)意愿習(xí)慣判斷,海外企業(yè)客戶可能傾向于選取點(diǎn)工具自組工具棧,而國內(nèi)客戶可能傾向于一站式的解決方案。此外,從目前AI Infra領(lǐng)域獨(dú)角獸的估值水平來看,平臺(tái)型廠商多采取Data+AI一體化戰(zhàn)略,起步較早、規(guī)模天花板更高。?????????
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請注明出處。