AI大模型：聲勢(shì)喧天，悄悄落地

2023-05-08 18:41:45來(lái)源： 果殼網(wǎng)

今天，隨便拉個(gè)人出來(lái)都會(huì)說(shuō)兩句AI。我們關(guān)心它的能力，看它的樂(lè)子，也擔(dān)心它的提升。沒(méi)有人會(huì)拒絕從天而降的熱度，早期投資人早已聞風(fēng)而動(dòng)，二級(jí)市場(chǎng)不愿錯(cuò)過(guò)這一輪上升的機(jī)會(huì)。不論估值還是市值，反映的都是我們對(duì)技術(shù)的樂(lè)觀預(yù)期。

(相關(guān)資料圖)

在AI的世界里，人類(lèi)已經(jīng)樂(lè)觀了好幾次。

2016年，AlphaGo打敗李世乭，AI概念便開(kāi)始走紅；2018年，波士頓動(dòng)力展示了跑酷王Atlas 2的演示視頻，雖然它和AI并無(wú)關(guān)系，但也再次讓相關(guān)概念股不斷異動(dòng)。每當(dāng)AI有最新進(jìn)展，隨之而來(lái)的都是大量概念炒作，但AI行業(yè)不僅有很高門(mén)檻，還有很高的天花板。

最近一段時(shí)期，ChatGPT概念股，又一次復(fù)現(xiàn)了上述情境，一些企業(yè)有意捧之炒之，2023年2月1日~4月7日，相關(guān)概念累計(jì)上漲達(dá)62.38%，而在此后ChatGPT概念股遭最狠下跌。[1]

我們常用Gartner曲線去描述一項(xiàng)技術(shù)的成熟度，但須知Gartner曲線原名“Hype Cycle”——是伴隨技術(shù)發(fā)展的炒作的周期。

這是再樸素不過(guò)的道理：炒作結(jié)束，應(yīng)用才真正起飛。

餅好畫(huà)，事難成

事實(shí)上，OpenAI成功并非追隨概念熱點(diǎn)，其核心領(lǐng)導(dǎo)團(tuán)隊(duì)是一群富有使命感的技術(shù)偏執(zhí)狂，堅(jiān)定擁抱通用人工智能（AGI），并持續(xù)推動(dòng)大模型相關(guān)技術(shù)。[2]

許多人都沒(méi)有想到，大模型竟然可以取得如此成效，國(guó)內(nèi)企業(yè)也順勢(shì)紛紛趕工，但做大模型，談何容易。

中國(guó)信通院《人工智能白皮書(shū)（2022年）》指出，人工智能正朝更大規(guī)模、更多模態(tài)的方向發(fā)展[3]。未來(lái)的大模型，不僅需要算力驚人，更會(huì)通曉文字、圖像或視頻。

首先，高質(zhì)量語(yǔ)料正逐漸消耗殆盡，更多信息需要從視覺(jué)上獲取，也就是向多模態(tài)發(fā)展。人類(lèi)一生可以聽(tīng)到約10億個(gè)單詞，GPT-3就已學(xué)習(xí)約5000億語(yǔ)言數(shù)據(jù)，已知最大語(yǔ)言模型數(shù)據(jù)消耗量在2萬(wàn)億個(gè)Token（指文本中最小單位）以上，而人類(lèi)文明產(chǎn)生高質(zhì)量語(yǔ)料共9萬(wàn)億左右，語(yǔ)料被用完是遲早之事。事實(shí)上，人類(lèi)是視覺(jué)動(dòng)物，80%信息通過(guò)眼睛獲取，且神經(jīng)元處理視覺(jué)和語(yǔ)言連接數(shù)比例為10：1，因此讓AI也學(xué)會(huì)識(shí)圖，就能更快了解世界。

其次，大模型時(shí)代單純使用參數(shù)量的標(biāo)定方式已過(guò)時(shí)，現(xiàn)在應(yīng)該綜合考慮算法、數(shù)據(jù)和算力三要素。過(guò)去10年，最好的AI算法對(duì)于算力需求增長(zhǎng)超過(guò)了100萬(wàn)倍，也就是每?jī)赡晏岣咭粋€(gè)數(shù)量級(jí)。隨著多模態(tài)的引入，數(shù)據(jù)量將繼續(xù)指數(shù)級(jí)增長(zhǎng)，當(dāng)計(jì)算量有限情況下，需要分配更多計(jì)算資源給數(shù)據(jù)，而不是完全給參數(shù)，用公式來(lái)說(shuō)，就是“大模型參數(shù)量×處理的數(shù)據(jù)量=計(jì)算量”，計(jì)算量越大，通用能力越強(qiáng)。

神經(jīng)網(wǎng)絡(luò)參數(shù)量算力需求增長(zhǎng)已超過(guò)100萬(wàn)倍

國(guó)內(nèi)外成型的類(lèi)ChatGPT產(chǎn)品，其本質(zhì)均由前期大模型而來(lái)，而產(chǎn)品本身能力則主要取決于前期大模型發(fā)展情況[4]。自從AI大模型于2017年被提出，國(guó)外就已經(jīng)開(kāi)始進(jìn)行相關(guān)超大規(guī)模訓(xùn)練，并于2021年正式進(jìn)入軍備競(jìng)賽階段。[5]

國(guó)內(nèi)在早期擁有大模型能力的公司是少數(shù)。且國(guó)內(nèi)大模型仍缺乏數(shù)據(jù)量，也做不到高層級(jí)的架構(gòu)[6]。更困難的是，大模型是算力巨獸，依賴高端GPU芯片，一個(gè)大模型需數(shù)萬(wàn)塊GPU，以此推算，是至少幾十億元人民幣的投入。[7]

雖然困難重重，但也有滿足做大模型一切條件的公司，這種公司需要既有算法，又有算力。

讓大模型有用

從“大煉模型”到“煉大模型”，AI產(chǎn)業(yè)前期投入大而后期應(yīng)用難一直被行業(yè)所詬病。而如今，將語(yǔ)言、視覺(jué)等信息和能力融為一體的多模態(tài)大模型正悄然引發(fā)AI設(shè)計(jì)范式的轉(zhuǎn)變，即從專(zhuān)用人工智能走向通用人工智能（AGI）。

目前普通用戶和產(chǎn)業(yè)界也在追求多模態(tài)AI工具的聯(lián)合應(yīng)用。一個(gè)模型被用于指揮另外一組模型、被用于生成Prompt。應(yīng)用層面的創(chuàng)新層出不窮，是新一代大模型+場(chǎng)景的結(jié)合。

但“AI+場(chǎng)景”真的很貴，研發(fā)周期也極長(zhǎng)，每個(gè)場(chǎng)景均有其專(zhuān)屬模型，如果遇到新任務(wù)，就要重新設(shè)計(jì)AI系統(tǒng)，采集樣本，對(duì)模型重新訓(xùn)練。而AGI就像一個(gè)可以適配各行各業(yè)的萬(wàn)能鑰匙，當(dāng)大模型廠商把推理能力部署到千行百業(yè)，就能讓更多應(yīng)用享受到AI帶來(lái)福利。[8]

3月中旬以來(lái)，大模型混戰(zhàn)開(kāi)打，百度、阿里巴巴、華為、360等公司分別展示了其在大模型領(lǐng)域的進(jìn)展。而國(guó)內(nèi)也一致指向新概念——模型即服務(wù)（Model-as-a-Service，MaaS），描繪一副全新的商業(yè)前景。

為了擴(kuò)大市場(chǎng)應(yīng)用，大模型應(yīng)瞄準(zhǔn)ToB業(yè)務(wù)。我們也看到，國(guó)產(chǎn)大模型也正一點(diǎn)點(diǎn)地撬動(dòng)B端更多應(yīng)用。

作為從2018年就開(kāi)始研發(fā)大模型的AI公司商湯科技，就在近日展示了其日日新SenseNova大模型體系，面向行業(yè)提供涵蓋自動(dòng)化數(shù)據(jù)標(biāo)注、自定義大模型訓(xùn)練、模型增量訓(xùn)練、模型推理部署、開(kāi)發(fā)效率提升等多種大模型即服務(wù)（MaaS）。

3月以來(lái)，越來(lái)越多的人機(jī)對(duì)話應(yīng)用浮出水面，各家公司都對(duì)其擁有自己的思考。日日新大模型體系下的千億級(jí)參數(shù)語(yǔ)言大模型“商量SenseChat”作為聊天助手，可以解決復(fù)雜問(wèn)題、提供定制化建議、輔助創(chuàng)作成本，同時(shí)還能在醫(yī)療領(lǐng)域提供導(dǎo)診、健康咨詢、輔助決策等對(duì)話能力，在編程領(lǐng)域提供代碼補(bǔ)全、注釋生成代碼、測(cè)試代碼生成、代碼翻譯、代碼修正、代碼重構(gòu)、復(fù)雜度分析等功能。

商湯基于日日新SenseNova大模型體系，自研包括如影SenseAvatar、瓊宇SenseSpace、格物SenseThings以及文生圖大模型秒畫(huà)SenseMirage（同時(shí)也支持大量第三方豐富開(kāi)源模型導(dǎo)入）等一系列生成式AI模型及應(yīng)用，既可以生成高清圖片和視頻，也能生成各種3D內(nèi)容。

多年發(fā)展中，自動(dòng)駕駛很難向更高級(jí)別跨越，而它也很難像人一樣，可以靈活應(yīng)對(duì)各種路況，多模態(tài)大模型或許能夠解決這種困境。利用大模型生成大量困難樣本，再用環(huán)視感知數(shù)據(jù)和多模態(tài)數(shù)據(jù)作為輸入，實(shí)現(xiàn)感知和決策一體化，通過(guò)環(huán)境解碼器重建3D場(chǎng)景，實(shí)現(xiàn)路徑規(guī)劃，并用自然語(yǔ)言解釋自動(dòng)駕駛動(dòng)機(jī)，就能使自動(dòng)駕駛系統(tǒng)更安全可靠，且具有可解釋性。商湯則開(kāi)發(fā)了自動(dòng)駕駛的BEV（Bird Eye View）感知算法，實(shí)現(xiàn)量產(chǎn)，并在今年開(kāi)發(fā)能夠?qū)崿F(xiàn)端到端自動(dòng)駕駛的UniAD，比SOTA更準(zhǔn)確，誤差更低。

商湯的自動(dòng)駕駛大模型概況

傳統(tǒng)AI技術(shù)下，人工標(biāo)注所需時(shí)間長(zhǎng)、成本高，需投入大量資源。而利用大模型可以實(shí)現(xiàn)自動(dòng)標(biāo)注，大大降低了成本。商湯明眸自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)則提供自動(dòng)數(shù)據(jù)標(biāo)注服務(wù)，它擁有12個(gè)行業(yè)級(jí)大模型，涵蓋超過(guò)1000個(gè)目標(biāo)類(lèi)別，且能標(biāo)注2D和3D。當(dāng)用戶上傳圖片數(shù)據(jù)，就可以對(duì)目標(biāo)進(jìn)行檢測(cè)和屬性識(shí)別，并自動(dòng)顯示標(biāo)注。

商湯明眸SenseAnnotation概況

生物醫(yī)藥領(lǐng)域，人類(lèi)基因組攜帶了超2萬(wàn)個(gè)蛋白質(zhì)的指令，但人體20種不同氨基酸通過(guò)排列組合，再經(jīng)過(guò)螺旋和折疊，形成不同的復(fù)雜結(jié)構(gòu)，只有約1/3蛋白質(zhì)的三維結(jié)構(gòu)通過(guò)實(shí)驗(yàn)方法得到了解析[9]。因此解析蛋白質(zhì)結(jié)構(gòu)是一項(xiàng)非常重要的基礎(chǔ)工作。

蛋白質(zhì)功能通常由其結(jié)構(gòu)所決定，要預(yù)測(cè)其結(jié)構(gòu)，算力資源是基礎(chǔ)。DeepMind的Alpha Fold之所以名震人工智能界與科研界，就在于其學(xué)習(xí)了X射線晶體學(xué)和冷凍電鏡的實(shí)驗(yàn)數(shù)據(jù)，使其預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)能力超群，大大提升科研效率。商湯AI大裝置為蛋白質(zhì)結(jié)構(gòu)大模型提供AI推理算力，并為蛋白質(zhì)相互作用模型，提供研發(fā)平臺(tái)及訓(xùn)練算力，在與百英科技合作中，蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大模型推理時(shí)間可由數(shù)小時(shí)減少到數(shù)分鐘，使得蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)性能達(dá)到工業(yè)應(yīng)用的標(biāo)準(zhǔn)，抗體篩選效率提升60%。

不同于其它廠商大模型技術(shù)路徑，商湯是以視覺(jué)大模型為核心技術(shù)突破點(diǎn)衍生而來(lái)的多模態(tài)大模型發(fā)展路徑：2019年商湯即研發(fā)了10億參數(shù)視覺(jué)大模型，至2022年已推出320億參數(shù)視覺(jué)大模型。與此同時(shí)，商湯也提前布局自研NLP模型和多模態(tài)模型，并在2021年就應(yīng)用在商湯數(shù)字人等產(chǎn)品中，在今年 3月，商湯還開(kāi)源了30億參數(shù)的多模態(tài)大模型書(shū)生2.5。

基于AI領(lǐng)域的長(zhǎng)期應(yīng)用落地，商湯積累了大量的、有人反饋的、視覺(jué)類(lèi)信息,形成優(yōu)質(zhì)多模態(tài)語(yǔ)料，也使得桎梏大模型發(fā)展的數(shù)據(jù)難題迎刃而解。

此外，商湯AI大裝置SenseCore也奠定了商湯的發(fā)展基底。它目前的算力規(guī)模包含2.7萬(wàn)塊GPU，可輸出5000PetaFlop的算力，支持20個(gè)千億參數(shù)超大模型同時(shí)訓(xùn)練，支持最大4000卡并行單任務(wù)訓(xùn)練，可持續(xù)7天以上不間斷穩(wěn)定訓(xùn)練。

對(duì)于正探索多模態(tài)大模型的公司，到底如何讓大模型更有價(jià)值？商湯構(gòu)建能力的思考，也許有些參考意義：一是優(yōu)化好模型本身，提高多模態(tài)數(shù)據(jù)處理能力，讓文字、圖片、視頻無(wú)縫銜接；二是提供更多高質(zhì)量數(shù)據(jù)，給模型更多“好口糧”；三是與生態(tài)伙伴探索商業(yè)應(yīng)用，讓大模型釋放更多生產(chǎn)力，如智能助手、自動(dòng)駕駛、醫(yī)療診斷；四是讓大模型時(shí)刻安全可靠。

寫(xiě)在最后

美國(guó)斯坦福大學(xué)人類(lèi)中心人工智能研究所（HAI）發(fā)布的《人工智能指數(shù)報(bào)告 2023》（AI Index Report 2023）顯示，大語(yǔ)言模型論文發(fā)表量方面，美國(guó)要遠(yuǎn)超其它國(guó)家。[10]

圖源：美國(guó)斯坦福大學(xué)[10]，漢化丨公眾號(hào)“科研圈”[11]

在投入上，美國(guó)也遠(yuǎn)超中國(guó)：2022年，美國(guó)在AI領(lǐng)域的私人投資為470億美元，約是排名第二的中國(guó)（130億美元）的3.5倍。

圖源：美國(guó)斯坦福大學(xué)[10]，漢化丨公眾號(hào)“科研圈”[11]

大模型作為前期投入極大的技術(shù)，需要的并不是概念，而是在提高投入的前提下，找到更多看得見(jiàn)摸得著的商業(yè)化應(yīng)用。當(dāng)大模型被每個(gè)人觸及之時(shí)，行業(yè)便會(huì)被更多人所重視。

References：

[1] 深圳商報(bào)：ChatGPT概念暴跌，機(jī)構(gòu)、游資卻在抄底！最強(qiáng)主線真的熄火了嗎？.2023.4.10.https://mp.weixin.qq.com/s/TkXbhHu5jODPXWPQzEj5ig

[2] 新智元：張宏江：大模型發(fā)展機(jī)會(huì)與挑戰(zhàn).2023.3.18.https://mp.weixin.qq.com/s/pjUaRD0YV2qb6MXZ-oVstQ

[3] 中國(guó)信通院：http://www.caict.ac.cn/kxyj/qwfb/bps/202204/P020220412613255124271.pdf

[4] 智能相對(duì)論：ChatGPT冷觀察：沒(méi)有大模型的土壤，開(kāi)不出ChatBot的花.2023.2.16.https://mp.weixin.qq.com/s/f7HTfM0wlh5D1GFJcJVstw

[5] 祝梅.國(guó)產(chǎn)AI大模型，尋找未來(lái)競(jìng)爭(zhēng)力[N].浙江日?qǐng)?bào),2023-04-12(003)

[6] 新眸：阿里大模型也來(lái)了！聊聊我的幾點(diǎn)看法.2023.4.9.https://mp.weixin.qq.com/s/RZ73F7Z231H5GPg6s0p3LA

[7] 許林艷.國(guó)產(chǎn)AI大模型“百舸爭(zhēng)流” 夯實(shí)算力底座正在進(jìn)行時(shí)[N].證券日?qǐng)?bào),2023-04-12(A03)）

[8] 張依依.大模型正在塑造人工智能產(chǎn)業(yè)新格局[N].中國(guó)電子報(bào),2023-04-11(007)）

[9] Callaway E. DeepMind’s AI predicts structures for a vast trove of proteins[J]. Nature, 2021, 595(7869): 635-635..https://doi.org/10.1038/d41586-021-02025-4

[10] THE AI INDEX REPORT：Measuring trends in Artificial Intelligence.https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index-Report_2023.pdf

[11] 科研圈：https://mp.weixin.qq.com/s/yfOQkyWoManWRUlnSAWEeA

關(guān)鍵詞：

相關(guān)新聞