聲明:本文來自于微信公眾號(hào) 量子位 (ID:QbitAI),蕭簫 衡宇 發(fā)自 凹非寺,授權(quán)轉(zhuǎn)載發(fā)布。
微軟必應(yīng)接入GPT大模型后,效果并沒有大家想象中那么好——它發(fā)瘋了。
如今官方緊急出面,更(砍)新(掉)了必應(yīng)上面最受歡迎的功能,也就是發(fā)表觀點(diǎn)的能力。
大伙兒顯然很不買賬,認(rèn)為新必應(yīng)失去了最有意思的部分,現(xiàn)在版本的體驗(yàn)感甚至不如siri1.0。
有網(wǎng)友寄希望于必應(yīng)背后的大模型升級(jí):
說不定現(xiàn)在只是GPT-3版本,GPT-4還沒發(fā)布呢。
然而據(jù)《紐約時(shí)報(bào)》等爆料,必應(yīng)背后的大模型很可能就已經(jīng)是GPT-4了……
我們將這一現(xiàn)象拋給國內(nèi)最熟悉AI Chat領(lǐng)域的人——李笛。
他上來就給熱得發(fā)燙的大模型澆了盆冷水:
新必應(yīng)和ChatGPT目前表現(xiàn)出來的bug,反映出大模型不得不解決的一個(gè)關(guān)鍵問題。
這個(gè)問題可以一時(shí)無視,但做大模型、甚至是類ChatGPT產(chǎn)品,如果不解決它,終究會(huì)碰壁。
這個(gè)bug,就是大模型的邏輯能力。
大模型:成也邏輯,敗也邏輯事情要從ChatGPT背后的GPT-3.5模型說起。
從GPT-3.5開始,大模型展現(xiàn)出一種突破性的能力——思維鏈(CoT,Chain of Thought),也就是邏輯思考能力。
舉個(gè)例子,在做數(shù)學(xué)題時(shí),相比直接輸出答案,模型能一步步推理直至給出正確答案,體現(xiàn)的就是思維鏈能力:
但此前在中小模型、甚至一部分大模型上都沒有發(fā)現(xiàn)這種能力,學(xué)界便認(rèn)為這是某些大模型獨(dú)有的“新特性”。
基于這一“新特性”,大火的ChatGPT橫空出世,在回答問題和發(fā)表看法時(shí)展現(xiàn)出了像人一樣思考的效果。
然而李笛認(rèn)為,GPT-3.5表現(xiàn)出的這種邏輯能力,是不穩(wěn)定、不可控甚至危險(xiǎn)的。
第一,它的思考方式不透明;第二,它連引用來源都沒有。
這兩個(gè)問題看似被OpenAI用大量人工精細(xì)標(biāo)注的數(shù)據(jù)、大量的模型參數(shù)掩蓋了起來,但一旦加入不可控因素(像必應(yīng)一樣接入互聯(lián)網(wǎng)、或修改參數(shù)等),就隨時(shí)可能導(dǎo)致模型崩潰。
因此,如今邏輯思考能力正在成為大模型的雙刃劍——
使用效果好,大模型邁入新的時(shí)代;一旦失控,只會(huì)讓大模型更難落地。
為了舉例說明大模型的邏輯能力存在問題,李笛提到了小冰公司最新發(fā)布的產(chǎn)品小冰鏈。
小冰鏈(X-CoTA,X-Chain of Thought & Action)同樣是個(gè)大語言模型,通過對(duì)話的方式幫人們解答問題。
但它最典型的不同,在于僅僅用GPT-3參數(shù)量2%的模型就實(shí)現(xiàn)了思維鏈,而且思考過程還是透明的。
在模型大小上,它不僅不是GPT系列的千億參數(shù)大模型,背后參數(shù)只有幾百億甚至最低能降到35億;
至于功能上,它拒絕像ChatGPT一樣生成綜述、作業(yè)和發(fā)言稿,但能實(shí)現(xiàn)的功能更多。除了不避諱對(duì)事件發(fā)表看法、主動(dòng)聯(lián)網(wǎng)找答案以外,還能靈活調(diào)用各種模型或知識(shí)庫完成任務(wù)。
具體來說,小冰鏈的架構(gòu)分為三個(gè)模塊。
模塊一負(fù)責(zé)運(yùn)用思維鏈(CoT)能力處理語句。
這部分可以調(diào)用具備CoT能力的大模型來實(shí)現(xiàn),但也可以調(diào)用上面說的35億參數(shù)左右的中模型,將輸入的語句轉(zhuǎn)換成具體行動(dòng)的Action指令輸出。
模塊二負(fù)責(zé)執(zhí)行指令(Action),這部分接收并處理模塊一輸出的Action指令,負(fù)責(zé)執(zhí)行對(duì)應(yīng)的任務(wù)。
根據(jù)處理的指令不同,模塊二調(diào)用的模型和數(shù)據(jù)也并不相同,至少有三大使用方式:
聯(lián)網(wǎng)或本地知識(shí)庫搜索。既可以追蹤互聯(lián)網(wǎng)查找最新熱點(diǎn)、甚至網(wǎng)頁跳轉(zhuǎn),也可以在特定知識(shí)庫中索引答案。
調(diào)用特定模型做某件事。如調(diào)用效果很好的擴(kuò)散模型完成作畫、或調(diào)用語音模型合成聲音等。
控制物理世界特定行為。如開燈、買機(jī)票、打車等,不一定是特定指令,而是模型推斷后得出的結(jié)論。
模塊三負(fù)責(zé)自然語言生成,簡單來說就是將思考行動(dòng)的結(jié)果用人話描述一遍,再匯報(bào)給用戶。
總結(jié)來看,小冰鏈可以說是把ChatGPT最火的“思考方式”拿出來多帶帶做成模型,并不斷降低模型大小。
李笛認(rèn)為,即使小冰鏈的核心模型大小只有中等水平,卻也能在一些問題的思考方式上展現(xiàn)出與大模型相近的效果。
△還能聯(lián)網(wǎng),搶在吃瓜第一線基于這樣的觀點(diǎn),李笛在一眾主流“要做中國的ChatGPT”呼聲中反其道而行之,不僅不宣傳自家類ChatGPT產(chǎn)品,甚至推出了個(gè)強(qiáng)調(diào)“這不是ChatGPT”的小冰鏈。
看起來似乎有點(diǎn)非主流(手動(dòng)狗頭)。
這么做,真有理論依據(jù)嗎?
背后的技術(shù)依據(jù)CoT,確實(shí)在國外已有不少相關(guān)研究,包括前段時(shí)間爆火的“哄一哄讓GPT-3準(zhǔn)確率暴漲”論文也在此列:
團(tuán)隊(duì)在研究中發(fā)現(xiàn),只要對(duì)GPT-3說一句“讓我們一步一步地思考”,就能讓它正確回答出以前不會(huì)的邏輯推理題,比如下面這個(gè)來自MutiArith數(shù)據(jù)集的例子:
16個(gè)球中有一半是高爾夫球,這些高爾夫球中有一半是藍(lán)色的,一共有幾個(gè)藍(lán)色的高爾夫球?
這些例子專門考驗(yàn)語言模型做數(shù)學(xué)題的能力,尤其是邏輯推理能力。
GPT-3本來在零樣本場景(之前完全沒見過類似體型)下準(zhǔn)確率僅有17%,但在要求它一步步思考后,準(zhǔn)確率最高能暴漲到78.7%。
這種名為CoT的方法,最早在去年1月由谷歌大腦團(tuán)隊(duì)發(fā)現(xiàn)并提出。
其核心思路是基于提示(prompting)的方法,讓大模型學(xué)習(xí)一步步思考的過程,有邏輯地解決實(shí)際問題:
但上述思維鏈(CoT)論文基本都還停留在對(duì)大模型的研究上。
李笛卻認(rèn)為,思維鏈所代表的邏輯能力不是專屬于大模型的產(chǎn)物。
在國內(nèi),“AI”或許已經(jīng)是一個(gè)人盡皆知的詞語,也是進(jìn)行得如火如荼的創(chuàng)新風(fēng)潮。
如果李笛所述方法得以驗(yàn)證,那么AI產(chǎn)業(yè)化應(yīng)用除了“堆參數(shù)”、“砸資金”這一條大模型路線以外,或許還有其他出路。
國內(nèi)AI應(yīng)用落地,勢力三分ChatGPT的效果和熱度,讓走在大模型路線上的人們看到了一絲曙光,但并不意味著AI產(chǎn)業(yè)化路線只剩下大模型這一種可能。
或者說,ChatGPT的熱度,反而能更鮮明地呈現(xiàn)出當(dāng)下國內(nèi)外AI應(yīng)用落地的現(xiàn)狀和趨勢。
先提綱挈領(lǐng)地講,主要路徑可以分為三條。
第一種就是直接做底層大模型。
這是最直接、最容易理解,同時(shí)也是最難走的一條路。
一方面,大模型需要的訓(xùn)練數(shù)據(jù)是海量的,而現(xiàn)實(shí)情況是可用作訓(xùn)練的數(shù)據(jù)、尤其是中文數(shù)據(jù)較少。
以最近的熱點(diǎn)舉例說明,復(fù)旦邱錫鵬教授團(tuán)隊(duì)推出的中國首個(gè)類ChatGPT產(chǎn)品MOSS,最大短板是中文水平不夠高,重要原因之一就是背后大模型訓(xùn)練時(shí)缺乏高質(zhì)量的中文語料。
另一方面,大模型的參數(shù)是海量的。ChatGPT每一句看似簡短的回答,都把1750億參數(shù)調(diào)動(dòng)了一次。
巨量參數(shù)首先給標(biāo)注工程帶來了巨大的工作量,為了應(yīng)對(duì)這個(gè)環(huán)節(jié),OpenAI在肯尼亞以低于2美元的時(shí)薪雇傭大量工人,夜以繼日地進(jìn)行數(shù)據(jù)的篩選標(biāo)注。放眼國內(nèi),能拿出如此多人力耗在標(biāo)注工作的,大約只有字節(jié)跳動(dòng)、百度等巨頭公司。
上述兩個(gè)方面,最后的箭頭都直指同一個(gè)問題:成本,無法估量的成本。
OpenAI CEO奧特曼曾在推特上透露,ChatGPT每次對(duì)話的計(jì)算成本為5美分,“讓人難以忍受”。5美分這個(gè)數(shù)字看似單薄,然而每個(gè)人每天與ChatGPT對(duì)話的數(shù)量、以及不斷增長的使用人數(shù),疊加起來將會(huì)達(dá)到一個(gè)非??植赖牧考?jí)。
谷歌母公司Alphabet的董事長ohn Hennessy在本周表示,大型語言模型等AI對(duì)話成本,可能是傳統(tǒng)搜索引擎的10倍以上。此前摩根士丹利估計(jì),2022年谷歌的3.3萬億次搜索查詢,每次成本為0.2美分,如果接入Bard這類產(chǎn)品,根據(jù)AI文本生成的長度,這個(gè)數(shù)字還會(huì)增加。
類似ChatGPT的AI每次回答50字,來回答一般的查詢業(yè)務(wù),那么谷歌每年成本將增加60億美元。
值得注意的是,無論哪位國內(nèi)玩家堆出了一個(gè)與GPT-3.5甚至GPT-4媲美的大模型,還須找到能夠落地跑起來的應(yīng)用場景,唯有實(shí)現(xiàn)商業(yè)閉環(huán),才不致血本無歸。
第二條路,是從大模型中去粗取精。
展開來說,就是在盡可能保留、甚至提高大模型某一單項(xiàng)能力的前提下,縮小參數(shù)量級(jí),致力于用更小的模型實(shí)現(xiàn)大模型表現(xiàn)出來的功能。
如果把大模型看作一輛自行車,堆參數(shù)的過程就是在大模型上實(shí)現(xiàn)某個(gè)效果的過程,過程艱辛而緩慢。去粗取精之后,不用自行車緩慢前行就能達(dá)到效果,相當(dāng)于在通往同一目標(biāo)的路上造火箭。
亞馬遜在走這條路,方法是直接從小模型起手,不過這條路能走通,需要一個(gè)關(guān)鍵前提:中小模型可以接近、甚至達(dá)到大模型展現(xiàn)出來的實(shí)用能力。
砍掉不需要的枝葉,向下探索具有特定功能的模型規(guī)模最低下限,能夠一定程度上緩解大模型訓(xùn)練帶來的成本壓力。
但這條路線亦有爭議,一是因?yàn)镃hatGPT大模型已經(jīng)展現(xiàn)出應(yīng)用可行性,堅(jiān)持這種做法勢必在技術(shù)上逆流而行;二是即便成本更優(yōu),卻尚未有現(xiàn)實(shí)案例壓陣,證明這種路線就能在AI應(yīng)用落地較量中取得最后的勝利。
第三條路與前兩者不同,并非技術(shù)差異,而是直接從商業(yè)化角度打出競爭優(yōu)勢。
這類玩家不需要在技術(shù)上多下文章,而更考驗(yàn)商業(yè)創(chuàng)新能力,屬于想好場景應(yīng)用后“拿釘找錘”的模式。
目前,國外已經(jīng)有順著這條路發(fā)展的可參考案例,比如AI初創(chuàng)公司Jasper,就是基于GPT-3開放的API提供各式服務(wù),利用AI為博客文章、社交媒體帖子及網(wǎng)頁等平臺(tái)生成文字內(nèi)容。
但凡產(chǎn)品體驗(yàn)足夠好,或者場景資源足夠豐厚,就能積攢大量用戶,形成自己的核心競爭力。
反向思考之,正因?yàn)楹诵母偁幜Σ皇羌夹g(shù)上的,走這條路的公司,頭頂永遠(yuǎn)懸著一柄達(dá)摩克利斯之劍。把產(chǎn)品甚至公司的命運(yùn)寄托在他人手中,隨時(shí)有被卡脖子的風(fēng)險(xiǎn),如何能不時(shí)刻提心吊膽?
三條路線擺在眼前,利弊也已經(jīng)初步顯現(xiàn)。第一條路,意味著巨大的成本;第二條路,方案尚待驗(yàn)證;第三條路,核心生產(chǎn)資料不可控。
哪一條才通向羅馬?又或者,這三條路之外,是否還會(huì)出現(xiàn)直通AI應(yīng)用落地的潛在捷徑?
李笛說,他們選擇第二條路。小冰鏈也正是基于這條路徑之上探索出來的產(chǎn)物,本質(zhì)上仍舊是從“可解釋人工智能”的角度,探索成本、風(fēng)險(xiǎn)可控的AI商業(yè)化落地應(yīng)用。
至于方案驗(yàn)證,或許也不用等太久,李笛說,未來小冰鏈會(huì)和必應(yīng)合作,將這種方法應(yīng)用到搜索引擎上。
實(shí)際應(yīng)用效果如何,我們拭目以待。