加強(qiáng)版Claude3.5正式上線,一句話操控電腦的時(shí)代真的要來了
激石Pepperstone(http://hskilr.com/)報(bào)道:
夜里十一點(diǎn),大洋彼岸早上8點(diǎn)整。
Claude帶著大貨閃亮登場了。
升級(jí)版的Claude 3.5 Sonnet,新模型Claude 3.5 Haiku,還有全新的新功能:computer use,翻譯過來后,我把他稱為,“計(jì)算機(jī)操控”。
一個(gè)一個(gè)來說。
首先新模型升級(jí)版Claude 3.5 Sonnet。
Claude的模型一直分為三個(gè)尺寸,分別是Opus、Sonnet、Haiku。從大到小。
3月的時(shí)候,Claude正式推出Claude 3代的全系模型,從Opus到Haiku都有。
然后6月的時(shí)候推出了Claude 3.5 Sonnet,只推了這一個(gè),沒有3.5 Opus和Haiku,參見這篇文章:我體驗(yàn)完剛發(fā)布的Claude3.5,發(fā)現(xiàn)最強(qiáng)的是這個(gè)新功能。
那時(shí)候Claude 3.5 Sonnet的能力就吊打了舊的最大參數(shù)的模型。
而今天,推送的是升級(jí)版的Claude 3.5 Sonnet,還有新的Claude 3.5 Haiku。
有趣的是,Claude 3.5 Haiku還是后訓(xùn)的,知識(shí)截止時(shí)間是7月,而升級(jí)版Claude 3.5 Sonnet知識(shí)時(shí)間并沒有變,也就是加了更多的強(qiáng)化學(xué)習(xí)的合成數(shù)據(jù)以及“計(jì)算機(jī)控制”的訓(xùn)練。
而Claude 3.5 Sonnet的整體性能上,基本傲視群雄。
不管是推理、還是本科的知識(shí)、還是編程能力啥的,都是No.1,而且Claude的跑分不像很多模型那種刷榜,他的跑分是真的可信的。
我相信6月Claude 3.5 Sonnet上線后,直接一波科技躍遷,帶著cursor之類的A編程一波升天,就不會(huì)有任何人會(huì)懷疑Claude的代碼能力了吧。
最特別的評(píng)測基準(zhǔn)其實(shí)是那個(gè)第七行的SWE-bench Verified,大概就是測試寫代碼解決問題的真實(shí)能力,這個(gè)評(píng)測基準(zhǔn)是8月份OpenAI提的,然后這波Claude 3.5直接把這個(gè)基準(zhǔn)加在自己的跑分里。
GPT4o在這項(xiàng)的跑分是33.2%,o1不知道。
但是按Claude的話說,o1是個(gè)什么臟東西,不認(rèn)識(shí)。
而新版的Claude 3.5 Sonnet,目前也在Claude官網(wǎng)上上線了。
可以看到有了new的標(biāo)簽。
我直接發(fā)了最簡單的一句話:給我生成一個(gè)非常精美的俄羅斯方塊游戲。
然后,升級(jí)版Claude 3.5 Sonnet,就開始嘟嘟嘟的生成。
直接一次性生成了280行代碼,而且這個(gè)游戲,是真的可以直接玩的。。
也可以直接讓它生成一個(gè)隨時(shí)可調(diào)可互動(dòng)的動(dòng)效模擬器,徹底改變學(xué)習(xí)方式。
就,非常的酷。
其次是Claude 3.5 Haiku。
這個(gè)其實(shí)就沒太多可說的了,常規(guī)升級(jí),但是是目前最快、性價(jià)比最高的模型。
在跟Claude 3 Haiku的相同成本和速度下,直接擊敗了參數(shù)量最大的Claude 3 Opus。
在編碼任務(wù)上,居然能直接打敗沒升級(jí)前的Claude 3.5 Sonnet,這個(gè)是最離譜的。
只能說,Anthropic的強(qiáng)化學(xué)習(xí)范式走的還是太超前了,合成數(shù)據(jù)的質(zhì)量實(shí)在是太高太高了。
那最后,也是最重磅的一點(diǎn),Claude的“computer use”,也就是新功能,計(jì)算機(jī)控制。
這個(gè)點(diǎn)就非常的科幻,能夠?qū)崟r(shí)分析用戶計(jì)算機(jī)屏幕上的活動(dòng),并自主執(zhí)行在線任務(wù),比如瀏覽、點(diǎn)擊和輸入。
我直接放一個(gè)官方case吧。
Anthropic是這么描述這個(gè)“計(jì)算機(jī)控制”的功能的:“Claude 3.5 Sonnet可以按照用戶的命令在計(jì)算機(jī)屏幕上移動(dòng)光標(biāo),點(diǎn)擊相關(guān)位置,并通過虛擬鍵盤輸入信息,模擬人們與自己計(jì)算機(jī)的互動(dòng)方式?!?/p>
這,就是一個(gè)能理解用戶意圖,并幫他自主實(shí)現(xiàn)的真正的Agent。
以前的Agent,說實(shí)話,看上去更像一個(gè)RPA,就是根據(jù)預(yù)設(shè)好的工作流,一步一步的執(zhí)行下去,但是真正的Agent應(yīng)該是什么樣?
在我看來,他就應(yīng)該跟人一樣,能理解你的復(fù)雜語義,把這個(gè)復(fù)雜語義具象成可執(zhí)行的步驟,就像我說現(xiàn)在“凌晨3點(diǎn)半了我太困了,但是文章還沒有寫完,你幫我看看附近有沒有咖啡買,有的話幫我買一杯,沒有的話就算了。”
如果是個(gè)人,那肯定是會(huì)打開美團(tuán)外賣或者餓了么,看看附近有沒有咖啡店開著,如果有開著的,看看我最喜歡喝的冰美式有沒有的,沒有冰美式的話問我一句要換什么口味?然后下單,等待送達(dá)。
如果3點(diǎn)半附近都關(guān)門了,那也應(yīng)該告訴我,附近沒賣的了,哥們你自己撐一撐吧,一會(huì)就能睡了。
這才是AI,這才是我們身邊,能進(jìn)入到普通人生活中的,最酷的AI助手。
而這種AI助手,它勢必,需要學(xué)會(huì)操作手機(jī)或者電腦。
我們不止要讓AI學(xué)會(huì)寫文章,學(xué)會(huì)畫圖,也要讓他學(xué)會(huì)操作。
這樣,才能有很強(qiáng)的,自主探索、解決問題的泛化能力。
而升級(jí)版Claude 3.5 ,只是在一些簡單軟件上進(jìn)行了訓(xùn)練,就有了操作一些不復(fù)雜軟件的能力,甚至還會(huì)自我糾錯(cuò),不斷重試,這又何嘗不是一種強(qiáng)化學(xué)習(xí)、自我博弈呢?
Anthropic,真的吧Self-Play玩出花了。
目前,在測試開發(fā)者讓模型使用計(jì)算機(jī)的一個(gè)基準(zhǔn)評(píng)估(OSWorld)中,Claude 目前得分為 14.9%。
而人類水平通常為 70-75%,雖然差距很大,還有一些路要走,但已經(jīng)遠(yuǎn)高于目前其他最好AI模型的7.7%這個(gè)分?jǐn)?shù)了。
不過現(xiàn)在這個(gè)功能普通用戶還用不到,只對(duì)開發(fā)者進(jìn)行開放,有API接入,Anthropic的本意是還在前期測試階段,怕有危險(xiǎn),所以讓開發(fā)先幫忙測試一下。
我們也花了N久時(shí)間,把API接入進(jìn)來,做了一些簡單的測試。
先裝了一個(gè)類似于模擬系統(tǒng)的東西,一切行為都會(huì)在這個(gè)模擬系統(tǒng)里運(yùn)行,Anthropic還是怕對(duì)你的系統(tǒng)會(huì)有一個(gè)不可逆轉(zhuǎn)的損害影響。
我測了很多個(gè)case,但是說實(shí)話,一是速度實(shí)在太磨嘰了...二是成功率,確實(shí)還有點(diǎn)低下。
比如這個(gè)案例:“打開淘寶網(wǎng)站頁面,找到小米手機(jī)官方旗艦店,找一個(gè)2000左右的手機(jī),加到購物車。”
其實(shí)不算難,說實(shí)話。
但是Claude翻車了,翻車的點(diǎn)也很搞笑,是在輸入店名上,人明明叫小米官方旗艦店,它非要寫“方店”,后面又試了一次,這次連兩個(gè)字都不寫了,直接寫了一個(gè)字“艦”,這能搜到才有鬼了...
而且,這個(gè)視頻我已經(jīng)兩倍速了,你們可以感受一下它有多慢。。
不過,讓他玩2048,它玩的倒是非常的開心。這一次,是三倍速。
玩的還挺好,我感覺在這放著,他一個(gè)人能玩到天荒地老。這倒也是挺有趣的。
當(dāng)然,也能做一些很實(shí)際的事情,比如給我的瀏覽器裝一個(gè)可以屏蔽廣告的插件。
他居然把插件地址背下來了,直接輸入,給我搜索+安裝一步到位。
起飛。
雖然總體任務(wù)的成功率還比較一般,但是還好,畢竟Claude自己也說了,成功率沒那么高。
而且,這只是第一代。
他們堅(jiān)信,使模型適應(yīng)工具,這是必然,而模型也可以融入我們每天使用的環(huán)境里,成為我們生活的方方面面。
他們的目標(biāo)是讓Claude使用現(xiàn)有的計(jì)算機(jī)軟件,就像人一樣。就像人一樣。
真好。希望這個(gè)愿景,能在不遠(yuǎn)的未來達(dá)成。
我真的,很想擁有一個(gè)自己的。
賈維斯。?????????
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。