當前位置:首頁 > 外匯資訊 > 正文內容

OpenAI新產(chǎn)品GPTBot:可爬取網(wǎng)絡數(shù)據(jù),為GPT-5做準備

激石外匯2023-08-09 12:00:20外匯資訊382

激石Pepperstone(http://hskilr.com/)報道:

8月8日,OpenAI在官網(wǎng)介紹了新產(chǎn)品GPTBot,這是一種網(wǎng)絡爬蟲,可大規(guī)模爬取網(wǎng)絡數(shù)據(jù)用于訓練AI模型。(地址:https://platform.openai.com/docs/gptbot)

OpenAI表示,將通過GPTBot抓取海量數(shù)據(jù),用于訓練、優(yōu)化未來模型。國外不少科技媒體指出,這個未來模型指的就是GPT-5。

事實上,OpenAI在今年7月18日提交了GPT-5商標的消息,此時又放出全新網(wǎng)絡爬蟲, 說明GPT-5離我們越來越近了。

GPTBot介紹

GPTBot是OpenAI的網(wǎng)絡爬蟲,可以通過以下用戶代理和字符串來識別,代碼如下。

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

OpenAI會對抓取的數(shù)據(jù)進行過濾,例如,刪除需要付費才能查看、使用的數(shù)據(jù),搜集的個人身份信息(PII)或違反法律法規(guī)的數(shù)據(jù)等,以保證抓取的數(shù)據(jù)符合安全標準。

如果用戶的網(wǎng)站不想被GPTBot抓取數(shù)據(jù),可以將GPTBot添加到站點的robots.txt中,代碼如下:

User-agent: GPTBot

Disallow: /

用戶也可以自定義GPTBot的訪問權限,將其添加到網(wǎng)站的robots.txt中,代碼如下:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

什么是網(wǎng)絡爬蟲

網(wǎng)絡爬蟲,是一種主要通過瀏覽網(wǎng)絡抓取數(shù)據(jù)的工具,方式包括數(shù)據(jù)挖掘,網(wǎng)頁數(shù)據(jù)復制/拍照、網(wǎng)站鏡像等方式。

網(wǎng)絡爬蟲是互聯(lián)網(wǎng)和大數(shù)據(jù)時代最重要工具之一,被譽為“黃金礦工”應用場景非常廣泛。

例如,谷歌、百度等搜索引擎通過網(wǎng)絡爬蟲來收集和建立網(wǎng)頁索引,方便用戶可以通過關鍵字快速找到相關的網(wǎng)頁。

也有商業(yè)機構使用網(wǎng)絡爬蟲實時收集競爭對手的信息,如產(chǎn)品價格、新產(chǎn)品發(fā)布、營銷活動等,以進行市場分析和營銷策略制定。

網(wǎng)絡爬蟲的缺點

雖然網(wǎng)絡爬蟲功能強大,但也存在數(shù)據(jù)質量不穩(wěn)定、版權風險、難以爬取特定內容、爬取頻率等缺點。

數(shù)據(jù)質量不穩(wěn)定:網(wǎng)絡爬蟲抓取的數(shù)據(jù)可能包含大量非法、虛假或質量低下的數(shù)據(jù),例如,爬取了一個非法網(wǎng)站的數(shù)據(jù)。因此,想使用爬蟲的數(shù)據(jù)需要進行清洗和處理。

版權風險:網(wǎng)絡爬蟲可能會侵犯數(shù)據(jù)隱私和版權,違反網(wǎng)站的使用協(xié)議帶來法律風險。例如,非法爬取了目標網(wǎng)站的付費內容。

難以爬取特定內容:對于一些需要用戶輸入或交互才能獲取的內容,例如,網(wǎng)站搜索結果、驗證碼、登錄后才能查看的內容等,網(wǎng)絡爬蟲可能難以抓取。

爬取頻率:網(wǎng)絡爬蟲抓取的數(shù)據(jù)是靜態(tài)的,不能實時反映網(wǎng)頁的變化需要定期重新抓取。但頻率過高會對目標網(wǎng)站的服務器造成巨大壓力影響其正常服務,頻率太低數(shù)據(jù)更新又不及時,需要制定一個合理的頻率。

如今在大模型等AI技術加持下,上述常見的網(wǎng)絡爬蟲缺點已得到克服,并且更注重數(shù)據(jù)版權、安全等問題。

網(wǎng)絡爬蟲抓取的數(shù)據(jù),是訓練大語言模型的重要來源

目前,訓練大語言模型的主要數(shù)據(jù)來源包括自有數(shù)據(jù)集、開源數(shù)據(jù)集和網(wǎng)絡爬蟲等。自有數(shù)據(jù)集主要應用在特定業(yè)務場景的微調,例如,法律領域的使用真實的法律裁決、書籍、法律合同等數(shù)據(jù),訓練專用于法律的生成式AI產(chǎn)品。

開源數(shù)據(jù)集,這種數(shù)據(jù)是很多大型廠商開源的數(shù)據(jù)有的可用于商業(yè)化,有的只能用于技術研究,并且數(shù)據(jù)可能存在老舊的情況。所以,網(wǎng)絡爬蟲成為企業(yè)訓練通用大模型的重要數(shù)據(jù)來源。

例如,OpenAI的GPT-3模型使用了45TB的互聯(lián)網(wǎng)文本進行訓練,包括代碼、小說、百科、新聞、博客等,而這些數(shù)據(jù)來源多數(shù)是通過網(wǎng)絡爬蟲獲取。

所以,我們有時候會看到ChatGPT會生成虛假的信息,就是因為在爬取時本身就抓取了錯誤、虛假的信息,在清洗、預訓練、微調的過程中又沒發(fā)現(xiàn),才會出現(xiàn)這樣的情況(有時也存在AI算法問題等)。

不過OpenAI已經(jīng)制定了嚴格的數(shù)據(jù)獲取、使用標準,避免這種情況發(fā)生。?????????

掃描二維碼推送至手機訪問。

版權聲明:本文由激石Pepperstone發(fā)布,如需轉載請注明出處。

本文鏈接:http://hskilr.com/news/2008.html

標簽: OpenAI
分享給朋友:

“OpenAI新產(chǎn)品GPTBot:可爬取網(wǎng)絡數(shù)據(jù),為GPT-5做準備” 的相關文章

美最高法院推翻墮胎權,大公司集體怒了

美最高法院推翻墮胎權,大公司集體怒了

激石Pepperstone(http://hskilr.com/)報道:美國總統(tǒng)拜登說,這個國家在今天直接倒退了150年。 當?shù)貢r間6月24日一大早,美國最高法院正式公布了之前早已泄露的,對于“羅訴韋德案”(Roe v. Wade)等兩項判決結果的推翻。這意味著女性的墮胎權——掌控自己身...

最高1050美元!為對抗通脹,美國加州向公眾發(fā)放補貼

最高1050美元!為對抗通脹,美國加州向公眾發(fā)放補貼

激石Pepperstone(http://hskilr.com/)報道:今年秋天,美國加州將向2300萬居民發(fā)放高達1050美元的“通貨膨脹救濟”支票,以幫助減輕40年來最高通脹給美國人帶來的經(jīng)濟負擔。 “加州的預算解決了該州最緊迫的需求,”加州州長Gavin Newsom周日在與州議員的...

A股三大指數(shù)集體轉綠 旅游酒店領跌 數(shù)字貨幣、電力股沖高

A股三大指數(shù)集體轉綠 旅游酒店領跌 數(shù)字貨幣、電力股沖高

激石Pepperstone(http://hskilr.com/)報道:7月1日,A股表現(xiàn)疲軟,滬指、深成指小幅高開后迅速走低。截至發(fā)稿,三大指數(shù)集體轉綠,滬指現(xiàn)跌0.6%,深成指跌0.5%,創(chuàng)業(yè)板指跌0.7%。 板塊方面,培育鉆石迅速拉升,Micro/MiniLed等節(jié)能照明板塊漲幅居...

如何理解“MCU砍單潮”?

激石Pepperstone(http://hskilr.com/)報道:7月1日,有媒體表示,全球前五大MCU廠產(chǎn)品價格腰斬,半導體芯片砍單降價風暴擴大,相對此前價格堅挺,供不應求的MCU,出現(xiàn)價格快速下滑。MCU成為繼驅動IC,電源管理IC,CIS傳感器又一個跌價砍單的品種。 筆者總結有...

A股沖高回落!鋰電股上沖 電力、稀土震蕩走強 食品飲料、豬肉股疲軟

A股沖高回落!鋰電股上沖 電力、稀土震蕩走強 食品飲料、豬肉股疲軟

激石Pepperstone(http://hskilr.com/)報道:7月5日周二,三大指數(shù)高開后沖高回落。其中創(chuàng)業(yè)板指一度漲逾1%,隨后下行翻綠。 截至發(fā)稿,滬指漲0.10%,深成指跌0.45%,創(chuàng)業(yè)板指跌0.55%。 盤面上,鋰電板塊活躍,電力、稀土震蕩走強,煤炭板塊走高,旅游酒店...

看似無敵!日本央媽的“軟肋”:進口能源

激石Pepperstone(http://hskilr.com/)報道:面對全球主要同行的緊縮大勢,日本央媽勢將寬松進行到底,堅定“逆行”毫不畏懼。然而當面對進口能源價格飆升時,日本央媽難免有些“英雄氣短”。 日本90%左右的能源均依賴進口,大部分以美元計價,隨著今年全球石油、天然氣和煤炭...