當(dāng)前位置:首頁(yè) > 外匯資訊 > 正文內(nèi)容

讓GPT-4幫人類(lèi)訓(xùn)練GPT-4!OpenAI推出新模型CriticGPT

激石外匯2024-06-28 12:02:18外匯資訊248

激石Pepperstone(http://hysxdzy.com/)報(bào)道:

以ChatGPT掀起這輪AI應(yīng)用熱潮的OpenAI正在用行動(dòng)證明,在基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)領(lǐng)域,它也是先行者。

美東時(shí)間6月27日周四,OpenAI公布,其研究人員訓(xùn)練了一個(gè)基于 GPT-4 的模型,它被稱(chēng)為 CriticGPT,用于捕捉ChatGPT 代碼輸出中的錯(cuò)誤。簡(jiǎn)單來(lái)說(shuō)就是,CriticGPT讓人能用 GPT-4 查找 GPT-4 的錯(cuò)誤。它可以寫(xiě)出使用者對(duì)ChatGPT響應(yīng)結(jié)果的批評(píng)評(píng)論,從而幫助人類(lèi)訓(xùn)練者在RLHF期間發(fā)現(xiàn)錯(cuò)誤。

OpenAI發(fā)現(xiàn),如果通過(guò)CriticGPT獲得幫助審查 ChatGPT編寫(xiě)的代碼,人類(lèi)訓(xùn)練師的審查效果比沒(méi)有獲得幫助的人強(qiáng)60%。OpenAI稱(chēng),正著手將類(lèi)似 CriticGPT 的模型集成到旗下 RLHF 標(biāo)記管道中,為自己的訓(xùn)練師提供明確的AI幫助。

OpenAI稱(chēng),因?yàn)闆](méi)有更好的工具,所以人們目前難以評(píng)估高級(jí)的AI系統(tǒng)的表現(xiàn)。而CriticGPT意味著,OpenAI向能夠評(píng)估高級(jí)AI系統(tǒng)輸出的目標(biāo)邁進(jìn)了一步。,

OpenAI舉了一個(gè)例子,如下圖所示,對(duì)ChatGPT提出一個(gè)用 Python 編寫(xiě)指定函數(shù)的任務(wù),對(duì)于ChatGPT根據(jù)要求提供的代碼,CriticGPT點(diǎn)評(píng)了其中一條指令,提議換成效果更好的。

OpenAI稱(chēng),CriticGPT 的建議并不是全都正確無(wú)誤,但OpenAI的人員發(fā)現(xiàn),相比沒(méi)有這種AI的幫助,有了它,訓(xùn)練師可以發(fā)現(xiàn)更多模型編寫(xiě)答案的問(wèn)題。

此外,當(dāng)人們使用CriticGPT 時(shí),這種AI模型會(huì)增強(qiáng)他們的技能,從而得出的批評(píng)結(jié)論比單單人類(lèi)訓(xùn)練師做的更全面,并且比AI模型單獨(dú)工作時(shí)產(chǎn)生的幻覺(jué)錯(cuò)誤更少。

在OpenAI的實(shí)驗(yàn)中,在60%以上的時(shí)間里,隨機(jī)選擇的訓(xùn)練師都更喜歡來(lái)自人類(lèi)與CriticGPT 合作的批評(píng)結(jié)論,而不是來(lái)自沒(méi)有CriticGPT協(xié)助的人類(lèi)訓(xùn)練師批評(píng)。

OpenAI同時(shí)提到了目前開(kāi)發(fā)CriticGPT的四點(diǎn)局限。其中之一是,OpenAI用 ChatGPT 的簡(jiǎn)短答案訓(xùn)練CriticGPT,因此未來(lái)需要發(fā)掘能幫助訓(xùn)練師理解冗長(zhǎng)且復(fù)雜任務(wù)的方法。

第二點(diǎn)是,模型仍然會(huì)產(chǎn)生幻覺(jué),有時(shí)訓(xùn)練師在看到這些幻覺(jué)后會(huì)犯下標(biāo)記錯(cuò)誤。第三點(diǎn)是,有時(shí)現(xiàn)實(shí)世界中的錯(cuò)誤可能分散在答案的許多部分之中,OpenAI目前的工作重點(diǎn)是讓模型指出一處的錯(cuò)誤,未來(lái)還需要解決分散在不同位置的錯(cuò)誤。

第四點(diǎn),OpenAI指出,CriticGPT 只能提供有限的幫助:如果ChatGPT面對(duì)的任務(wù)或響應(yīng)極其復(fù)雜,即使是有模型幫助的專(zhuān)家也可能無(wú)法正確評(píng)估。

最后,OpenAI表示,為了協(xié)調(diào)日益復(fù)雜的 AI 系統(tǒng),人們需要更好的工具。在對(duì) CriticGPT 的研究中,OpenAI發(fā)現(xiàn),將 RLHF 應(yīng)用于 GPT-4 有望幫助人類(lèi)為 GPT-4 生成更好的 RLHF 數(shù)據(jù)。OpenAI計(jì)劃,進(jìn)一步擴(kuò)大這項(xiàng)工作,并將其付諸實(shí)踐。

OpenAI在原名推特的社交媒體X上公布了新模型CriticGPT后,一條點(diǎn)贊超1萬(wàn)的網(wǎng)友評(píng)論稱(chēng),自我改進(jìn)已經(jīng)開(kāi)始了。

另一條點(diǎn)贊上萬(wàn)的熱截取了OpenAI的相關(guān)研究文章結(jié)論,其中提到,在智能方面,大語(yǔ)言模型(LLM)和LLM的批評(píng)都只會(huì)繼續(xù)改進(jìn),而人類(lèi)的智能不會(huì),這條評(píng)論感嘆,真是悲觀。

還有網(wǎng)友引用了漫威超級(jí)英雄電影《復(fù)仇者聯(lián)盟》中滅霸的一句臺(tái)詞,點(diǎn)評(píng)OpenAI所說(shuō)的用GPT-4找GPT-4的錯(cuò)誤:“我用寶石摧毀了寶石?!??

掃描二維碼推送至手機(jī)訪(fǎng)問(wèn)。

版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接:http://hysxdzy.com/news/3243.html

標(biāo)簽: GPT-4OpenAICriticGPT

“讓GPT-4幫人類(lèi)訓(xùn)練GPT-4!OpenAI推出新模型CriticGPT” 的相關(guān)文章

華爾街集體看多中國(guó)!高盛、摩根大通之后,花旗將中國(guó)股票升為超配

激石Pepperstone(http://hysxdzy.com/)報(bào)道:在歐美衰退陰云集聚下,華爾街大行紛紛將目光投向中國(guó),花旗成為最新一家看好中國(guó)的機(jī)構(gòu)。 近日,花旗銀行策略師Robert Buckland等在報(bào)告中稱(chēng),將中國(guó)股票升為超配,因?yàn)槟壳肮乐迪鄬?duì)有吸引力,并且在全球貨幣政策收緊...

電動(dòng)車(chē)突破千萬(wàn)輛大關(guān),保有量占比將成為下個(gè)首要目標(biāo)

電動(dòng)車(chē)突破千萬(wàn)輛大關(guān),保有量占比將成為下個(gè)首要目標(biāo)

激石Pepperstone(http://hysxdzy.com/)報(bào)道:我國(guó)新能源汽車(chē)的發(fā)展隨著6月電動(dòng)車(chē)銷(xiāo)量的爆發(fā)順利進(jìn)入了新的階段,根據(jù)7月6日公安部的最新統(tǒng)計(jì)數(shù)據(jù),截至2022年6月底,我國(guó)全國(guó)新能源汽車(chē)保有量達(dá)到1001萬(wàn)輛,其中,今年上半年我國(guó)新注冊(cè)登記的新能源汽車(chē)就高達(dá)220....

伊朗大動(dòng)作!原油市場(chǎng)迎來(lái)關(guān)鍵時(shí)刻!拜登即將出訪(fǎng)中東,要施壓沙特增產(chǎn)?

伊朗大動(dòng)作!原油市場(chǎng)迎來(lái)關(guān)鍵時(shí)刻!拜登即將出訪(fǎng)中東,要施壓沙特增產(chǎn)?

激石Pepperstone(http://hysxdzy.com/)報(bào)道:本周,美國(guó)總統(tǒng)拜登將開(kāi)啟中東之行。按此前計(jì)劃,拜登將于7月13日至16日訪(fǎng)問(wèn)以色列、約旦河西岸和沙特阿拉伯。 分析人士認(rèn)為,拜登此次中東之行有三重考量。首先,要爭(zhēng)取說(shuō)服海灣產(chǎn)油國(guó)增產(chǎn)石油,以緩解因?yàn)橹撇枚砹_斯引發(fā)的能...

恒生科技指數(shù)跌超1% 汽車(chē)股繼續(xù)回調(diào) 比亞迪股份大跌超8%

恒生科技指數(shù)跌超1% 汽車(chē)股繼續(xù)回調(diào) 比亞迪股份大跌超8%

激石Pepperstone(http://hysxdzy.com/)報(bào)道:7月12日周二,港股小幅低開(kāi),恒指開(kāi)跌1.04%;恒生科技指數(shù)開(kāi)跌1.66%,目前較6月高點(diǎn)下跌超10%。 盤(pán)面上,科技股和教育股開(kāi)盤(pán)下跌,阿里巴巴跌5%,新東方在線(xiàn)跌近5%。 汽車(chē)股走低,比亞迪股跌超8%,小...

一夜間變天!英國(guó)首相繼任者面臨1950年代以來(lái)前所未見(jiàn)的挑戰(zhàn)

激石Pepperstone(http://hysxdzy.com/)報(bào)道:上周四,眾叛親離的英國(guó)首相約翰遜在唐寧街10號(hào)首相官邸正式宣布辭去保守黨領(lǐng)袖一職,但他無(wú)視眾人呼吁他立即讓位的請(qǐng)求仍然表示,在選定繼任者之前,他將留在唐寧街。 雖然約翰遜的時(shí)代即將落幕,但誰(shuí)人能接過(guò)相位并不明朗。與前任...

港股反彈!游戲股領(lǐng)漲 地產(chǎn)股繼續(xù)下挫 比亞迪股份高開(kāi)后跳水 一度跌超3%

港股反彈!游戲股領(lǐng)漲 地產(chǎn)股繼續(xù)下挫 比亞迪股份高開(kāi)后跳水 一度跌超3%

激石Pepperstone(http://hysxdzy.com/)報(bào)道:7月13日周三,港股在連續(xù)兩個(gè)交易日收跌之后,今日終于迎來(lái)了反彈。恒指小幅開(kāi)漲0.32%,恒生科技指數(shù)開(kāi)盤(pán)漲0.75%。 盤(pán)面上,游戲股普漲,青瓷游戲漲超6%,百奧家庭互動(dòng)漲近3%,嗶哩嗶哩漲超2%,金山軟件、心動(dòng)...