當(dāng)前位置：首頁 > 外匯資訊 > 正文內(nèi)容

ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元

激石外匯2023-12-29 11:59:24外匯資訊312

激石Pepperstone(http://hysxdzy.com/)報(bào)道：

今天，OpenAI和微軟正式被《紐約時(shí)報(bào)》起訴！索賠金額，達(dá)到了數(shù)十億美元。

指控內(nèi)容是，OpenAI和微軟未經(jīng)許可，就使用紐約時(shí)報(bào)的數(shù)百萬篇文章來訓(xùn)練GPT模型，創(chuàng)建包括ChatGPT和Copilot之類的AI產(chǎn)品。

并且，要求銷毀「所有包含紐約時(shí)報(bào)作品的GPT或其他大語言模型和訓(xùn)練集」。

醞釀了幾個(gè)月，該來的終于來了。

此案涉及到的，是AI技術(shù)和版權(quán)法之間的復(fù)雜關(guān)系。大模型爆火之后，業(yè)界一直未能有明確的立法，對(duì)于AI侵犯版權(quán)給出界定。

紐約時(shí)報(bào)打響的這一炮，可以說是迄今為止規(guī)模最大、最具有代表性和轟動(dòng)性的案例。在整個(gè)生成式AI歷史上，這必定是一件具有重大意義的事件，標(biāo)志著人工智能和版權(quán)的分水嶺。

起訴文件中，《紐約時(shí)報(bào)》的關(guān)鍵爭(zhēng)議之一是ChatGPT訓(xùn)練權(quán)重最大的數(shù)據(jù)集——公共爬蟲網(wǎng)站Common Crawl。其中2019年數(shù)據(jù)快照中，NYT的內(nèi)容占比1億個(gè)token。

紐約時(shí)報(bào)甩出的證據(jù)，讓OpenAI啞口無言。

左邊是GPT-4輸出的句子，右邊是紐約時(shí)報(bào)的原文，紅色是重疊的部分。這種程度的逐字抄襲，簡(jiǎn)直是讓人倒吸一口涼氣。

OpenAI這一關(guān)，怕是難過了。

GPT-4被曝照搬原文

起訴書明確提出OpenAI侵犯版權(quán)的指控，并強(qiáng)調(diào)了《紐約時(shí)報(bào)》的文章和ChatGPT輸出內(nèi)容之間高度相似性。

「被告試圖搭紐約時(shí)報(bào)對(duì)新聞業(yè)巨額投資的便車，無償使用紐約時(shí)報(bào)的內(nèi)容來創(chuàng)造它的替代品，并從中竊取讀者?！?/p>

文件中，NYT提供了許多關(guān)鍵事實(shí)。比如，NYT是Common Crawl中用于訓(xùn)練GPT的最大的專有數(shù)據(jù)集。

從下表中，可以看出有1750億參數(shù)的GPT-3訓(xùn)練數(shù)據(jù)中，大部分的數(shù)據(jù)集都來自Common Crawl，所占權(quán)重高達(dá)60%。

下圖中，是由501非營(yíng)利組織Common Crawl提供的「網(wǎng)絡(luò)副本」。

在Common Crawl 2019年快照的過濾英語子集中，域名www.nytimes.com是代表度最高的專有來源（總體排名第三，僅次于維基百科和美國(guó)專利文件數(shù)據(jù)庫），占1億個(gè)token。

具體來說，Common Crawl數(shù)據(jù)集包括至少1600萬條來自《紐約時(shí)報(bào)》旗下的新聞網(wǎng)站（News）、烹飪程序Cooking、評(píng)論網(wǎng)站W(wǎng)irecutter，體育新聞網(wǎng)站（The Athletic），以及超過6600萬條來自NYT的內(nèi)容記錄。

OpenAl自己也承認(rèn)，與其他低質(zhì)量來源的內(nèi)容相比，NYT在內(nèi)的高質(zhì)量?jī)?nèi)容對(duì)GPT模型的訓(xùn)練更為重要，更有價(jià)值。

NYT指出，GPT-4吐出與紐約時(shí)報(bào)文章內(nèi)容大部分一致案例，足以證明OpenAI濫用自己的數(shù)據(jù)。

比如，前面提到的如下這個(gè)案例，是《紐約時(shí)報(bào)》在2019年發(fā)表了一系列五篇關(guān)于約市出租車行業(yè)的掠奪性借貸的文章，并獲得了普利策獎(jiǎng)。

這項(xiàng)為期18個(gè)月的調(diào)查，包括600次采訪、100多次信息公開申請(qǐng)，大規(guī)模數(shù)據(jù)分析以及數(shù)千頁的內(nèi)部銀行記錄，以及其他文件審查。

而OpenAI在這些內(nèi)容的創(chuàng)作中沒有參與，只是用很少的提示，就直接輸出大部分內(nèi)容。

還有如下這篇報(bào)道，是NYT在2012年聯(lián)系了數(shù)百位現(xiàn)任和前任蘋果公司高管，最終從60多位蘋果公司內(nèi)部人士，獲得了蘋果和其他科技公司的外包如何改變了全球經(jīng)濟(jì)的信息。

同樣，GPT-4復(fù)制了這些內(nèi)容，并能逐字背誦其中的大部分內(nèi)容。

看得出，ChatGPT回答時(shí)，會(huì)給出GPT模型所記憶的《紐約時(shí)報(bào)》作品的副本或衍生作品。

對(duì)此，NYT推測(cè)，GPT模型在訓(xùn)練過程中一定使用了自家的許多作品，才使其生成如此一致的內(nèi)容。

下面這個(gè)例子中，ChatGPT就引用了2012年普利策獎(jiǎng)獲獎(jiǎng)作品《紐約時(shí)報(bào)》的部分文章「Snow Fall：The Avalanche at Tunnel Creek」一文的部分內(nèi)容。

微軟必應(yīng)和ChatGPT在合成搜索時(shí)，也會(huì)吐露出相似的數(shù)據(jù)。

Bing幾乎復(fù)制了紐約時(shí)報(bào)旗下網(wǎng)站W(wǎng)irecutter的結(jié)果，但并沒有鏈接到Wirecutter的鏈接。投訴稱，這就會(huì)導(dǎo)致Wirecutter的流量減少，收入銳減。

沃頓商學(xué)院教授Ethan Mollick表示，在這起訴訟中，我們可以看到訓(xùn)練數(shù)據(jù)和輸出的關(guān)系是多么復(fù)雜。

一方面，你可以誘導(dǎo)ChatGPT直接吐出紐約時(shí)報(bào)的原文。

另一方面，ChatGPT也會(huì)產(chǎn)生幻覺，它會(huì)捏造說紐約時(shí)報(bào)在2020年1月發(fā)表了一篇《研究發(fā)現(xiàn)橙汁與非霍奇金淋巴瘤之間可能存在聯(lián)系》的文章，實(shí)際上，這篇文章壓根就不存在。

紐約時(shí)報(bào)：我報(bào)道我自己

就在今天，紐約時(shí)報(bào)自己也寫了一篇文章報(bào)道此事，題為《紐約時(shí)報(bào)起訴OpenAI和微軟使用受版權(quán)保護(hù)的作品》。

紐約時(shí)報(bào)記者表示，自家媒體「在未經(jīng)授權(quán)使用已發(fā)表作品訓(xùn)練AI技術(shù)日益激烈的法律斗爭(zhēng)中，開辟了一條新戰(zhàn)線」。

的確，紐約時(shí)報(bào)是第一家就版權(quán)問題起訴ChatGPT平臺(tái)的美國(guó)主流媒體機(jī)構(gòu)。

同時(shí)，它還呼吁這些公司銷毀所有使用紐約時(shí)報(bào)版權(quán)材料的聊天機(jī)器人模型和訓(xùn)練數(shù)據(jù)。

早在今年4月，紐約時(shí)報(bào)就曾與微軟和OpenAI進(jìn)行接觸，表達(dá)了對(duì)其知識(shí)產(chǎn)權(quán)使用的擔(dān)憂，并且探索友好的解決方案，以建立商業(yè)協(xié)議和技術(shù)護(hù)欄。但談判并未達(dá)成任何解決方案。

起訴書中也指出，知識(shí)版權(quán)問題可能也是引發(fā)OpenAI宮斗的導(dǎo)火索，因?yàn)榍岸聲?huì)成員Helen Toner曾經(jīng)在一篇論文中提過這個(gè)問題，隨后Altman與她就此發(fā)生了爭(zhēng)執(zhí)。

OpenAI發(fā)言人表示，公司一直在推進(jìn)與紐約時(shí)報(bào)的洽談，對(duì)于這起訴訟感到驚訝和失望。

我們尊重內(nèi)容創(chuàng)作者和所有者的權(quán)利，并致力于與他們合作，確保他們從人工智能技術(shù)和新的收入模式中受益。我們希望能找到一種互惠互利的合作方式，就像我們與許多其他出版商所達(dá)成的合作。

網(wǎng)友熱議

這個(gè)案件之所以極富爭(zhēng)議性，是因?yàn)樵S多生成式AI公司訓(xùn)練模型時(shí)，對(duì)于受版權(quán)保護(hù)內(nèi)容的使用程度，這是個(gè)模糊的灰色地帶。

有人說，分歧的矛盾點(diǎn)就在于，訓(xùn)練并不是復(fù)制，而是學(xué)習(xí)。進(jìn)行統(tǒng)計(jì)研究，并不會(huì)侵犯版權(quán)，比如通過檢查一百萬張圖像，來計(jì)算互聯(lián)網(wǎng)上包含小貓圖像的百分比。

有人反駁說，復(fù)制就是訓(xùn)練過程的一部分，訓(xùn)練顯然涉及了復(fù)制。

在美國(guó)，受版權(quán)保護(hù)內(nèi)容是否被合理使用，由許多因素決定。統(tǒng)計(jì)研究就是合理的使用，但生成式AI就并不是。

所以，究竟該在哪一步界定為侵權(quán)呢？

在神經(jīng)網(wǎng)絡(luò)中創(chuàng)建權(quán)重有問題嗎？還是問題在于使用神經(jīng)網(wǎng)絡(luò)生成新內(nèi)容？如果自己在家做，不售賣結(jié)果，就不算侵權(quán)？

這位網(wǎng)友總結(jié)道，許多人認(rèn)為，AI公司不應(yīng)該像Photoshop這樣的工具那樣，對(duì)用戶的版權(quán)侵權(quán)承擔(dān)責(zé)任，這是完全錯(cuò)誤的。

有一些AI公司的確獲得了創(chuàng)作者的同意，但大多數(shù)公司并沒有。

有人甚至表示，《紐約時(shí)報(bào)》對(duì)OpenAI的訴訟完全誤解了LLM的工作原理，如果法官弄錯(cuò)了這一點(diǎn)，將對(duì)人工智能造成巨大損害。

基本要點(diǎn)：大模型不會(huì)「存儲(chǔ)」基礎(chǔ)訓(xùn)練文本。這在技術(shù)上是不可能的，因?yàn)镚PT-3.5或GPT-4的參數(shù)大小不足以對(duì)訓(xùn)練集進(jìn)行無損編碼。

簡(jiǎn)單講，大模型的工作原理便是，從整個(gè)互聯(lián)網(wǎng)獲取大量的文本訓(xùn)練數(shù)據(jù)，然后訓(xùn)練注意力模型，來預(yù)測(cè)給定用戶文本后面的下一個(gè)token。

也就是說，如果你說「太陽」，下一個(gè)詞可能是「是」、「升起」、「發(fā)出」。如果是提示「海明威的《太陽》」，很可能下一個(gè)詞是「也」。

注意力模型的權(quán)重大致就是這種概率分布。?使用 LLM/Transformer的最大訣竅在于，了解先前文本的哪些部分對(duì)「準(zhǔn)確」預(yù)測(cè)下一個(gè)token最有用。任何文本都不是從互聯(lián)網(wǎng)上「記憶」下來的。

也就是說，如果模型的參數(shù)遠(yuǎn)遠(yuǎn)超過訓(xùn)練數(shù)據(jù)量（比GPT4大得多），并且用戶提供了獨(dú)特的前文，該文本和后續(xù)文本多次與訓(xùn)練數(shù)據(jù)中的某些內(nèi)容完全匹配，那么模型就可以重復(fù)生成訓(xùn)練數(shù)據(jù)中的內(nèi)容，即后續(xù)內(nèi)容的概率趨近于1！

也就是說，超大模型確實(shí)可以復(fù)述訓(xùn)練文本，但這需要參數(shù)遠(yuǎn)超訓(xùn)練數(shù)據(jù)并給出相關(guān)文本。然而目前GPT水平還達(dá)不到這個(gè)狀態(tài)。

再回到NYT在訴訟文件中的例子。

這里，GPT幾乎完美地吐出了2012年一篇「Snow Fall」文章的開頭段落。但這篇文章在互聯(lián)網(wǎng)上到處都是，超級(jí)著名的文章！這就是為什么GPT對(duì)前一段文章的后驗(yàn)預(yù)測(cè)如此之好。

而對(duì)于那些不太著名的文章，NYT指責(zé)ChatGPT傳播誤導(dǎo)的事實(shí)。

主要是因?yàn)椋绻o定的先前句子集在訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次，則預(yù)測(cè)的后驗(yàn)文本將不會(huì)與訓(xùn)練數(shù)據(jù)匹配。它會(huì)「幻覺」出類似合理的文本。

幻覺之所以會(huì)發(fā)生，是因?yàn)榇竽Ｐ透静涣私馐聦?shí)，而只知道下一個(gè)詞的分布。

這是一件大事，因?yàn)樗赡転閮蓚€(gè)方面建立先例：1. 法院怎樣確定新聞內(nèi)容在訓(xùn)練大語言模型時(shí)的價(jià)值；2. 對(duì)于之前的使用情況，應(yīng)當(dāng)支付多少賠償。

Midjourney吐出「原圖」？

不僅僅是OpenAI、微軟，就連最強(qiáng)的AI作圖神器Midjourney也將在未來面臨一大波的起訴。

Midjourney V6升級(jí)后驚艷了全網(wǎng)，但同時(shí)有人發(fā)現(xiàn)，其輸出的圖片完全和好萊塢等電影劇照毫無差別。

曾為漫威工作的插畫家兼電影概念藝術(shù)家Reid Southen表示，只需要15分鐘，就能找到Midjourney侵犯版權(quán)和剽竊的證據(jù)。

如下的圖片中，可以看出生成的圖像與電影原作非常接近，僅在鏡頭角度或姿勢(shì)等方面存在細(xì)微差別。

他還制作了一段視頻，展示了自己使用Midjourney V6進(jìn)行的剽竊實(shí)驗(yàn)。

因?yàn)樗l(fā)表的評(píng)論，Southen已經(jīng)被踢出了Midjourney Discord小組。

據(jù)Southen表示，AI軟件可以完全復(fù)制受版權(quán)保護(hù)的知識(shí)產(chǎn)權(quán)，并且可以創(chuàng)作無限的衍生品。

藝術(shù)家將在同一市場(chǎng)上與自己的作品競(jìng)爭(zhēng)。當(dāng)網(wǎng)上50%的漫威作品最終都是人工智能的山寨品時(shí)，品牌形象問題和消費(fèi)者的困惑又將如何解決？

《蒙娜麗莎》這樣的經(jīng)典藝術(shù)品，只提供兩個(gè)字的提示，就能完全復(fù)刻原圖。

而且在這種情況下，這種行為并不會(huì)在法律上被判為“剽竊”，因?yàn)椤睹赡塞惿返哪甏眠h(yuǎn)，已經(jīng)屬于公有版權(quán)。

2019年由托德·菲利普斯執(zhí)導(dǎo)的電影「小丑」中的畫面，也被Midjourney V6「拿來即用」。

這兩張圖如此相似，不得不讓人懷疑，這似乎就是在訓(xùn)練數(shù)據(jù)中微調(diào)之后的版本。

而它們的不同之處，在于燈光和色彩。

矩陣中的基努，也和原片幾乎一毛一樣。

Midjourney V6甚至可以復(fù)制任何動(dòng)畫風(fēng)格。

小黃人、瑞克和莫迪、巴斯光年等等，完全逼真全現(xiàn)。

為了最大限度地提高性能，新模型可能會(huì)在相同的數(shù)據(jù)上反復(fù)強(qiáng)化訓(xùn)練，導(dǎo)致輸出結(jié)果與訓(xùn)練數(shù)據(jù)幾乎完全相同。

這就是所謂的「過擬合」，此前研究表明這種情況可能會(huì)發(fā)生。ChatGPT也會(huì)出現(xiàn)文本過擬合的跡象。

全新的V6模型很可能是一枚重磅炸彈。目前，Midjourney已經(jīng)卷入了至少一起訴訟。

以后網(wǎng)上這些畫面究竟是原動(dòng)畫還是AI生成，恐怕沒人能分得清了。?????????

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明：本文由激石Pepperstone發(fā)布，如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接：http://hysxdzy.com/news/2445.html

標(biāo)簽: ChatGPT

分享給朋友：

返回列表

上一篇：爆拉超300點(diǎn)！離岸人民幣升破7.1關(guān)口

下一篇：2024年易主“頭炮”打響中國(guó)稀土集團(tuán)入主廣晟有色

“ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元” 的相關(guān)文章

ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元

“ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元” 的相關(guān)文章

歐美股市“回暖”：歐股漲幅擴(kuò)大，納指期貨漲1.6%

港股繼續(xù)反彈科技股強(qiáng)勢(shì)拉升阿里巴巴漲超3%

疫苗行業(yè)進(jìn)入地獄模式

半年收官，十大牛股出爐，“榜一”27個(gè)漲停板！多數(shù)板塊調(diào)整，唯獨(dú)它逆勢(shì)大漲！

地產(chǎn)會(huì)不會(huì)成為宏觀交易的預(yù)期差？

如何理解“MCU砍單潮”？

Copyright ? 2017-2022 激石Pepperstone

ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元

“ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元” 的相關(guān)文章

歐美股市“回暖”：歐股漲幅擴(kuò)大，納指期貨漲1.6%

港股繼續(xù)反彈 科技股強(qiáng)勢(shì)拉升 阿里巴巴漲超3%

疫苗行業(yè)進(jìn)入地獄模式

半年收官，十大牛股出爐，“榜一”27個(gè)漲停板！多數(shù)板塊調(diào)整，唯獨(dú)它逆勢(shì)大漲！

地產(chǎn)會(huì)不會(huì)成為宏觀交易的預(yù)期差？

如何理解“MCU砍單潮”？

Copyright ? 2017-2022 激石Pepperstone

ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元

“ChatGPT面臨銷毀？GPT-4被曝逐字照抄原文，OpenAI或?qū)①r償數(shù)十億美元” 的相關(guān)文章

港股繼續(xù)反彈科技股強(qiáng)勢(shì)拉升阿里巴巴漲超3%

半年收官，十大牛股出爐，“榜一”27個(gè)漲停板！多數(shù)板塊調(diào)整，唯獨(dú)它逆勢(shì)大漲！

地產(chǎn)會(huì)不會(huì)成為宏觀交易的預(yù)期差？