探索生成式人工智慧的版權清算問題

法院正在探討並決定生成式人工智慧是否侵犯版權。本文中,讓我們來談談這到底意味著什麼。

美國的版權法是一件複雜的事。我們這些不是律師的人很難弄清楚它的真正意義,以及它能保護什麼和不能保護什麼,這是可以理解的。資料科學家不會花很多時間考慮版權問題,除非我們為開源專案選擇許可證。即便如此,有時我們只是跳過這一點,並沒有真正處理它,儘管我們知道我們應該這樣做。

但法律界開始密切關註生成式人工智慧領域對於版權的影響,這可能會對我們的工作產生真正的影響。在我們具體討論版權如何影響生成式人工智慧領域之前,讓我們先來回顧一下版權相關的事實問題。

版權

  • 美國版權法與所謂的「原創作品」有關。這些作品包括這樣一些相關內容:文學;音樂的戲劇性的默劇和舞蹈作品;繪畫、圖形和雕塑作品;音像作品;錄音;衍生作品;編輯;建築工程。
  • 內容必須是書面的或文件化的,才能具有版權。 「想法是不可版權保護的,只有有形的表達形式(如書籍、戲劇、繪畫、電影或照片等)才可實行版權保護。一旦你以固定的形式表達你的想法——例如數位繪畫、錄製的歌曲,甚至在餐巾紙上塗鴉——如果它是原創作品,它就會自動受到版權保護。
  • 受到保護意味著,只有版權持有人(作者或創作者、繼承權利的後代或權利的購買者)才能做這些事情,例如製作和銷售作品的副本,從原作中創作衍生作品,以及公開表演或展示作品等。
  • 版權並不是永恆的,它會在一定時間後結束。通常,這是作者去世後70年或內容發布後95年。 (1929年之前的任何東西在美國通常都屬於“公共領域”,這意味著它不再受版權保護。)

為什麼存在版權呢?最新的法律解釋認為,重點不僅是讓創作者致富,而是鼓勵創作,讓我們擁有一個包含藝術和文化創造力的社會。基本上,我們與創作者交換金錢,這樣他們就有動力為我們創造偉大的作品。這意味著,許多法院在審理版權案件時會問,「這種複製品是否有助於一個創造性的、藝術性的和富有創新的社會?」在做出判決時也會考慮到這一點。

合理使用

此外,「合理使用」並不是無視版權的免費通行證。有四項測驗可以決定內容的使用是否為「合理使用」:

  • 第二次使用的目的和特徵:你是在做一些創新和不同的內容,還是只複製原作?你的新作本身有創新性嗎?如果是這樣,它更有可能是合理使用。此外,如果你的用途是為了賺錢,那就不太可能是合理使用。
  • 原創的本質:如果原創是有創意的,那麼很難在合理使用的情況下侵犯版權。如果只是事實,那麼你更有可能合理使用(這方面的例子包括:引用研究文章或百科全書等)。
  • 使用量:你在複製整個內容嗎?或只是複製一段或一小段?盡可能少使用對於合理使用來說是很重要的,儘管有時你可能需要在衍生作品中大量使用。
  • 效果:你是在從原作中竊取客戶資訊嗎?人們會購買或使用你的副本而不是購買原件嗎?創作者會因為你的複製而賠錢或失去市場佔有率嗎?如果是這樣的話,這很可能就是不合理的使用。 (即使你沒有賺到錢,也是不合理的使用。)

你必須滿足所有上述這些測試才能公平使用,而不僅僅是一兩項測試。當然,所有這些都要接受法律解釋。 (顯然,這篇文章不是法律建議相關的!)但現在,有了這些事實,讓我們想想生成式人工智慧的作用,以及為什麼上面的概念會衝擊生成式人工智慧。

生成式人工智慧綜述

對我寫的專欄非常熟悉的讀者會非常清楚地了解生成式人工智慧是如何訓練的。儘管如此,還是先讓我們來快速回顧一下有關內容。

  • 大量的數據被收集起來,模型透過分析數據中存在的模式來學習。 (正如我之前所寫的:「一些報告表明,GPT-4的訓練資料中有大約1萬億個單字。這些單字中的每一個都是一個人出於自己的創作能力而寫的。就上下文而言,《權力的遊戲》系列的第1本書約為292727個單字。
  • 當模型學習了資料中的模式時(對於LLM,它學習了所有關於語言語義、語法、詞彙和習慣用語的知識),它將被人類微調,以便在人們與它互動時表現出所需的行為。資料中的這些模式可能非常具體,以至於一些學者認為模型可以「記住」訓練資料。
  • 然後,模型就能夠回答使用者的提示,反映出它所學習的模式(對於LLM,用聽起來很有說服力的人類語言回答問題)。

這些模型的輸入(訓練資料)和輸出對版權法都有重要影響;所以,接下來讓我們作進一步的分析。

訓練資料和模型輸出

訓練資料對於創建生成性人工智慧模型至關重要。其目的是教導一個模型複製人類的創造力,因此模型需要看到大量人類創造力的作品,才能了解其外觀/聲音。但是,正如我們之前所了解的,人類創作的作品屬於創作作品的這些人(即使它們被記在餐巾紙上)。對於我們訓練哪怕是一個小的生成式人工智慧模型所需的資料量,向每位創作者支付他們作品的版權從財務角度上看都是不可行的。那麼,我們將他人的工作輸入訓練資料集並創建生成式人工智慧模型是否合理呢?現在,不妨讓我們再複習一下公平使用的測試,來看看我們在哪裡能找到立足點。

1.第二次使用的目的和特點

我們可以爭辯說,使用數據來訓練模型並不能真正算作創造衍生作品。例如,這與教孩子用書或音樂不同嗎?相反的論點是,首先,教導一個孩子並不等同於使用數百萬本書來產生一個產品牟利;其次,生成性人工智慧能夠敏銳地複製它所訓練的內容,因此它基本上是一個幾乎逐字逐句複製作品的大工具。生成式人工智慧的結果有時是創新的,與輸入完全不同嗎?如果是的話,那可能是因為非常有創意的提示工程,但這是否意味著底層工具是合法的呢?

然而,從哲學上講,機器學習正試圖盡可能準確地再現它從訓練資料中學習到的模式。它從原作中學習到的模式是否與原作的「核心」相同呢?

2.原作的性質

這一方面在現有的不同類型的生成式人工智慧中差異很大,但由於訓練任何模型都需要大量的數據,因此似乎至少有一部分符合創造力的法律標準。在許多情況下,使用人工內容作為訓練資料的全部原因是試圖將創新(高度多樣化)的輸入輸入到模型中。除非有人要仔細閱讀GPT-4的全部1萬億個單詞,並決定哪些單詞有創意或沒有創意;否則,我認為這一標準不屬於合理使用。

3.使用金額

這是一個類似#2的問題。因為,幾乎從定義上講,生成式人工智慧訓練資料集使用了他們所能掌握的一切,而且數量需要龐大而全面;實際上並不存在「最低限度的必需的」內容數量。

4.效果

最後,效果問題是生成式人工智慧的一大癥結。我想,我們都知道有人會不時使用ChatGPT或類似工具,而不是在百科全書或報紙上搜尋問題的答案。有強有力的證據表明,儘管這些服務機構做出了一些明顯的努力來阻止這種情況,但人們使用Dall-E等服務來請求「以[此處藝術家姓名]的風格」的視覺作品。如果問題是人們是否會使用生成式人工智慧,而不是支付原始創作者的費用,那麼在某些領域似乎肯定會發生這種情況。我們可以看到,像微軟、Google、Meta和OpenAI這樣的公司正在從生成式人工智慧中獲得數十億的估值和收入,所以他們肯定不會輕易通過這一點。

複製作為計算中的一個概念

我想稍停一下來談談一個有一定相關性但是很重要的問題。版權法並不能很好地處理一般的計算,特別是軟體和數位製品。版權法主要是在早期世界制定的,在那個時代複製黑膠唱片或重新出版一本書是一項專業且昂貴的任務。但今天,當任何電腦上的任何東西基本上只需點擊滑鼠就可以在幾秒鐘內複製時,複製東西的整個想法與過去不同了。

此外,請記住,安裝任何軟體都算作複製。數位拷貝在我們的文化中意味著與電腦之前的拷貝不同。關於版權在數位時代應該如何運作,人們有很多疑問,因為其中許多似乎不再那麼重要。你有沒有從GitHub或StackOverflow複製過一些程式碼?我當然有!您是否仔細審查了內容許可證,以確保其可用於您的場景中?你應該這樣做,但你做了嗎?

《紐約時報》控訴OpenAI的案子

透過上面介紹,我們已經對人工智慧版權困境形式有了大致的了解;那麼,創作者和法律是如何處理這些問題的呢?我認為最有趣的此類案件(有很多)是《紐約時報》提出的案件,因為其中一部分正好涉及複製的含義,而其他案件可能沒有做到這一點。

正如我上面提到的,複製數位檔案的行為是如此普遍和正常,以至於很難想像強制複製數位檔案(至少,在沒有違反其他合理使用測試向全球公眾分發確切文件的意圖的情況下)是侵犯版權。我認為這就是我們需要關註生成式人工智慧問題的地方 — 不僅是複製,還有對文化和市場的影響。

生成式人工智慧真的在複製內容嗎?例如訓練資料輸入,訓練資料輸出? 《紐約時報》在其文件中顯示,你可以從ChatGPT中獲得《紐約時報》文章的逐字文本,並有非常具體的提示。因為《紐約時報》有付費牆(譯者註:一種阻止非付費用戶瀏覽網頁內容的屏蔽系統),所以如果這種情況是真的,那麼這似乎明顯違反了公平使用的效果測試。到目前為止,OpenAI的回應是「是的,因為你對ChatGPT使用了許多複雜的提示,就可以獲得這樣的逐字逐句的結果」。這讓我感到詫異:他們的論點就是生成式人工智慧有時會產生其訓練內容的逐字副本。但是,這就不違法嗎? (環球音樂集團(Universal Music Group)也提起過與音樂相關的類似案件,認為生成式人工智慧模式Claude可以幾乎逐字逐句地複製受版權保護的歌曲的歌詞。)

我們要求法院決定受版權保護的資料的確切使用量和使用方式,在這種情況下,這將是一個挑戰!我傾向於認為,使用資料進行訓練不應該是固有的問題,但重要的問題是如何使用模型以及它會產生什麼影響。

我們傾向於將合理使用視為一個步驟,就像引用你文章中的一段話。我們的系統有一套法律思想,為這種情況做好了充分準備。但在生成式人工智慧中,這更像是兩個步驟。要說版權受到侵犯,在我看來,如果內容被用於訓練,那麼,這些內容也必須應該以篡奪原始材料市場的方式從最終模型中檢索出來。我認為人工智慧系統還不能夠將使用的輸入內容的數量與可以逐字提取作為輸出的數量區分開來。然而,ChatGPT真的是這樣嗎?我們很想看看法院對這些問題是怎麼想的。

DMCA

上述這些問題還有另一個有趣的角度,那就是DMCA(數位千禧年版權法)是否與此相關。你可能熟悉這項法律,因為幾十年來,它一直被用來迫使社群媒體平台刪除未經版權持有人授權發布的音樂和電影檔案。這項法律是基於這樣一種想法,即你可以對侵犯版權的人進行“打擊”,一次刪除一條內容。然而,當涉及訓練資料集時,這顯然是行不通的——你需要重新訓練整個模型,在大多數生成式人工智慧的情況下,這需要付出高昂的代價,從訓練資料中刪除一個或多個有問題的文件。理論上,你仍然可以使用DMCA來強制從網站上刪除有問題的模型的輸出,但證明是哪個模型產生了這個項目將是一個挑戰。但是,另一方面這並沒有像我所描述的那樣,將輸入+輸出視為侵權的關鍵。

權力問題

如果上述這些行為實際上侵犯了版權,法院仍然必須決定該怎麼辦。從某種意義上說,很多人認為生成式人工智慧「太大了,不能失敗」——他們不能廢除讓我們走到這一步的做法,因為每個人都喜歡ChatGPT,對吧?生成式人工智慧(我們被告知)將徹底改變幾乎所有產業!

雖然版權是否受到侵犯的問題仍有待決定,但我確實覺得如果受到侵犯,應該會有後果。假設請求原諒比許可更容易,我們在什麼時候才能停止原諒那些繞過法律或公然違反法律的有權勢的人和機構?這並不完全顯而易見。如果沒有一些人以這種方式行事,我們今天就不會有很多創新,但這並不一定意味著這是值得的。另一方面,讓這些情況過去會導致法治貶值嗎?

就像現在網站99percentinvisible.org的許多聽眾一樣,我正在閱讀羅伯特·卡羅的《權力經紀人》(https://99percentinvisible.org/episode/the-power-broker-03-david-sims/)。聽到羅伯特·摩西(Robert Moses)在20世紀之交如何處理紐約的法律問題令人著迷,因為他處理分區法的風格似乎讓人想起了2010年初舊金山優步(Uber)處理快遞司機相關法律的方式,以及建構生成式人工智慧的大公司現在處理版權的方式。他們沒有遵守法律,而是採取了法律限制不適用於他們的態度,因為他們正在建造的規則是如此重要和有價值。

然而,我只是不相信這是真的。當然,每種情況在某些方面都是不同的,但一個有權勢的人可以決定他認為什麼是好主意,這一概念不可避免地比其他人認為的更重要,這讓我感到困惑。生成式人工智慧可能有用,但認為它比擁有一個文化上充滿活力和創造力的社會更重要似乎是虛偽的。法院仍需決定生成性人工智慧是否對藝術家和創作者產生了寒蟬效應。但是,這些創作者提起的法庭案件認為確實如此。

未來

美國版權局並沒有忽視這些具有挑戰性的問題,儘管他們可能對這些問題反應稍遲一些。最近,他們發布了一篇部落格文章,談論他們對生成式人工智慧相關內容的計劃。然而,這篇文章非常缺乏具體的內容,只是告訴我們未來會有相關報告。該部門的工作重點有三個面向:

  • 「數位複製品」:大致是對人進行Deepfakes和數位孿生處理(想想特技替身和演員在工作中必須接受掃描才能被數位模仿)
  • “包含人工智慧生成材料的作品的版權”
  • “在受版權保護的作品上訓練人工智慧模型”

這些都是重要的議題,我希望結果會是經過深思熟慮的。 (一旦這些報告出來,我會寫下這些報告。)我希望從事這項工作的政策制定者了解情況,技術嫻熟,因為官僚主義者很容易用不明智的新規則使整個情況變得更糟。

未來的另一種可能性是,將開發和訓練合乎職業道德標準的資料集。這是HuggingFace的一些人已經以名為the Stack的程式碼資料集(https://www.bigcode-project.org/docs/about/the-stack/)的形式完成的。我們能為其他形式的內容做這樣的事情嗎?

結論

不管政府或產業提出了什麼,法院都正在著手解決上述問題。如果法庭上的一個案件中生成式人工智慧方敗訴,會發生什麼事?

這可能至少意味著,生成式人工智慧產生的部分資金將回饋給創作者。我不太相信生成式人工智慧的整個想法會消失,儘管我們確實看到了Napster音訊共享時代許多公司的終結。法院可能會讓生產生成性人工智慧的公司破產,或是禁止生產生成性的人工智慧模式——這並非不可能!然而,我不認為這是最有可能的結果——相反,我認為我們會看到一些懲罰和圍繞這一點的法律碎片化(這種模式可以,那種模式不可以,等等),這可能會也可能不會使情況在法律上變得更清楚。

我真的很希望法院能處理生成式人工智慧模型何時以及如何被視為侵權的問題,不將輸入和輸出問題分開,而是將它們作為一個整體進行審查,因為我認為這是理解情況的關鍵。

如果他們這樣做了,我們也許能夠為我們正在處理的新技術提出有意義的法律框架。如果不這樣做,我擔心我們最終會進一步陷入法律的泥潭,而法律對指導我們的數位創新毫無準備。我們需要在我們的數位世界中更有意義的版權法。但是,我們也需要聰明地保護各種形式的人類藝術、科學和創造力,我認為人工智慧生成的內容不值得用它來交換。