從新聞網站與搜尋引擎的十幾年較量歷史中總結,大模型公司向內容方付“版權費”或是一個必然的結果。
近兩年,大模型噴湧,它們在文字、圖片、音視頻等內容形態的生成上大放異彩。內容創作一直認為是人“獨屬”的技能,自OpenAI於2022年發佈ChatGPT之後,眾多大模型開始挑戰一直被人類把持的這一獨特技能。從初期驚豔心態“祛魅”後,大眾逐步瞭解了這個新生事物的“創作原理”。
它需要先“吞食”海量的文字內容、圖片內容、音視頻內容,這些大資料先被高速分析和處理,在深度學習技術的推動下,大模型愈發像人一樣可以創作文字、圖片、音視頻等多模態內容。包含社交娛樂到工作學習等場景的內容生成,能力越來越強的大模型,將深刻改變未來世界。
快速發展背後,大模型侵權問題頻繁爆發。
1
今年4月末,包括《紐約每日新聞》和《芝加哥論壇報》在內的多家新聞機構在紐約的聯邦法庭對OpenAI及Microsoft提起了法律訴訟,控告二者在未獲授權下,利用其新聞稿件來教導生成型人工智慧(AI)技術。隨後,美國調查新聞中心(CIR)指控OpenAI和Microsoft使用版權材料來訓練其人工智慧模型。一份在紐約聯邦法院提交的投訴聲稱,OpenAI未經許可或付款就利用了CIR的內容。
這讓人不得不聯想到十年前,美國眾多新聞機構對穀歌搜尋引擎的法律訴訟。其實,大模型自誕生就被看做搜尋引擎之後,線民的全新資訊獲取工具,相比於後者,大模型除了提供精准資訊,還可以直接“原創”文字、圖片、音視頻內容供使用者使用。
如今,穀歌已經對非常多新聞機構“付費”,大模型或許也難逃這個結局,雖然OpenAI對此強調使用公開材料訓練AI模型屬於合理使用。
新聞機構和互聯網巨頭的較量,最早可追溯到2009年。
2009年,美國新聞集團旗下的《華爾街日報》新聞網站採取收費制,網友打開該網站部分新聞可流覽第一段,若想閱讀全文就須付費。彼時這類收費新聞若由穀歌搜尋連結,卻可閱覽全文。
在“2009年有線電視展會”上默多克譴責穀歌,稱搜索巨人正在竊取不屬於自己的內容,因此呼籲內容所有人進行反擊。默多克控訴:“我們還要讓穀歌繼續竊取我們的版權內容嗎?不能再這樣下去了。”
即使到了今天,新聞網站的優質內容,仍是穀歌等搜尋引擎向用戶提供優質服務的必要組成部分。搜尋引擎在賺取大量財富的同時,新聞網站卻成了穀歌們的“陪嫁品”。圍繞搜尋引擎是否應該向新聞網站付費的討論,從美國蔓延到全球,從十幾年前爭議持續到今天。
漫長時間的較量下,現在谷歌向新聞機構付費已是一種常態化現象。
早在2020年,穀歌公司就對外宣佈,當時已與全球約200家報導機構建立了合作關係,將開始一項推送新聞的新服務,未來3年,穀歌將支付10億美元的新聞稿件等的使用費。
2
相比於,搜尋引擎的索引“侵權”和廣告壟斷等拷問。大模型與新聞機構的較量更為全面,雙方的矛盾也更為激烈。
要知道,全球新聞網站依靠穀歌帶去的源源不斷流量,尚能夠通過廣告服務、付費閱讀等業務盈利。而大模型的服務機制中,超鏈跳轉所占比例並不高,也就說服務大多在大模型產品內就結束,新聞網站從中更難獲取利益。
這一次,率先對大模型開戰的為《紐約時報》,2023年底該報對OpenAI以及Microsoft提起訴訟,指控後者未經授權使用該報版權內容訓練AI模型,並在ChatGPT產品中呈現給使用者。截至今年6月底,已至少有13家新聞媒體機構對OpenAI和Microsoft提起了侵權訴訟。
據新聞集團首席執行官羅伯特湯姆森所說“媒體的集體智慧財產權正受到威脅,我們應該大聲要求賠償。”新聞行業律師Steven Lieberman更是直言,OpenAI的巨大成功也要歸功於其他人的工作,它在未經許可或付款的情況下獲取了大量優質內容。
這類起訴並非只是存在新聞行業,大模型多模態發展,也引起其他行業企業和機構展開反擊。
美時間6月24日,全球三大唱片公司索尼音樂集團、環球音樂集團和華納音樂聯合多家唱片公司,向AI音樂生成公司Suno和Udio開發商Uncharted Labs發起訴訟,指控後者非法使用版權音樂來訓練模型並提供服務。
唱片公司指控Suno抄襲了662首歌曲,Udio抄襲了1670首歌曲,正在嘗試索取每件音樂作品最高15萬美元的賠償費用。
國內也發生了類似事件,今年6月6日360 AI發佈會上,360集團創始人、董事長周鴻禕在演示360AI流覽器的創新功能“局部重繪”時,選用了一張女性古裝寫真圖片進行演示。兩天后,ID為DynamicWangs的創作者在社交平臺上發難,認為該圖片是他利用AI繪圖模型精心創作,並指責360公司未得到自己的授權。
內容創作行業,追“新”是一個特點,最新的思想、最新的事件、最新的言論、最新的圖畫風格或最新的視訊模式。對大模型而言,如果缺了最及時信息的提供,必然會被使用者吐槽提供的內容過時、傳統,而想要追“新”,就難免和各種內容行業機構產生在“版權”方面的糾紛。
在去年《紐約時報》起訴書中就有這樣一段內容,ChatGPT幾乎逐字複製了其新聞報導。該報舉例稱,2019年,《紐約時報》發表了一篇榮獲普利策獎的關於紐約市計程車行業掠奪性貸款的系列文章。該報稱,只要稍加提示,ChatGPT就會一字不差地背誦其中的大部分內容。
顯然,一部分ChatGPT使用者已把大模型當做了搜尋引擎來使用。這種形式究竟算不算侵權呢?法律定義上尚有討論空間,可隨著大模型的大踏步商業化,類似拷問會層出不窮。就算當下版權法體系下算不得“大事”,可隨著版權方的積極維權,也難免會有新的立法來杜絕這種現象。畢竟,新聞網站主要是靠流量和伴生的廣告盈利,ChatGPT這種直接杜絕使用者和新聞網站“連結”的方式,侵犯了後者的利益。
其實,現在包括美國和中國兩個AI大國,版權法方面和AI相關的法律內容尚在探索中,但考慮到大量內容創作者依靠版權吃飯的現實中,大模型和內容版權的較量將是個長期問題,從新聞網站與搜尋引擎的十幾年較量歷史中總結,大模型公司向內容方付“版權費”或是一個必然的結果。
3
內容版權方未來向大模型“發難”主要在兩個層面,第一是訓練AI模型時有沒有用到我的版權內容;第二是輸出的文字、圖片、音視頻內容有沒有涉及侵權的地方。
大模型商業化必然要面臨“版權”問題,以OpenAI最新發佈的GPT-4o為例,該大模型能夠處理50種不同的語言,相比過去版本提升了速度和品質,並擁有了可讀取人情緒的能力。它接受文本、音訊和圖像三者組合作為輸入,並能生成文本、音訊和圖像的任意組合輸出,“與現有模型相比,GPT-4o在圖像和音訊理解方面尤其出色。”
它的應用場景非常豐富,包括即時翻譯、會議報告生成、法律諮詢、創意寫作、虛擬客服等場景,包括即時語音和視頻分析功能。且用戶還可以和它聊天,通過提問獲取最新知識,甚至一些人開發了和大模型戀愛的“賽道”。
除了生活場景,大模型會在越來越多商業場景中應用。這就意味著,雖然OpenAI宣佈GPT-4o目前可免費使用(限次數),但用戶只有付費才可無限使用。況且,商業化許可權一直在OpenAI手中。
由於國內無法使用GPT-4o,小編就用騰訊元寶大模型、文心一言大模型提問“張藝謀三體電影怎麼樣”這個熱點。從騰訊元寶的答案中,每一個答案段落都有其引用超鏈出處。文心一言上的答案雖然未提供超鏈,但下方也有相關話題的超連結。
其實,大模型只是工具,輸入某方面的內容,才具備輸出相關方面“答案”的能力。要知道,內容創作的進化非常快,在大模型生活場景、商用場景中,想要能夠隨時提供最佳體驗予以用戶,必須要“餵食”最新的資料。而且,在用戶需求下,輸出的答案難免會“複製”新聞網站或其他版權方的內容。在大模型目前剛起步時期,這類矛盾還只是限於部分大的新聞機構和大模型公司之間,一旦大模型在日常生活中應用普遍化,這種矛盾將會進一步激化。
未來,這種圍繞版權的糾紛會以什麼樣的方式解決?現在,已經很多案例發生,未來類似問題解決方式跳不出這些圈子。
圍繞人工智慧的法案正在出臺,2023年12月8日,歐盟委員會、歐洲議會和歐盟成員國代表達成的《人工智慧法案》(AIAct)。該法案明確提出,對於類似ChatGPT的通用AI系統(GPAI)以及相關的GPAI模型,提供方需要製作技術檔、遵守歐盟版權法、披露訓練系統時使用的資料內容匯總。如果各企業和機構違反歐盟的AI法將面臨罰款。
今年8月15日,由國家互聯網資訊辦公室等七部門聯合發佈的《生成式人工智慧服務管理暫行辦法》正式施行,這是我國首個針對生成式人工智慧產業的規範性政策,也是全球第一部人工智慧生成內容管理辦法。
監管機構將對違規行為進行相應處罰,今年3月,法國市場監管機構宣佈,已向美國穀歌公司開出一張2.5億歐元(約合人民幣19.7億元)的罰單,原因是穀歌未經同意使用法國出版商和新聞機構的內容訓練旗下的聊天機器人“巴德”(其升級版名為“雙子座”),違反了歐盟智慧財產權的相關法規。
谷歌因此成為第一個因為訓練資料“侵權”被罰款的公司。有了這個前車之鑒,未來或有更多大模型企業會因為訓練資料問題,遭受相關的管制。
對於大模型公司而言,如何和擁有版權的內容公司獲得合作,將是未來重要的戰略。今年6月份,《時代》雜誌與OpenAI宣佈,兩家公司達成了一項多年內容授權協定和戰略合作夥伴關係。該協定允許OpenAI將這家出版商的內容引入ChatGPT,並説明訓練其最先進的AI模型。
據悉,雙方合作內容非常深入,OpenAI甚至能夠訪問《時代》過去100多年的檔案和文章,以訓練其AI模型,並在其面向消費者的產品(如ChatGPT)中用於回復用戶的詢問。
作為回報的是,OpenAI使用《時代》雜誌的內容時會注明引用並連結原始來源。《時代》雜誌將可以使用OpenAI的技術,以便為其受眾“開發新產品”。
無論怎麼說,原創內容是互聯網高速發展重要的支柱之一。過去,新聞網站、音樂公司、版權商和穀歌搜尋引擎展開的十幾年“版權戰爭”,將會在大模型領域重現,且鬥爭程度要遠超過前者。
任何一種技術的繁榮,都不應該建立在“巧取豪奪”之上。大模型企業或可以用提高與新聞網站等內容機構的合作門檻,增加自身的競爭護城河。
目前來看,大模型沒有辦法由0變100。作為大模型“養料”供給方,內容原創者或機構,也完全有理由,從大模型蓬勃發展中獲取合理的利益。
留言列表