#本文僅代表作者觀點,不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#
“本文對人工智能數(shù)據(jù)訓練涉及的著作權(quán)問題進行討論?!?br/>
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:吳子芳 北京市融泰律師事務(wù)所
摘要
生成式人工智能的快速發(fā)展得益于包括既有作品等大量著作權(quán)客體在內(nèi)的大數(shù)據(jù)資源,以滿足生成式人工智能數(shù)據(jù)訓練的要求。此種廣泛持續(xù)對他人作品的使用行為以人工智能生成物形式通過網(wǎng)絡(luò)輸出予以呈現(xiàn)。如何在實現(xiàn)生成式人工智能良性高效發(fā)展的同時,維護著作權(quán)法框架下權(quán)利人的合法權(quán)利,行政、司法機關(guān)已經(jīng)開展積極探索。按照著作權(quán)法規(guī)定,生成式人工智能對他人作品等著作權(quán)客體的使用主要集中在信息網(wǎng)絡(luò)傳播權(quán)等相關(guān)權(quán)項,人工智能服務(wù)提供者有必要在取得授權(quán)的情況下開展數(shù)據(jù)訓練等活動,以避免因人工智能產(chǎn)品推向市場后被集中批量維權(quán)而影響其正常業(yè)務(wù)發(fā)展。
關(guān)鍵詞:生成式人工智能 著作權(quán) 數(shù)據(jù)訓練
2022年11月,OpenAI震撼推出對話式AI模型ChatGPT,引發(fā)了新一輪人工智能(Artificial Intelligence,AI)邁向大模型時代的浪潮?;凇按髷?shù)據(jù)”“大算力”和“強算法”深度學習模型下的生成式人工智能[1](Artificial Intelligence Generated Content,AIGC,下文簡稱人工智能)開始深入普通人的日常生活,在極大便利人們工作、娛樂、藝術(shù)創(chuàng)作的同時,將可能顛覆性地改變對人類成果的權(quán)益劃分邊界和收益分配規(guī)則。人工智能所引發(fā)的各類法律爭議也紛至沓來,著作權(quán)糾紛是首先被關(guān)注的焦點。
PART 01
人工智能引發(fā)著作權(quán)糾紛的相關(guān)背景
在國內(nèi),北京互聯(lián)網(wǎng)法院于2023年下半年判決的首例“AI文生圖”著作權(quán)糾紛案認定用戶通過輸入提示詞使用AI繪畫工具所獲圖片構(gòu)成作品[2],廣州互聯(lián)網(wǎng)法院判決的首例“生成式AI服務(wù)”著作權(quán)糾紛案認定作為人工智能企業(yè)的被告在提供生成式人工智能服務(wù)過程中侵害了原告對奧特曼作品所享有的著作權(quán)[3],兩案均引發(fā)了學界、業(yè)界的廣泛熱議。最高人民法院發(fā)布的《中國法院知識產(chǎn)權(quán)司法保護狀況(2023年)》中評價首例“AI文生圖”案探索了人工智能生成物的著作權(quán)保護路徑[4]。國內(nèi)訴訟糾紛主要集中在討論人工智能生成物的客體性質(zhì)以及提供人工智能生成物行為的侵權(quán)責任層面。
近期,《紐約每日新聞》等八家美國知名報紙媒體起訴了OpenAI和微軟。此前《紐約時報》作為首家報紙媒體就曾以O(shè)penAI和微軟違規(guī)使用其百萬篇文章用于訓練兩家公司旗下的自動聊天機器人為由提起訴訟[5]。此外,國外已有《黎明的扎里亞》《太空歌劇院》等多幅漫畫或圖像,因缺乏人的創(chuàng)作性貢獻而被行政機關(guān)拒絕作為作品登記且得到法院支持的先例。相關(guān)爭議已經(jīng)聚焦于人工智能大模型數(shù)據(jù)訓練[6]相關(guān)的著作權(quán)保護等問題。
人工智能是技術(shù)和數(shù)據(jù)的集合產(chǎn)物,其基于生成對抗網(wǎng)絡(luò)(GAN)和大型預(yù)訓練模型等人工智能技術(shù),利用已有數(shù)據(jù)來尋找規(guī)律,并通過適當泛化能力來生成相關(guān)內(nèi)容[7]。其中,利用已有數(shù)據(jù)尋找規(guī)律的過程主要為數(shù)據(jù)訓練過程。數(shù)據(jù)訓練通常是指在大量數(shù)據(jù)基礎(chǔ)上,利用機器學習、統(tǒng)計學以及數(shù)據(jù)庫等數(shù)據(jù)挖掘(Text Data Mining,TDM)、自動化分析數(shù)據(jù)技術(shù),提煉分析文本內(nèi)容以及其他有價值的信息,從文本或數(shù)據(jù)導出或組織信息的過程[8]?,F(xiàn)階段國內(nèi)外爭議恰好反映了與人工智能相關(guān)的兩類焦點問題:一是人工智能輸入端問題,即根據(jù)人工智能生成物認定人工智能服務(wù)提供者在數(shù)據(jù)訓練中未經(jīng)許可使用他人作品,并判斷該行為的法律責任。二是人工智能輸出端問題,即人工智能生成物能否成為著作權(quán)法保護的作品等權(quán)利客體;如果可以成為權(quán)利客體,如何認定權(quán)利主體。下文就前述問題展開討論。
PART 02
人工智能數(shù)據(jù)訓練涉及的著作權(quán)問題
為發(fā)展優(yōu)化人工智能,尤其是生成式人工智能,需要“投喂”大量的數(shù)據(jù)(文字、圖像、音頻、視頻等)進行數(shù)據(jù)訓練。大數(shù)據(jù)模型不可避免地在進行數(shù)據(jù)訓練過程中使用他人已發(fā)表作品等公開的權(quán)利客體。但是僅僅只是訓練階段的使用,尚未提供給合作伙伴或者相關(guān)用戶使用其人工智能產(chǎn)品的,他人并沒有機會或者途徑了解到其作品被訓練使用的情況。正如OpenAI的ChatGPT研發(fā)訓練多年,在沒有向用戶提供廣泛使用前,并未發(fā)生普遍爭議。
人工智能若僅停留在單純數(shù)據(jù)訓練階段不進入應(yīng)用階段是沒有現(xiàn)實意義的??陀^上國內(nèi)外已有眾多人工智能產(chǎn)品面世進入應(yīng)用領(lǐng)域,并且正是通過用戶的廣泛持續(xù)大量使用進一步完善數(shù)據(jù)訓練,提升人工智能產(chǎn)品的智能化水平和程度。如ChatGPT的用戶協(xié)議中約定,用戶輸入的內(nèi)容將作為ChatGPT學習的文本數(shù)據(jù)之一,如果用戶不同意此使用方式,可以通過郵件等方式拒絕授權(quán)而不會影響其正常使用等[9]。
(一)從人工智能生成物看數(shù)據(jù)訓練行為
如果經(jīng)過訓練階段人工智能產(chǎn)品后續(xù)必將推向市場進入公開使用階段,人工智能服務(wù)提供者一般有必要取得訓練階段所使用他人作品的授權(quán),除非人工智能服務(wù)提供者能確保其人工智能產(chǎn)品智能化程度極高,人工智能生成物中完全看不出來使用他人作品的表達。但是目前,人工智能尚未達到如此高度。
按照目前著作權(quán)法“先授權(quán)后使用”的基本理論,不能因為權(quán)利人不知悉自身作品被使用的情況,不會啟動維權(quán),而使人工智能服務(wù)提供者無需為其數(shù)據(jù)訓練所使用他人作品的行為取得授權(quán)。但是,客觀上,由于數(shù)據(jù)訓練過程中對作品的使用具有“黑盒”性質(zhì),包括權(quán)利人在內(nèi)的他人并不知道具體的使用方式,也難以對應(yīng)現(xiàn)行著作權(quán)法第10條中規(guī)定的具體權(quán)項所涉及的使用行為特征。所以往往只能通過人工智能生成物的表現(xiàn)形態(tài)再來主張數(shù)據(jù)訓練過程中對他人作品的使用行為實際可能影響的著作權(quán)權(quán)項。
實踐中,對數(shù)據(jù)訓練未經(jīng)許可使用他人權(quán)利客體產(chǎn)生爭議的情形主要發(fā)生在用戶使用人工智能產(chǎn)品并獲得人工智能生成物后,權(quán)利人發(fā)現(xiàn)該生成物中體現(xiàn)了其權(quán)利客體內(nèi)容,進而推知在人工智能數(shù)據(jù)訓練中未經(jīng)許可使用其權(quán)利客體。此爭議發(fā)生的前提是人工智能生成物中能相對完整地體現(xiàn)他人的作品表達或者受保護的權(quán)利客體內(nèi)容。假如首例“AI文生圖”案中《春風送來了溫柔》一圖中的人物肖像本身來自某攝影師的攝影作品,此時該攝影師可能會提出侵權(quán)主張,但如果該圖完全無法體現(xiàn)在先作品的痕跡,權(quán)利人要主張人工智能數(shù)據(jù)訓練中使用其作品將面臨舉證困難而難以得到支持。如果沒有利用他人享有著作權(quán)的作品生成類似風格的作品,原則上不應(yīng)當認定構(gòu)成對他人著作權(quán)的侵害[10]??梢灶A(yù)見,在未來的強人工智能時代[11],當前探討的一系列問題終將不成問題。
當然,目前的人工智能尚未脫離人的自主意識階段,正如《紐約時報》起訴OpenAI的訴訟中引用的案例顯示,當被問及相關(guān)時事時,ChatGPT有時會生成《紐約時報》文章的逐字摘錄,而這些文章在《紐約時報》的網(wǎng)站上是需要付費閱讀的[12]。所以,現(xiàn)階段通過人工智能生成物進而衍生探討人工智能數(shù)據(jù)訓練相關(guān)的著作權(quán)問題是有意義的。
(二)因人工智能數(shù)據(jù)訓練可能引發(fā)的著作權(quán)侵權(quán)責任
1、人工智能訓練數(shù)據(jù)是否構(gòu)成對著作權(quán)權(quán)利客體的使用
使用大量已有數(shù)據(jù)進行數(shù)據(jù)訓練顯然是人工智能完成文本、圖像、語音等內(nèi)容智能合成的必要條件。在大量數(shù)據(jù)集基礎(chǔ)上的訓練,通常包含對既有數(shù)據(jù)的收集、存儲、采樣、處理,以及在特定算法下的輸出等。在此過程中,有學者認為可能涉及對作品、制品的復制權(quán)、表演權(quán)、廣播權(quán)、信息網(wǎng)絡(luò)傳播權(quán)等著作權(quán)法項下多個權(quán)項的侵權(quán)行為[13]。我國《生成式人工智能服務(wù)管理暫行辦法》第七條規(guī)定了人工智能服務(wù)提供者應(yīng)當依法開展預(yù)訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動,使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán)。不僅是我國,歐盟的《人工智能法案》(the AI Act),規(guī)定用于生成藝術(shù)、音樂和其他內(nèi)容的生成基礎(chǔ)AI模型將受到嚴格的披露義務(wù)的約束。此類模型和生成內(nèi)容的提供者必須披露內(nèi)容是由AI而不是人類生成的,訓練和設(shè)計其模型以防止生成非法內(nèi)容,并發(fā)布有關(guān)使用受版權(quán)法保護的訓練數(shù)據(jù)的信息[14]。該法案于當?shù)貢r間2024年3月13日在歐洲議會通過,5月21日于歐盟理事會通過,將于近日在歐盟官方公報上公布,并在公布20天后生效。
當前,包括知識產(chǎn)權(quán)在內(nèi)的數(shù)據(jù)已經(jīng)成為重要的生產(chǎn)要素和經(jīng)濟資源,人工智能數(shù)據(jù)訓練過程中尊重并保護知識產(chǎn)權(quán)的原則和方向無疑是正確的,但任何針對事物的討論不能僅停留在單純理論分析層面,而應(yīng)結(jié)合法律基本規(guī)定對客觀事物本身的實現(xiàn)方式、應(yīng)用特點、功能作用等展開分析,才能有的放矢,解析真問題。下文將對人工智能數(shù)據(jù)訓練過程中可能使用著作權(quán)權(quán)利客體的情形進行梳理。
(1)復制權(quán)
《著作權(quán)法》第十條第一款第五項規(guī)定,復制權(quán)指以印刷、復印、拓印、錄音、錄像、翻錄、翻拍、數(shù)字化等方式將作品制作一份或者多份的權(quán)利。按照法律釋義,復制權(quán)是將作品制成有形的復制品的權(quán)利[15]。復制權(quán)是著作權(quán)人之經(jīng)濟權(quán)利的核心,因為對作品的利用大多離不開復制。這一結(jié)論在媒體融合時代也不會發(fā)生改變。[16]因此,部分觀點認為,在數(shù)據(jù)訓練過程中需對數(shù)據(jù)進行存儲,自然落入了復制權(quán)的規(guī)制范疇,復制權(quán)是數(shù)據(jù)訓練必須解決的問題,同時,人工智能生成的內(nèi)容與原作品在表達上構(gòu)成實質(zhì)性相似,亦涉及復制權(quán)。部分觀點則認為不構(gòu)成對復制權(quán)的侵害,理由涉及訓練階段的實際行為是臨時復制,是對原作品的轉(zhuǎn)換和分析而非使用獨創(chuàng)性表達等。
復制權(quán)體現(xiàn)了著作權(quán)人通過控制作品有形復制件數(shù)量從而控制對作品的使用。實踐中,作品的復制行為通常是作品其他使用行為的前期準備,通常與發(fā)行、信息網(wǎng)絡(luò)傳播等行為結(jié)合使用。
比如,北京高院在(2024)京民終234號民事判決書中認定,“至于復制權(quán),可以認定三鼎夢公司在上傳涉案游戲過程中實施了復制涉案游戲的行為,但該行為系信息網(wǎng)絡(luò)傳播中直接提供行為的必要環(huán)節(jié),在認定構(gòu)成侵害信息網(wǎng)絡(luò)傳播權(quán)的情況下,沒有必要單獨進行認定,其也不單獨造成權(quán)利人的損失?!痹诒本└咴海?020)京民申3206號民事裁定書(簡稱3206號裁定書)中,該院認定,“芝蘭玉樹公司傳播的系以涉案作品的詞、曲及一定的卡通畫面合成的Flash動畫,其必然涉及利用一定的數(shù)字化設(shè)備進行合成、制作的過程,該過程包含了將涉案作品以數(shù)字化的形式固定在數(shù)字化設(shè)備上的復制行為,已落入著作權(quán)法所規(guī)定的復制權(quán)范疇。芝蘭玉樹公司后續(xù)在網(wǎng)站上提供含涉案詞曲Flash動畫的行為亦落入了著作權(quán)法所規(guī)定的信息網(wǎng)絡(luò)傳播權(quán)范疇?!?br/>
又如,作品復制權(quán)與發(fā)行權(quán)通常會結(jié)合使用,發(fā)行權(quán)是向公眾提供作品原件或復制件的權(quán)利?!吨鳈?quán)法》第六十三條將作品的復制、發(fā)行明確規(guī)定為出版,故單純的復制權(quán)常發(fā)生在權(quán)利人發(fā)現(xiàn)印刷公司批量印刷了部分侵權(quán)圖書,尚未公開投入市場的情形中。
人工智能數(shù)據(jù)訓練過程中收集、存儲作品到用于訓練的數(shù)據(jù)庫中,此過程通常不強調(diào)作品復制件數(shù)量,甚至隨著技術(shù)發(fā)展有些數(shù)據(jù)訓練直接調(diào)用云端數(shù)據(jù)而不需要進行存儲到己方服務(wù)器。同時,由于在人工智能數(shù)據(jù)訓練階段,尚無復制行為之后的發(fā)行、信息網(wǎng)絡(luò)傳播等行為,是否造成實際損害也是未知。因此,除數(shù)據(jù)訓練階段有數(shù)據(jù)存儲情形涉及復制行為進而可能侵害復制權(quán)外,筆者不贊同人工智能數(shù)據(jù)訓練過程中使用他人作品的數(shù)據(jù)處理行為可能侵害復制權(quán)。
(2)表演權(quán)和表演者權(quán)
《著作權(quán)法》第十條第一款第九項規(guī)定,表演權(quán)指公開表演作品,以及用各種手段公開播送作品的表演的權(quán)利。公開表演作品通常是指“現(xiàn)場表演”或者“活表演”,典型情形如歌手在休閑廣場公開演唱歌曲,故人工智能訓練數(shù)據(jù)中使用他人作品首先可以排除系公開表演他人作品。對于表演權(quán)定義的后半段,一般理解為“機械表演”,即借助技術(shù)設(shè)備將“活表演”進行公開傳播,例如賓館、飯店大堂播放音樂。不論是“活表演”還是“機械表演”,都強調(diào)表演環(huán)境的“公開性”特點。顯然,人工智能數(shù)據(jù)訓練的過程中即使存在對作品的“表演”,也不具備公開性,正相反,數(shù)據(jù)訓練本身與人工智能的算法相結(jié)合,這顯然屬于人工智能核心技術(shù)內(nèi)容,一般不會公之于眾。
關(guān)于表演者權(quán),《著作權(quán)法》第三十九條規(guī)定的表演者所享有的權(quán)利包括表明身份、保護表演形象不受歪曲,許可他人從現(xiàn)場直播或公開傳送其現(xiàn)場表演,許可他人錄音錄像,許可他人復制、發(fā)行、出租錄有其表演的錄音錄像制品,許可他人通過信息網(wǎng)絡(luò)傳播其表演等。人工智能數(shù)據(jù)訓練過程中可能將既有的表演者形象、聲音等特征性要素作為數(shù)據(jù)內(nèi)容進行訓練,有必要討論是否存在侵害表演者權(quán)的情形。表演者人身權(quán)通常為了規(guī)制他人使用表演者表演時割裂表演者與其表演的關(guān)系、影響表演者聲譽等行為,考慮到人工智能數(shù)據(jù)訓練一般不向表演者在內(nèi)的普通用戶公開,數(shù)據(jù)訓練過程也不屬于錄音錄像,或者現(xiàn)場直播或公開傳播現(xiàn)場表演等行為。同時我國出于對個人信息的保護,目前在數(shù)據(jù)訓練階段對個人信息清洗的要求越來越規(guī)范和嚴格。因此,除“許可他人通過信息網(wǎng)絡(luò)傳播其表演”外,人工智能數(shù)據(jù)訓練一般不涉及表演者權(quán)的其他權(quán)項。
(3)廣播權(quán)
《著作權(quán)法》第十條第一款第十一項規(guī)定,廣播權(quán)指以有線或者無線方式公開傳播或者轉(zhuǎn)播作品,以及通過擴音器或者其他傳送符號、聲音、圖像的類似工具向公眾傳播廣播的作品的權(quán)利,但不包括本款第十二項規(guī)定的權(quán)利。由于廣播權(quán)強調(diào)實時性,通常適用于廣播電視或網(wǎng)絡(luò)直播場景,顯然與人工智能數(shù)據(jù)訓練的使用情形相距甚遠。
(4)信息網(wǎng)絡(luò)傳播權(quán)
《著作權(quán)法》第十條第一款第十二項規(guī)定,信息網(wǎng)絡(luò)傳播權(quán)指以有線或者無線方式向公眾提供,使公眾可以在其選定的時間和地點獲得作品的權(quán)利。信息網(wǎng)絡(luò)傳播權(quán)強調(diào)通過信息網(wǎng)絡(luò)向用戶交互式提供作品、錄音錄像制品以及表演??紤]到當前的人工智能產(chǎn)品主要以互動聊天方式提供人工智能生成物,因此,如果人工智能生成物中出現(xiàn)了他人享有信息網(wǎng)絡(luò)傳播權(quán)的客體或受保護的客體部分,則可以合理推定人工智能服務(wù)提供者將他人受保護客體用于數(shù)據(jù)訓練。此外,在數(shù)據(jù)訓練過程中亦涉及對算法進行測試及同行校驗,亦可能涉及信息網(wǎng)絡(luò)傳播權(quán)等向公眾傳播的權(quán)利。
我國著作權(quán)法框架下,信息網(wǎng)絡(luò)傳播權(quán)糾紛將可能成為人工智能數(shù)據(jù)訓練所要面臨的最主要的著作權(quán)問題。
(5)改編權(quán)等
《著作權(quán)法》第十條第一款還規(guī)定了改編權(quán)、翻譯權(quán)、匯編權(quán)等權(quán)項。如改編權(quán),是指改變作品,創(chuàng)作出具有獨創(chuàng)性的新作品的權(quán)利。如果向用戶提供的人工智能生成物并非原樣提供他人作品,而是對他人作品進行改編后的作品,無疑也可以合理推定人工智能服務(wù)提供者將他人作品在數(shù)據(jù)訓練過程中進行了使用。翻譯權(quán)、匯編權(quán)亦如此。
綜上,根據(jù)著作權(quán)法規(guī)定的相關(guān)權(quán)項,結(jié)合人工智能數(shù)據(jù)訓練使用場景等具體情形,人工智能服務(wù)提供者在進行數(shù)據(jù)訓練過程中,有必要根據(jù)用于數(shù)據(jù)訓練的客體類型,取得作品信息網(wǎng)絡(luò)傳播權(quán)、改編權(quán)等權(quán)利。如錄音錄像制品權(quán)利人并無改編權(quán),則無需取得該權(quán)利。
人工智能的發(fā)展帶動了訓練數(shù)據(jù)市場增長,部分公司為訓練更強大的人工智能模型獲得競爭優(yōu)勢,規(guī)避侵權(quán)風險等,開始購買人工智能訓練數(shù)據(jù),如Adobe公司購買視頻訓練AI模型。如權(quán)利人享有全部或部分權(quán)利的作品、制品可能被人工智能服務(wù)提供者用于數(shù)據(jù)訓練,則應(yīng)結(jié)合自身所持有的客體類型明確對外授予的權(quán)利。
相對應(yīng)地,如果發(fā)現(xiàn)人工智能服務(wù)提供者在數(shù)據(jù)訓練等過程中未經(jīng)許可使用他人權(quán)利客體,權(quán)利人維權(quán)索賠主張可以結(jié)合作品等權(quán)利客體被使用的范圍、持續(xù)時間等具體使用情節(jié)提出。如果人工智能服務(wù)提供者實施侵權(quán)行為存在故意且情節(jié)嚴重的情形,權(quán)利人還可以依法提出懲罰性賠償請求。
2、人工智能數(shù)據(jù)訓練對他人著作權(quán)客體的使用是否構(gòu)成合理使用
著作權(quán)合理使用是在指明作者或者作品名稱的情況下,可以不經(jīng)著作權(quán)人許可,不支付報酬使用他人作品的情形?!吨鳈?quán)法》第二十四條吸收借鑒《伯爾尼公約》第9條第2款規(guī)定了合理使用的基本要件,即“不得影響該作品的正常使用,也不得不合理地損害著作權(quán)人的合法權(quán)益”,同時還列舉了12項典型的合理使用情形。
當前,人工智能數(shù)據(jù)訓練所涉數(shù)據(jù)中包含他人享有權(quán)利的作品、制品等大量著作權(quán)客體,部分學者就是否構(gòu)成合理使用問題從各種角度進行分析[17],但正如上文分析,僅針對數(shù)據(jù)訓練過程,包括數(shù)據(jù)挖掘、分析、處理等一系列方式對作品的使用一般不屬于著作權(quán)法所規(guī)定具體權(quán)項所涵蓋的行為范疇。實踐中,人工智能面向用戶使用的過程往往與數(shù)據(jù)訓練過程融合,由此通過人工智能生成物可以認定人工智能數(shù)據(jù)訓練中使用了他人著作權(quán)客體或者部分客體。對于作品而言,盡管是片段式的,但只要能體現(xiàn)作品的獨創(chuàng)性表達,都可獲得著作權(quán)保護。如北京互聯(lián)網(wǎng)法院曾認定13秒時長的短視頻構(gòu)成類電影作品肯定其著作權(quán)[18]。因此,如果他人作品等著作權(quán)客體出現(xiàn)在人工智能生成物中,正如上文分析,不排除會侵害他人信息網(wǎng)絡(luò)傳播權(quán)、改編權(quán)等權(quán)項,被認定構(gòu)成合理使用的難度較大。
至于部分學者提到的美國法中“轉(zhuǎn)換性使用”[19]等認定,因未在我國法律法規(guī)或司法解釋中予以規(guī)定,我國法院在司法實踐中極少適用相關(guān)理論作出裁判。
3、人工智能服務(wù)提供者取得權(quán)利主體的授權(quán)能否解決人工智能數(shù)據(jù)訓練可能產(chǎn)生的侵權(quán)責任
目前,我國出臺的一系列規(guī)范性文件,包括《生成式人工智能服務(wù)管理暫行辦法》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《國家新一代人工智能標準體系建設(shè)指南》等,美國出臺的《人工智能應(yīng)用規(guī)范指南》(Guidance for Regulation of Artificial Intelligence Applications)[20],歐盟《人工智能法案》等,均對人工智能數(shù)據(jù)訓練中的來源數(shù)據(jù)提出了要求。實踐中,多種權(quán)利主體呼吁或以提起維權(quán)訴訟等方式主張權(quán)利的行為,使不少涉及人工智能大模型數(shù)據(jù)訓練的企業(yè)已經(jīng)意識到為了獲得全面、完整、穩(wěn)定且高質(zhì)量的訓練數(shù)據(jù)需要與相關(guān)權(quán)利人訂立合同取得授權(quán),只有在授權(quán)范圍內(nèi)的使用行為,才能最大程度避免侵權(quán)發(fā)生。
首先,從數(shù)據(jù)權(quán)利人處取得授權(quán)顯然較未經(jīng)許可直接使用的侵權(quán)風險低。從長遠看,人工智能要順利健康可持續(xù)發(fā)展,必然是在各方權(quán)利安排有序、行為邊界清晰、利益分配合理的基礎(chǔ)上實現(xiàn),依靠初始發(fā)展階段簡單粗暴的數(shù)據(jù)“拿來主義”顯然是不可行的。
其次,人工智能數(shù)據(jù)訓練中對不同類型的數(shù)據(jù)使用方式不同,如對文字作品可能是提取段落、語句等要素,而對音樂要采集曲調(diào)、旋律或節(jié)奏片段,對視頻則要提取場景、圖像、特效等畫面。不同類型的數(shù)據(jù)對應(yīng)不同權(quán)利客體,亦對應(yīng)不同的權(quán)利主體。因此,人工智能服務(wù)提供者就有必要結(jié)合其具體使用場景、期限、范圍、是否允許轉(zhuǎn)授權(quán)等需求與相關(guān)權(quán)利主體訂立許可使用合同,以解決人工智能數(shù)據(jù)訓練以及用戶使用、人工智能生成物后續(xù)傳播的著作權(quán)問題。
再次,與騰訊公司訴盈訊公司案中騰訊公司的主張不同,當前的人工智能服務(wù)提供者大多不再主張享有人工智能生成物可能產(chǎn)生的知識產(chǎn)權(quán),而將這一權(quán)利讓渡給用戶。如首例“AI文生圖”案中,Stable Diffusion的用戶協(xié)議約定其“僅用于AIGC技術(shù)學習,其不對您使用模型生成的輸出聲稱任何權(quán)利。您對生成的輸出及其后續(xù)使用負有責任?!绷硪蝗斯ぶ悄墚a(chǎn)品Kimi[21]在用戶協(xié)議的“關(guān)于生成內(nèi)容的知識產(chǎn)權(quán)”中明確“您基于Kimi智能助手生成的內(nèi)容的版權(quán)由您自行維護并對其獨立判斷后使用,產(chǎn)生的任何知識產(chǎn)權(quán)問題都由您自行處理”。
在此情況下,是否意味著人工智能生成物侵權(quán)與否與人工智能服務(wù)提供者無關(guān)?答案顯然是否定的。對于被用于人工智能數(shù)據(jù)訓練而使用的著作權(quán)客體權(quán)利人而言,正是人工智能服務(wù)提供者首先使用其權(quán)利客體進行數(shù)據(jù)訓練,才導致在用戶使用人工智能產(chǎn)品后,相關(guān)包括了權(quán)利人客體的數(shù)據(jù)訓練成果以人工智能生成物形式出現(xiàn)。不論人工智能服務(wù)提供者保留或是讓渡人工智能生成物的權(quán)利,其使用他人作品的行為是客觀存在的,就應(yīng)當為其未事先取得授權(quán)而使用的行為承擔相應(yīng)的責任。
最后,從著作權(quán)客體權(quán)利人的角度考量,特別是在短視頻業(yè)務(wù)蓬勃發(fā)展的當下,對于視頻類客體權(quán)利人,如果本身的視頻內(nèi)容并非原創(chuàng),如從其他權(quán)利人處取得授權(quán),再將所獲得的授權(quán)客體授予人工智能服務(wù)提供者時,還要注意以下方面:一是向人工智能服務(wù)提供者授權(quán)屬于轉(zhuǎn)授權(quán)行為,需要上手權(quán)利人授予轉(zhuǎn)授權(quán)權(quán)利方可實施。二是權(quán)利人僅能在自身取得授權(quán)范圍內(nèi)向人工智能服務(wù)提供者授予權(quán)利,不能超出授權(quán)范圍。例如,取得權(quán)利的客體是動漫作品本身,并未取得其中特定角色形象的著作權(quán),則不能向他人轉(zhuǎn)授權(quán)特定角色形象著作權(quán)。同樣地,對于人工智能服務(wù)提供者而言,其獲得著作權(quán)客體權(quán)利人的授權(quán)也應(yīng)謹慎審查其授權(quán)范圍等效力,以免出現(xiàn)無效授權(quán)。
PART 03
人工智能生成物的客體性質(zhì)及權(quán)利主體
(一)人工智能生成物能否作為著作權(quán)法的權(quán)利客體
人工智能生成物客體性質(zhì)以及權(quán)利主體問題是當前司法實踐以及學者探討的重點問題。如上文提及的首例“AI文生圖”案,以及此前的菲林訴百度公司案[22]、騰訊公司訴盈訊公司案[23],三案生效判決在判決結(jié)果、審判思路方面存在不同。除了菲林訴百度公司案中法院否定人工智能生成的涉案文章內(nèi)容構(gòu)成作品,其余兩案均認定人工智能生成物構(gòu)成作品?!癆I文生圖”案認定提供了提示詞的人工智能用戶是作者,而騰訊公司訴盈訊公司案認定提供人工智能服務(wù)的騰訊公司享有其人工智能自動生成文章的著作權(quán)。
學者們在積極討論過程中形成了旗幟鮮明的兩派觀點:以王遷教授為代表的學者認為,著作權(quán)法保護的作品須為人類的創(chuàng)作成果,包括ChatGPT在內(nèi)的人工智能生成的內(nèi)容在形式上的“獨創(chuàng)”,并不是構(gòu)成作品的充分條件,人工智能生成的內(nèi)容不屬于受著作權(quán)法保護的作品[24]。既然不是作品,也就無所謂作者以及著作權(quán)人。以李揚教授為代表的學者認為,人工智能僅是人的創(chuàng)作工具,且相較于著作權(quán)法規(guī)定的法人作品,既然能將具備法律主體資格的自然人視為創(chuàng)作工具,將無法律主體資格的人工智能視為創(chuàng)作工具在法理上更無障礙。雖然人工智能生成內(nèi)容的獨創(chuàng)性來源于使用者對提示詞的選擇和安排,但排他權(quán)范圍僅延及人工智能最終生成的表達內(nèi)容,單獨的提示詞屬于不受保護的事實性材料,因此對滿足獨創(chuàng)性標準的人工智能生成內(nèi)容賦予著作權(quán)保護,不會過度限制公眾的行動自由[25]。還有觀點擴展解釋,著作權(quán)法的“寬進寬出”結(jié)構(gòu)提示我們,將用戶作出獨創(chuàng)性表達的AIGC納入著作權(quán)法圖式是在認知層面最為經(jīng)濟的利益平衡分析框架,承認AIGC獲得作品資格的可能性并不會過度妨礙公眾自由[26]。
能否將人工智能生成物作為著作權(quán)法的權(quán)利客體,既是對法律基礎(chǔ)問題的闡釋,同時也是對產(chǎn)業(yè)導向指引以及行業(yè)發(fā)展激勵等司法政策的理解。由于目前并無立法或政策明確規(guī)定人工智能生成物的客體性質(zhì),對生成式人工智能產(chǎn)生的法律問題,仍在個案中具體審理判斷,著作權(quán)法仍然是必須考慮的重要法律依據(jù)??紤]現(xiàn)階段人工智能發(fā)展水平,按照最新的“AI文生圖”案判決,人工智能本身不具備自由意志進而認定人工智能生成物因用戶提供提示詞的作用而屬于人的創(chuàng)作,可以構(gòu)成作品。
(二)人工智能生成物客體性質(zhì)差異對著作權(quán)權(quán)利主體的影響
當前國內(nèi)司法實踐中既有認定人工智能生成物為作品的判決(如“AI文生圖”案),也有不認定人工智能生成物為作品的判決(如菲林訴百度公司案)。對于作品著作權(quán)人等權(quán)利主體而言,前述兩種裁判觀點是否影響其權(quán)利客體被人工智能服務(wù)提供者用于數(shù)據(jù)訓練活動,同樣值得討論。
一方面,不論人工智能生成物是否被認定為作品或其他受著作權(quán)法保護的客體,其中所體現(xiàn)的他人權(quán)利客體不因人工智能生成物本身被認定的客體性質(zhì)而變化。仍假設(shè)《春風送來了溫柔》一圖中的人物肖像來自某攝影師的攝影作品,那么即使《春風送來了溫柔》一圖因系人工智能生成過程缺乏人的創(chuàng)作而不被認定為作品,但其中體現(xiàn)攝影師作品內(nèi)容的部分仍可受到著作權(quán)法保護。
另一方面,對人工智能生成物客體性質(zhì)的認定差異,直接影響被用于數(shù)據(jù)訓練權(quán)利客體的權(quán)利人如何選擇維權(quán)對象。如果人工智能生成物不構(gòu)成作品等受保護的著作權(quán)客體,前述假設(shè)情景下的攝影師主張維權(quán)的對象僅有人工智能服務(wù)提供者。如果人工智能生成物構(gòu)成作品等受保護的著作權(quán)客體,那么攝影師不僅可以向人工智能服務(wù)提供者提起維權(quán)訴訟,而且在用戶將人工智能生成物通過信息網(wǎng)絡(luò)傳播等實施了相關(guān)使用作品行為的情況下,攝影師還能向包括用戶在內(nèi)的作品權(quán)利人提起維權(quán)訴訟。另外,在騰訊公司訴盈訊公司案中,人工智能服務(wù)提供者和用戶合一,就無所謂區(qū)別對待不同行為主體的問題。
PART 04
小結(jié)
2017年,國務(wù)院印發(fā)《關(guān)于新一代人工智能發(fā)展規(guī)劃》[27],明確提出人工智能發(fā)展進入新階段,將人工智能發(fā)展列入國家戰(zhàn)略的層面進行系統(tǒng)化布局,人工智能是引領(lǐng)未來的戰(zhàn)略性技術(shù),是新一輪產(chǎn)業(yè)革命的核心驅(qū)動力。此后我國的人工智能進行快速發(fā)展階段,其中人工智能數(shù)據(jù)訓練的成效屬于人工智能發(fā)展進程的關(guān)鍵因素之一。用于數(shù)據(jù)訓練的數(shù)據(jù)集合中包含海量數(shù)據(jù),顯然包括了大量他人享有著作權(quán)的權(quán)利客體。以ChatGPT為例,其訓練數(shù)據(jù)主要來源于維基百科(Wikipedia)、期刊雜志(Journals)、Common Crawl、書籍(Books)、Reddit社交新聞?wù)军c和其他數(shù)據(jù)集[28]。這些他人享有權(quán)利的數(shù)據(jù)是權(quán)利人通過數(shù)十年努力積累而成,人工智能的發(fā)展并不能忽視基于這些成果所形成的權(quán)利,而應(yīng)在現(xiàn)有法律框架下合法取得數(shù)據(jù)并進行數(shù)據(jù)訓練,以此獲得人工智能高效、持續(xù)、良性發(fā)展。
注釋:
[1]按照國家互聯(lián)網(wǎng)信息辦公室等七部委于2023年7月10日聯(lián)合發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》 第二十二條規(guī)定,生成式人工智能技術(shù),是指具有文本、圖片、音頻、視頻等內(nèi)容生成能力的模型及相關(guān)技術(shù)。生成式人工智能技術(shù),是指具有文本、圖片、音頻、視頻等內(nèi)容生成能力的模型及相關(guān)技術(shù);生成式人工智能服務(wù)提供者,是指利用生成式人工智能技術(shù)提供生成式人工智能服務(wù)(包括通過提供可編程接口等方式提供生成式人工智能服務(wù))的組織、個人;生成式人工智能服務(wù)使用者,是指使用生成式人工智能服務(wù)生成內(nèi)容的組織、個人。
[2]北京互聯(lián)網(wǎng)法院(2023)京0491民初11279號民事判決書。
[3]廣州互聯(lián)網(wǎng)法院(2024)粵0192民初113號民事判決書。
[4]參見中國法院網(wǎng),https://img.chinacourt.org/mup/uploadfile/2024/04/22/12/8fa944f259dcc2705ffe283a7c2be810.pdf.
[5]https://apnews.com/article/chatgpt-newspaper-copyright-lawsuit-openai-microsoft-2d5f52d1a720e0a8fa6910dfd59584a9.
[6]人工智能數(shù)據(jù)訓練(AI Training Data),也可稱為“數(shù)據(jù)挖掘、機器學習”等。
[7]高金智庫等于2023年10月發(fā)布的《2023生成式人工智能服務(wù)合規(guī)發(fā)展白皮書》,https://www.sohu.com/a/724688284_121763369.
[8]曹偉、萬靖瑜:《生成式人工智能訓練數(shù)據(jù)的治理與構(gòu)建》,載微信公眾號“知識產(chǎn)權(quán)家”2023年10月5日發(fā)布,https://mp.weixin.qq.com/s?src=11×tamp=1715334042&ver=5252&signature=oExdYTAVJ7dzkN82IscznAd6dn40dm*TtzKfNLltUPLG8I8Sz1FTRzH*u6gRHRCi0SLSfVFNmqXsdxUmOcGroPSC0CfJUkL9yy6aM2PlGfWA5wPEv9lwjtOBbwsiUews&new=1.
[9]參見OpenAI官網(wǎng),Introducing ChatGPT,https://openai.com/index/gpt-4/.
[10]王利明:《生成式人工智能侵權(quán)的法律應(yīng)對》,載《中國應(yīng)用法學》2023年第5期。
[11]強人工智能(Artificial General Intelligence,AGI,Strong AI),該詞最初是約翰·羅杰斯·希爾勒針對計算機和其它信息處理機器創(chuàng)造的,其定義為:“強人工智能觀點認為計算機不僅是用來研究人的思維的一種工具;相反,只要運行適當?shù)某绦?,計算機本身就是有思維的?!?J Searle in Minds Brains and Programs. The Behavioral and Brain Sciences, vol. 3, 1980。參見百度百科“強人工智能”詞條。https://baike.baidu.com/item/%E5%BC%BA%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/10403678?fr=ge_ala.
[12]鄭栩彤:《大模型版權(quán)爭議再起 紐約時報起訴OpenAI和微軟》,載《第一財經(jīng)資訊》微信公眾號2023年12月28日發(fā)布,https://mp.weixin.qq.com/s?src=11×tamp=1715265163&ver=5250&signature=GOPRMxOe6JOUGJIkOx7gO7s*BLWpB8zWRgg*MpSv-iDNFnrPu7L2r3C423bPgbZLPlUdH0SAM6aTi2vUO5VHaOtcwM3--EubdIpVxexYWoo=&new=1.
[13]焦和平、梁龍坤:《人工智能合成音樂的著作權(quán)風險及其化解》,載《知識產(chǎn)權(quán)》2023年第11期。
[14]https://artificialintelligenceact.eu/the-act/.
[15]黃薇、王雷鳴:《中華人民共和國著作權(quán)法導讀與釋義》,中國民主法制出版社2021年3月第1版,第84頁。
[16]王遷:《網(wǎng)絡(luò)著作權(quán)專有權(quán)利研究》,中國人民大學出版社2022年8月第1版,第17頁。
[17]劉禹:《機器利用數(shù)據(jù)行為構(gòu)成著作權(quán)合理使用的經(jīng)濟分析》,載微信公眾號“知識產(chǎn)權(quán)雜志”2024年4月22日發(fā)布, https://mp.weixin.qq.com/s?src=11×tamp=1715334228&ver=5252&signature=6U-Fyj*UyiNcWxVbLyUyncMKPI4hUOA3yg5AMZm7wHk1T0040fZJk6QQ0xUwZGIO-6lySxR4NzoP2po9jiveTyKNhwD7m8qr5-26lkN6j3-QrOyh-bnj*lfbhMQMLKIZ&new=1;宋海燕、陳佩齡:《淺析ChatGPT訓練數(shù)據(jù)之合理使用》,載于微信公眾號“金杜研究院”,2023年4月25日發(fā)布,https://mp.weixin.qq.com/s?src=11×tamp=1715334306&ver=5252&signature=5okG6V7JGzb7s7w9XE854nr4pDcGDyJQz40yuLW6hNITCYvPiKcorxxXV0ub06gTsK6fCgiwAQWLnd6sLNzglNKDAW0uYtpi8rswEYFWXKLsrkvVv8UOqEypiTKszMP9&new=1。
[18]北京互聯(lián)網(wǎng)法院(2018)京0491民初1號民事判決書。
[19]李楊:《著作權(quán)法中的轉(zhuǎn)換性使用理論闡釋與本土化適用》,載《河北法學》2022年第6期。
[20]https://www.whitehouse.gov/wp-content/uploads/2020/11/M-21-06.pdf.
[21]北京月之暗面科技有限公司推出的人工智能產(chǎn)品“Kimi智能助手”, https://kimi.moonshot.cn/?data_source=tracer&utm_campaign=TR_PbzLg2eV&utm_content=&utm_medium=%E5%BE%AE%E8%BD%AFbing&utm_source=bing&utm_term=&msclkid=4dd069f35a021fe9fed50fceb55599ed.
[22]北京互聯(lián)網(wǎng)法院(2018)京0491民初239號民事判決書。
[23]廣東省深圳市南山區(qū)人民法院(2019)粵0305民初14010號民事判決書。
[24]王遷:《ChatGPT生成的內(nèi)容受著作權(quán)法保護嗎?》,載《探索與爭鳴》2023年第3期;《再論人工智能生成的內(nèi)容在著作權(quán)法中的定性》,載《政法論壇》2023年第4期。
[25]李揚、涂藤:《論人工智能生成內(nèi)容的可版權(quán)性標準》,載《知識產(chǎn)權(quán)》2024年第1期。
[26]蔣舸:《論人工智能生成內(nèi)容的可版權(quán)性:以用戶的獨創(chuàng)性表達為視角》,載《知識產(chǎn)權(quán)》2024年第1期。
[27]中華人民共和國中央人民政府網(wǎng)站,https://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[28]姚前:《ChatGPT類大模型訓練數(shù)據(jù)的托管與治理》,載《中國金融》2023年第6期。
吳子芳作者專欄
1、ChatGPT時代,知識產(chǎn)權(quán)從業(yè)者面臨的4個挑戰(zhàn)
2、長短視頻“世紀和解”后視頻權(quán)利人的維權(quán)思考
(原標題:生成式人工智能發(fā)展中值得關(guān)注的著作權(quán)問題)
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:吳子芳 北京市融泰律師事務(wù)所
編輯:IPRdaily辛夷 校對:IPRdaily縱橫君
注:原文鏈接:生成式人工智能發(fā)展中值得關(guān)注的著作權(quán)問題(點擊標題查看原文)
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負責人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://jupyterflow.com
#晨報#五糧液起訴飛天王子酒侵權(quán),該案將于6月12日開庭審理;我國已布局建設(shè)國家級知識產(chǎn)權(quán)保護中心71家
今日14:30我們課堂上見!“羊城知產(chǎn)大講堂”2024年廣州市知識產(chǎn)權(quán)文化建設(shè)公益培訓第三期線下課程開課啦!
文章不錯,犒勞下辛苦的作者吧