2023年12月27日,美國《紐約時報》指控微軟及OpenAI未經許可使用該報數百萬篇文章訓練其聊天機器人,要求銷毀所有涉及紐約時報新聞作品的ChatGPT或其他大型語言模型和訓練集、并賠償數十億美元的法定損害賠償和實際損失。紐約時報此舉被認為是迄今為止規模最大、最具代表性和轟動性的案例。這一事件是對大模型企業合規性的一次考驗,未來將產生深遠影響。
針對大模型企業的版權訴訟主要聚焦模型訓練和輸出階段的侵權行為
國內外大模型企業面臨多起版權訴訟。據不完全統計,自2022年 11月至2023年10月,僅美國加州北區法院便已受理10起針對大模型企業的版權訴訟案件1。2023年6月,國內筆筆神作文發布聲明表示學而思AI大模型侵權、12月多位創作者起訴小紅書AI模型涉嫌使用這些畫師的作品訓練。
(一)模型訓練階段的版權利用行為成為多數版權糾紛的焦點
自行收集數據 (如通過網絡爬蟲等技術手段收集數據等 )與經授權獲取數據 (如采購第三方數據庫等 ) 是獲取訓練數據的兩類典型途徑,均存在侵權風險。一是使用網絡爬蟲抓取的內容受網絡爬蟲協議條款約束,如果違反robots.txt文件抓取的作品可能構成侵權。二是簽訂授權協議或者通過著作權集體管理機構合法授權獲得的內容,通常難以做到百分百的準確授權,可能會出現超出授權范圍的侵權行為、或因授權方數據來源不正當等引發的侵權行為,如在筆神作文與學而思的糾紛中,筆神作文認為學而思通過‘爬蟲’技術非法訪問、緩存筆神作文APP服務器數據多達258萬次,違反了雙方數據授權相關的合同條款,包括“甲方(注:三體云聯公司)不得隨意泄露、使用、傳播或緩存乙方(注:一筆兩劃公司)服務接口中的作文范本及相關內容,否則造成的損失將由甲方全額賠償”、“甲方不得在未經乙方允許的情況下用于任何其他用途,包括緩存,存儲,作為語料進行計算,訓練等”2。
(二)大模型生成內容與原始作品過于相似引發的侵權風險
一是與他人作品存在“實質性相似”而直接侵犯了原有內容,如《紐約時報》起訴微軟、OpenAI的證明材料中顯示GPT-4輸出內容與紐約時報的原文,高度一致。二是相似內容可能會誤導公眾或混淆原始作品來源,而對原有內容造成市場擠占。如有著權人起訴Stability AI公司未經權利人許可、獲取與利用其版權作品作為Stable Diffusion的“訓練圖像”,導致數百萬權利人則因生成的“新”圖像對原作品交易市場的擠占而遭受損失。三是豐富的模型服務模式有可能繞過版權方的商業限制,如在《紐約時報》起訴微軟、OpenAI的證明材料中顯示必應搜索索引復制和分類《紐約時報》的在線內容,提供未經授權的詳細摘要。
國外大模型技術提供商正通過多種手段加強合規應對
(一)從訓練數據來源加強風險防范
一是確保訓練數據來自可信的、可靠的來源,包括權威機構、專業組織、可驗證的數據倉庫或其他公認的數據提供者等,如上海人工智能實驗室發布人工智能開放數據平臺OpenDataLab提供5500多個高質量數據集,上海數據交易所官網正式上線語料庫、累計掛牌近30個語料數據產品。二是多樣化訓練數據來源,在最新一項以Stable Diffusion等AI擴散生成模型為研究對象的實驗中,馬里蘭大學和紐約大學的聯合研究團隊指出,利用Stable Diffusion生成的內容與數據集作品相似度超過50%的可能性不足2%。三是規范使用爬蟲、OpenAPI等技術手段獲取訓練數據,尤其應重點評估爬蟲行為合規性、抓取數據行為是否破壞數據源所預設的技術防護措施等。四是盡量避免強版權性作品和數據的使用,如若無法避免、則應提前獲取合法有效授權、明確授權范圍,并在授權范圍內合規使用。
(二)在數據處理過程提高數據合規性
一是注重數據標注和清洗過程,包括經過培訓的專業人員進行,并且需要進行驗證和審核,以確保標注的正確性,去除重復項、噪聲數據和錯誤數據,通過數據脫敏、去標識化、數據掩碼等技術去除數據中的敏感信息。二是設置訓練數據退出機制。如谷歌Bard設置 “‘Bard活動記錄’開關”,為用戶提供自主選擇是否允許Bard收集存儲用戶數據的權利,同時設置“手動刪除”功能、方便用戶自由選擇保留和刪除何種數據;Stability AI允許權利人從后續發布的Stable Diffusion 3.0的訓練數據集中刪除自己的作品,版權人可在“Have I Been Trained”網站上找到自己的作品,選擇退出數據訓練集。
(三)加強模型內容輸出階段的合規性
在服務協議、用戶協議等文件中增加生成內容的權利歸屬約定、侵權責任承擔、使用限制等條款已成為大模型企業加強合規性、避免版權風險的常用方法。除此之外,還可通過以下三種途徑加強模型內容的合規性。一是利用版權過濾技術、相似度檢測技術等手段對模型輸出內容進行識別、審查和過濾等,如OpenAI使用GPT-4進行內容審核,在審核效果上GPT-4的標記質量與經過輕度訓練的人類審核員類似。二是建立敏感詞數據庫并預設“安全響應”或“針對性拒絕”等響應機制,防止生成并傳播敏感內容。例如,有研究者引入了一個敏感主題分類器來識別上下文的“政治”、“宗教”、“藥物”、“醫療建議”和“NSFW”的內容,當檢測到敏感主題時,會觸發預設響應3。三是建立內容侵權投訴反饋渠道,對于確定的侵權內容及時采取斷開鏈接、刪除、通知使用用戶等措施。
對國內大模型企業的啟示
(一) 注重治理組織和制度建設
一是響應《科技倫理審查辦法》,自建或委托第三方科技倫理審查委員會,對企業人工智能業務開展全生命周期開展倫理審查與自我監管。二是推進算法、數據、內容安全合規的制度化建設,包括對模型的輸入輸出內容進行審查、定期進行模型的合規性檢查、對數據采集的合規性審查等,三是面向企業內部開展版權合規、倫理通識的培訓宣傳。
(二)加大技術研發與資源投入
一是持續增加對大模型可信技術的研發投入,如數據清洗、增強模型可解釋性、模型內容自動化審核等。二是關注用戶反饋與需求,包括在模型服務或產品的協議中列明用戶數據用途、用戶數據退出機制、用戶反饋渠道等。三是加大對高質量、合規數據的資源投入,如豐富數據來源、加大數據授權、規范數據采集和處理等行為。
(三)增強外部溝通與合作
一是與政府和相關監管機構建立常態化對話與溝通機制,既是了解政策動向和監管要求,并為人工智能治理、知識產權等相關的政策、法律法規制定提供行業實踐和技術建議。二是與同行企業、學術研究機構、國際組織等共同研發可信AI、合規等技術標準,分享最佳實踐案例,協同應對潛在的技術、安全和倫理挑戰。三是定期發布包括模型的研發、應用、影響評估以及面臨的挑戰和解決方案等在內的責任報告、白皮書,或開展論壇和講座,提升企業人工智能治理、合規等方面的透明度,樹立企業負責任的品牌形象。