AI訓練資料著作權引爆!中央社為何提告台大博士生?

AI訓練資料惹議:台大博士生被中央社提告,這場著作權風暴為何襲來?

嗨,各位對AI發展或媒體生態有興趣的朋友們!最近台灣科技圈和法律界發生了一件大事,讓我這個長期關注數位議題的人也覺得非常有感。簡單來說,就是一位台大博士生因為分享了一個包含大量中央社新聞內容的AI訓練資料集,結果被中央社提告了!這聽起來好像是學術界的小風波,但實際上,它揭示了在AI爆炸性發展的今天,一個超級棘手的全球性難題:AI訓練資料的著作權到底該怎麼辦?

過去一年多,大家都被ChatGPT、Gemini這些生成式AI震撼到了,它們能寫文章、寫程式、甚至生成圖片,背後強大的能力來自於龐大的訓練資料。但這些資料從哪來?很多都是從網路上抓取的公開內容。新聞報導、部落格文章、論壇討論、維基百科… 這些內容當然都有創作者的心血,也就享有著作權。當這些內容被拿去「餵」給AI學習,到底算不算合理使用?原創者應不應該獲得報酬?這就是這次事件的核心,也是我在研究這個議題時,覺得最耐人尋味的地方。

moneta markets

事件回溯:一個分享動作引發的法律戰

事情是這樣的,一位台大博士生在GitHub上分享了一個名為「fineweb-zhtw」的繁體中文AI訓練資料集。這個資料集是基於一個叫做Common Crawl的大型網路爬蟲專案數據,經過整理過濾後,希望能為繁體中文的AI模型提供更好的訓練資源。立意聽起來不錯,畢竟高品質的繁體中文語料對台灣發展在地化AI模型非常重要。

但問題就出在,這個資料集裡包含了從2011年到2021年大約14萬筆的中央社新聞內容。中央社是台灣的國家通訊社,他們的新聞內容是有明確著作權的。中央社發現自家的「心血結晶」未經授權就被包含在這個公開分享的資料集裡,而且據說無法聯繫到分享者要求下架,於是決定採取法律行動,對這位台大博士生提起了刑事告訴。博士生收到通知後,已經火速刪除了相關貼文,並表示會配合調查。

這件事馬上在網路論壇、社群媒體上引起了軒然大波。很多人都覺得意外,怎麼會是提告一個學術背景的個人?

AI資料集、著作權糾紛,這盤棋複雜得很

這起事件絕不是單一孤立的著作權侵權案那麼簡單,它是AI時代衝擊現有著作權法規的一個縮影。我認為可以從幾個角度來看待這件事。

中央社的堅持:捍衛新聞專業與產業價值

從中央社的角度來看,他們的立場非常堅定且合情合理。新聞採訪、寫作、編輯,都是記者們投入時間、專業知識和精力的勞動成果。這些新聞報導不僅僅是文字,更承載著媒體的功能,為社會提供資訊。這些內容享有著作權,是媒體機構賴以生存和發展的基礎。想像一下,如果大家都可以隨意取用媒體產製的內容去訓練AI,而媒體得不到任何回饋,那誰還有動力去投入成本做深度報導呢?

中央社也說明了他們提告的原因,是因為無法聯繫到公開這個資料集的人,無法要求下架侵權內容。這也反映了在網路世界追蹤源頭的難度。此外,中央社在這件事上也連結到了他們長期推動的「媒體議價法」議題。這項法案的核心精神,就是希望數位平台(如Google、Meta)在使用媒體新聞內容時,能與媒體機構進行議價,建立一個公平的合作模式,讓媒體能從平台的使用中獲得合理的分潤,維持媒體產業的健全發展。這起事件,可以說是中央社在數位環境下,為捍衛自身內容價值和爭取產業權益所打的一場硬仗。

網路社群的質疑:矛頭該指向誰?

這起提告事件出來後,網路上的討論非常熱烈,其中一個主要的聲音就是質疑中央社「抓錯人」了。很多網友認為,這個資料集是基於Common Crawl這個大型爬蟲專案的數據,而分享資料集的博士生只是對數據進行了整理和篩選。真正的大規模抓取行為是Common Crawl做的,或者是像Hugging Face這樣提供資料集分享平台的角色,是不是更應該被追究責任?

這確實點出了問題的複雜性。在AI訓練資料的獲取鏈條上,有負責大規模抓取原始數據的(Common Crawl),有負責整理、過濾、發布資料集的(像這位博士生或平台),還有最終使用資料集訓練模型的開發者或公司。著作權的責任應該如何分配?目前全球法律界對此都還在摸索。有些法律學者認為,AI訓練可能構成合理使用(Fair Use),特別是當資料是為了學習語言模式而不是直接複製貼上內容時。但也有人認為,即便只是「讀取」內容供AI學習,依然使用了受著作權保護的作品,應該取得授權。

此外,也有討論區分營利和非營利用途。學術研究或個人學習目的的資料使用,是否應享有更寬鬆的標準?然而,這次的事件似乎顯示,即使是學術分享,只要包含了未經授權的著作權內容並公開散布,依然可能面臨法律風險。這讓我想到,在數位時代,界定「公開分享」和「散布」的界線變得越來越模糊,一個點擊「發布」的動作,可能就意味著法律責任。

AI訓練資料著作權爭議圖片

政府的兩難與「台灣隊」的語料庫計畫

這起事件也把數位發展部推到了風口浪尖。作為負責推動台灣數位轉型和發展的部門,數發部在AI發展與著作權保護之間,確實面臨一個巨大的兩難。

數位部的雙重挑戰:創新與保護如何兼顧?

數發部政務次長林宜敬在事件發生後也對外說明了這個困境。一方面,台灣希望發展自己的AI模型,尤其是能理解繁體中文語境、具備「台灣觀點」的模型。這需要大量的繁體中文資料進行訓練。另一方面,數發部也有責任保護創作者的著作權,包括新聞媒體的內容。如果放任AI模型隨意抓取未經授權的內容進行訓練,那會對台灣的內容產業造成傷害。

林次長也點出了目前繁體中文AI發展面臨的現實問題:相較於簡體中文語料的豐富且著作權風險相對較低(至少在中國大陸的使用環境下),高品質、乾淨且合法的繁體中文語料非常稀缺。很多大型AI模型在訓練時,可能主要使用了大量簡體中文資料,這也是為什麼有時候你會感覺AI說話或理解時帶有「中國味」。

籌建「台灣主權AI訓練語料庫」

為了解決這個問題,數發部其實已經在積極規劃建立一個「台灣主權AI訓練語料庫」。這個計畫的目標是透過與政府機關、學術單位、甚至可能與媒體或內容業者合作,蒐集、整理並授權取得合法的繁體中文資料,建立一個屬於台灣、且可用於AI訓練的乾淨語料庫。這有點像是建立一個「台灣AI的國家級糧倉」。

我的理解是,這個語料庫如果能順利建成並普及使用,未來台灣的AI研究者或企業在開發模型時,就能使用這些「正版」的資料進行訓練,降低法律風險,同時也能訓練出更貼近台灣文化和語境的AI模型。這聽起來很有希望,但實際執行上,如何取得足夠多樣化、高品質的資料,以及如何與擁有大量內容的媒體或企業談妥授權條件,都將是巨大的挑戰。這次中央社提告事件,或許會加速各界對於這個語料庫計畫的討論和推動。

這件事對你我有什麼啟示?個人使用者與未來趨勢

這起事件也給我們這些普通使用者、或者對AI有興趣的開發者敲響了警鐘。

製作或分享AI資料集的法律風險

如果你是學生、研究人員,或者只是個對AI充滿熱情的業餘開發者,過去可能覺得從網路上抓取公開數據、整理成資料集、然後在GitHub等平台分享,是個很平常的學習或貢獻開源社區的行為。但這次的事件告訴我們,即使是非營利、學術目的,如果資料集裡包含了未經授權的著作權內容,你依然可能面臨法律訴訟的風險。這是我們在處理、分享數據時必須高度警惕的地方。

我的個人看法是,這並不是說所有開源分享都是危險的,而是要更謹慎地檢視資料來源的合法性。如果使用了爬蟲工具,要了解爬取的對象網站是否有使用條款限制;如果整理現有的資料集,要確認原始資料集是否已經處理了著作權問題。在目前法律尚未完全明確的情況下,保守一點總是好的。

平衡AI創新與智慧財產權保護

這是一個全球性的難題,不只在台灣發生。美國、歐洲等地的內容創作者、媒體、藝術家,也都在向AI公司爭取權益,要求為其內容被用於AI訓練支付報酬,或者要求AI生成的內容標明來源。這背後是兩種價值觀的衝突:一方認為數據是新的石油,應該盡可能自由流動,促進創新;另一方認為創作是智慧財產,必須受到保護,否則將扼殺內容產業的生機。

AI與著作權平衡圖片

我認為,未來不會是某一方完全勝利,而是在兩者之間找到一個平衡點。可能會出現新的授權模式,讓AI公司可以合法地使用內容,同時內容創作者也能因此獲得回饋。媒體議價法就是一種可能的模式。或許還會出現專門提供「AI友好」且已獲授權的資料平台。對於我們普通人來說,了解這些趨勢,意識到數據背後的價值和權利,是非常重要的。

市場與趨勢:如何在變局中找到機會?

從財經和市場的角度來看,這場AI與著作權的角力,也正在重塑一些產業板塊。擁有大量高品質、獨特內容的媒體或數據公司,其內容的價值可能會因為AI訓練需求而提升。提供合法資料授權服務的公司可能會興起。AI技術公司的估值也會受到它們如何解決資料合法性問題的影響。

對於關注全球市場的投資者來說,理解這些技術、法律和產業之間的互動非常重要。市場動態瞬息萬變,與其被動接受,不如主動探索。這讓我想起Moneta Markets 億匯這樣的平台,它提供了接觸外匯、股票、大宗商品等多元化金融工具的機會。雖然AI訓練資料的著作權爭議聽起來離金融市場很遠,但它影響著科技公司的發展、內容產業的未來,這些都是構成整體市場生態的重要部分。透過像Moneta Markets 億匯這樣受到良好監管的平台,我們可以觀察和參與全球市場的波動,無論是對大型科技股的表現,還是對可能受到新政策或技術變革影響的產業,都能有更靈活的佈局方式。當然,任何投資都有風險,了解市場、選擇合適的平台和工具,是參與其中的關鍵。

結語:一場等待解方的數位挑戰

台大博士生因分享AI訓練資料遭中央社提告事件,是台灣在AI浪潮下遭遇的第一個重大著作權衝突案例,它生動地展示了現行法律框架在應對生成式AI時的不足,也凸顯了高品質、合法繁體中文數據的稀缺性與重要性。

這場風暴不是指向個人,而是整個社會在摸索如何在鼓勵技術創新的同時,有效保護內容創作者權益的必經之路。政府的語料庫計畫、媒體對議價權的爭取、學術界和開發者對數據使用規範的討論,這些都指向同一個目標:在數位時代找到一個可持續、公平且鼓勵創造的生態系統。

未來,我們需要法律界提供更清晰的指引,技術界開發更好的授權和追溯工具,以及各界共同協商出新的商業模式。這是一場複雜但至關重要的對話,它將決定AI的發展方向,以及我們每個人的數位足跡和創作價值在未來世界中如何被看待和尊重。

AI未來發展圖片

FAQ


爭議面向 核心問題 本案體現
AI訓練資料來源 AI訓練應使用哪些資料?如何取得合法內容? 使用大規模爬取的網路數據(Common Crawl),包含大量受著作權保護的新聞內容。
著作權與合理使用 將受著作權保護的內容用於AI訓練是否構成侵權?合理使用的界線何在? 中央社主張其新聞內容用於AI訓練資料集是未經授權的侵權行為。
責任歸屬 在數據獲取、整理、分享、使用的鏈條中,誰應為侵權負責? 中央社提告資料集的分享者,引發網友對上游爬蟲專案或開源平台責任的討論。
媒體產業轉型 媒體內容被AI使用後,如何確保媒體的權益與永續經營? 中央社連結事件至媒體議價法,強調爭取與數位平台公平合作、維護內容價值的必要性。
政策與政府角色 政府如何平衡AI創新與著作權保護?如何提供合法、高品質的AI訓練基礎設施? 數發部坦承面臨兩難,並加速推動建立「台灣主權AI訓練語料庫」。
個人與學術風險 個人或學術研究在處理AI資料時應注意什麼? 即使學術分享,包含未經授權內容並公開可能面臨法律風險,提示個人需謹慎。

發佈留言