2026年3月24日 星期二

當AI開發者未主動公布模型訓練使用的資料集內容,要證明某個生成式AI模型使用某項內容訓練,是不可能任務。

著作權法學者章忠信教授的譬喻式評論,精準點出三個層次:

第一,目的正當不能免除手段合法。建立主權AI是國家安全與文化主權的正當目標,但這不構成無償使用著作權人內容的理由。正如賑災的善意不能轉化為強制米店免費供米的權力。即便制度設計有公共利益考量,仍必須對著作權人提供合理補償。

第二,「一年數百萬」凸顯了交易成本問題。對AI開發者而言,逐一與著作權人洽談授權,不僅耗時且費用高昂。這正是本備忘錄建議建立集體授權分潤機制的核心理由——透過集管團體降低個別談判成本,讓「買米」的過程更有效率,而非因為嫌貴就改成偷米。

第三,「知識有價」是著作權法的基本命題。AI開發商取得的不是無生命的原物料,而是凝聚了人類創作者智識、心血與獨創性的作品。如果允許無償使用這些內容訓練AI模型,再由AI生成與原作品競爭的內容,實質上是對創作者經濟利益的系統性剝奪。

傳統著作權侵權訴訟中,原告(著作權人)必須證明:(1)被告接觸過原作品(access);(2)被告作品與原作品具實質近似性(substantial similarity)。在傳統情境下,接觸的舉證相對容易——被告買了書、訂了報、看過電影,通常有跡可循。

但在AI訓練的情境下,這個舉證結構完全崩塌:

第一,AI模型是黑箱。 訓練完成後,原始訓練資料已被轉化為模型參數(數十億至數兆個浮點數),無法從模型輸出直接反推使用了哪些特定作品。這不是「技術門檻高」的問題,而是在物理上近乎不可能的舉證要求。

第二,例如,當使用者以ChatGPT或其他AI工具生成明顯具有吉卜力畫風的角色時,任何人用肉眼都能看出AI「學過」吉卜力的作品。但在現行舉證責任架構下,吉卜力公司若要提起侵權訴訟,必須證明AI開發商確實以其特定受著作權保護之作品進行訓練——而在AI開發商不公開訓練資料集的情況下,吉卜力根本無從取得這個證據。「風格」本身不受著作權保護,所以即便AI輸出與吉卜力風格高度相似,也不能直接推論侵權。結果就是:人人都知道AI用了你的作品,但你就是告不成。

第三,這是制度性的不對等,不是偶然的技術困難。 AI開發商掌握了所有關於訓練資料集的資訊,著作權人掌握零資訊。當法律把舉證責任放在零資訊的一方,實質上等於剝奪了著作權人的訴訟救濟權。這不是「一定的技術門檻」——這是制度性的結構失衡。

報導者報導:https://www.twreporter.org/a/taiwan-sovereign-ai-zhtw-llm-copyright-conflict

員外要賑粥救災,也要花錢買米,不能要米店老闆免費相挺。
要建立主權AI,也不能慷他人之慨,知識有價,一年數百萬,不是小數目。