陳宜誠律師暨專利代理人 Vincent Chen, Attorney-At-Law & Patent Agent: 當AI開發者未主動公布模型訓練使用的資料集內容，要證明某個生成式AI模型使用某項內容訓練，是不可能任務。

2026年3月24日星期二

當AI開發者未主動公布模型訓練使用的資料集內容，要證明某個生成式AI模型使用某項內容訓練，是不可能任務。

著作權法學者章忠信教授的譬喻式評論，精準點出三個層次：

第一，目的正當不能免除手段合法。建立主權AI是國家安全與文化主權的正當目標，但這不構成無償使用著作權人內容的理由。正如賑災的善意不能轉化為強制米店免費供米的權力。即便制度設計有公共利益考量，仍必須對著作權人提供合理補償。

第二，「一年數百萬」凸顯了交易成本問題。對AI開發者而言，逐一與著作權人洽談授權，不僅耗時且費用高昂。這正是本備忘錄建議建立集體授權分潤機制的核心理由——透過集管團體降低個別談判成本，讓「買米」的過程更有效率，而非因為嫌貴就改成偷米。

第三，「知識有價」是著作權法的基本命題。AI開發商取得的不是無生命的原物料，而是凝聚了人類創作者智識、心血與獨創性的作品。如果允許無償使用這些內容訓練AI模型，再由AI生成與原作品競爭的內容，實質上是對創作者經濟利益的系統性剝奪。

傳統著作權侵權訴訟中，原告（著作權人）必須證明：（1）被告接觸過原作品（access）；（2）被告作品與原作品具實質近似性（substantial similarity）。在傳統情境下，接觸的舉證相對容易——被告買了書、訂了報、看過電影，通常有跡可循。

但在AI訓練的情境下，這個舉證結構完全崩塌：

第一，AI模型是黑箱。訓練完成後，原始訓練資料已被轉化為模型參數（數十億至數兆個浮點數），無法從模型輸出直接反推使用了哪些特定作品。這不是「技術門檻高」的問題，而是在物理上近乎不可能的舉證要求。

第二，例如，當使用者以ChatGPT或其他AI工具生成明顯具有吉卜力畫風的角色時，任何人用肉眼都能看出AI「學過」吉卜力的作品。但在現行舉證責任架構下，吉卜力公司若要提起侵權訴訟，必須證明AI開發商確實以其特定受著作權保護之作品進行訓練——而在AI開發商不公開訓練資料集的情況下，吉卜力根本無從取得這個證據。「風格」本身不受著作權保護，所以即便AI輸出與吉卜力風格高度相似，也不能直接推論侵權。結果就是：人人都知道AI用了你的作品，但你就是告不成。

第三，這是制度性的不對等，不是偶然的技術困難。 AI開發商掌握了所有關於訓練資料集的資訊，著作權人掌握零資訊。當法律把舉證責任放在零資訊的一方，實質上等於剝奪了著作權人的訴訟救濟權。這不是「一定的技術門檻」——這是制度性的結構失衡。

報導者報導：https://www.twreporter.org/a/taiwan-sovereign-ai-zhtw-llm-copyright-conflict