AI模型遭克隆：攻击者超10万次提示Gemini，谷歌发布威胁报告

当构建一个顶尖的AI大模型需要耗费数十亿美元和数年时间时，是否有人能找到一条“捷径”？谷歌最新发布的一份威胁情报报告，为我们揭开了这条灰色捷径的面纱——通过海量提示“榨取”模型知识。报告披露，具有商业动机的攻击者曾在一个会话中，对其Gemini大语言模型进行了超过10万次提示，旨在收集其输出，以训练一个更廉价的山寨版本。这起事件不仅暴露了前沿AI模型面临的新型安全威胁，更将“模型蒸馏”这一技术推向了伦理与法律的争议中心。

核心看点
新型攻击手法：攻击者利用“模型蒸馏”技术，通过海量、定向的提示，从Gemini等顶级模型中提取知识，以极低成本克隆其核心能力。
谷歌的防御与困境：谷歌将此行为定性为“模型提取”和知识产权盗窃，并调整了防御措施，但其自身训练数据来源的争议性也让这一立场显得微妙。
行业普遍难题：从OpenAI指控DeepSeek，到Meta的LLaMA权重泄露后被广泛使用，“蒸馏”已成为行业公开的秘密，但合法与非法的边界依然模糊，亟待法律界定。

何为“模型蒸馏”？低成本克隆AI的灰色捷径

在AI模型开发领域，“模型蒸馏”通常指利用一个大型、高性能模型（教师模型）的输出，来训练一个更小、更高效的模型（学生模型）。这项技术本身并非原罪，它常被用于模型压缩和部署优化。然而，当这项技术被用于未经授权地复制竞争对手的专有模型时，便滑向了“模型提取”或“知识产权盗窃”的灰色地带。

谷歌在报告中详细描述了这一攻击过程：攻击者向Gemini模型提交数以万计精心设计的提示，这些提示可能覆盖多种非英语语言，并特别针对模型进行模拟推理（Chain-of-Thought）任务的算法。通过收集这些输入-输出配对，攻击者便能利用这些数据训练出一个行为与Gemini高度相似、但体量和成本大幅降低的克隆模型。

这个过程可以形象地理解为：一位美食家通过反复点遍餐厅菜单上的所有菜品，仅凭品尝和观察，试图反向推导出主厨的独家秘方。克隆模型从未接触过Gemini的原始代码或训练数据，但它通过“品尝”足够多的“成品”，学会了模仿其风味。

谷歌的指控与自身的“原罪”

谷歌将这种活动称为“模型提取”，并明确视其为对其知识产权的盗窃。公司认为，幕后黑手主要是寻求竞争优势的私营公司和研究人员，攻击源遍布全球。尽管谷歌声称已识别出这次超10万次的提示攻击活动并加强了Gemini的防御，但并未透露具体采取了何种反制措施。

然而，谷歌在这一问题上的立场并非无懈可击。科技媒体指出，谷歌发布此类季度自我评估报告，常将自己同时塑造为受害者和英雄。一个关键的矛盾点在于：谷歌自身的大语言模型（包括Gemini的前身）正是通过未经许可抓取互联网上海量数据训练而成。此外，有报道称，谷歌内部的Bard团队也曾被指控使用来自ShareGPT（一个用户分享与ChatGPT对话的网站）的数据来帮助训练自己的聊天机器人，这甚至导致了一位资深研究员因抗议而离职。尽管谷歌否认了相关指控，但这段历史使其在指责他人“提取”数据时，显得有些底气不足。

行业乱象：从GPT-3到DeepSeek，蒸馏已成公开秘密

谷歌并非唯一担忧模型蒸馏威胁的公司。整个AI行业都深陷这一困局。早在GPT-3时代，竞争者就已开始使用蒸馏技术来克隆大语言模型的能力。ChatGPT发布后，迅速成为最受欢迎的“被克隆”目标之一。

一个标志性事件发生在2025年，OpenAI公开指控其中国竞争对手DeepSeek使用了蒸馏技术来提升自身模型性能。这一指控虽未得到法律最终裁定，却像一枚炸弹，让“蒸馏”作为一种从大型模型快速构建更廉价、更小模型的“标准”方法，在行业内迅速传播开来。

更早的2023年，当Meta的LLaMA模型权重泄露到网上后，斯坦福大学的研究团队很快便基于此开发出了Alpaca模型，这同样是蒸馏思想的一种体现。这些案例清晰地表明，蒸馏与盗窃之间的界限，完全取决于你蒸馏的是谁的模型，以及你是否获得了许可。科技公司已投入数十亿美元试图保护这条界限，但尚未有法庭对此进行过明确的司法测试。

AI安全与知识产权：一场没有硝烟的持久战

此次事件凸显了AI时代安全与知识产权保护的全新维度。传统的网络安全侧重于防止数据泄露或服务中断，而AI模型安全则需防范其核心智能被“萃取”和复制。攻击者不再需要窃取源代码或数据库，只需通过API接口进行大规模、系统性的交互，就有可能窃取模型的核心能力。

这对行业产生了深远影响：

技术壁垒被削弱：高昂的研发投入所建立的技术优势，可能通过“蒸馏”捷径被快速追平，这可能打击头部公司进行基础性创新的积极性。
催生新型防御技术：模型提供方需要开发更先进的检测机制，以识别和阻断旨在提取知识的异常提示模式，这可能包括输出扰动、提示频率限制、内容水印等技术。
法律与伦理框架亟待建立：当前法律体系对于“模型输出”是否构成受保护的知识产权、何种程度的模仿构成侵权等问题尚无定论。建立全球性的AI模型使用与伦理准则迫在眉睫。
开源与闭源的再权衡：完全闭源的模型面临被提取的风险，而完全开源则可能丧失商业优势。未来，如何在可控范围内开放部分能力（如通过API），同时保护核心参数，将成为商业模式设计的关键。

结语：在创新与保护的钢丝上行走

超10万次提示攻击Gemini的事件，如同一面镜子，映照出AI行业在狂飙突进后面临的复杂现实。模型蒸馏这把双刃剑，既是技术创新的催化剂，也可能成为知识产权侵权的帮凶。谷歌的报告敲响了警钟，但解决方案不能仅靠单方面的技术防御或道德指责。

未来的路径需要在技术创新、商业竞争、安全防护与法律规范之间寻找艰难的平衡。行业参与者、政策制定者和法律界需要共同合作，为这个“克隆时代”的AI发展划定清晰的跑道，确保这场智力竞赛既充满活力，又能在基本的规则与秩序下进行，最终推动人工智能技术健康、可持续地造福社会。

原文链接：Attackers prompted Gemini over 100,000 times while trying to clone it, Google says

何为“模型蒸馏”？低成本克隆AI的灰色捷径#

谷歌的指控与自身的“原罪”#

行业乱象：从GPT-3到DeepSeek，蒸馏已成公开秘密#

AI安全与知识产权：一场没有硝烟的持久战#

结语：在创新与保护的钢丝上行走#

何为“模型蒸馏”？低成本克隆AI的灰色捷径

谷歌的指控与自身的“原罪”

行业乱象：从GPT-3到DeepSeek，蒸馏已成公开秘密

AI安全与知识产权：一场没有硝烟的持久战

结语：在创新与保护的钢丝上行走