
本文的首位作者是新加坡南南技术大学的博士后研究员李·伊明(Li Yiming),以及惠江大学区块链和数据安全国家密钥实验室的医生Shao Shuo。与智格大学的Li Yiming博士和Qin Zhan教授相对应。其他作者包括牛津大学教授菲利普·托尔(Philip Torr),以及措辞计算机科学技术学院院长伦库(Ren Kui)教授。您是否记得发送给AI助手的代码或报告会让您成为下一个泄漏新闻的对手?还是您在网上发布的一幅画,这将是一幅大规模的AI绘画,用于商业盈利能力?这不是警报声明,而是每个AI用户和从业者可能发生的风险。在2023年,三星员工发现聊天的机密资源代码。同年,意大利数据保护机构也停止使用Chatgpt,因为EY担心当地居民将用于海外培训。随着AI开发的全部知名度,越来越多的用户使用AI,并依靠AI在日常工作和生活中。这些真实的事件在AI浪潮中为每个用户和从业者发出警报。它显示了一个深刻的变化:在AI期间,尤其是生成AI时期,数据不再是硬盘上的静态文件,而是整个训练,推理和生成的训练周期中的“液体”。传统的数据保护方法(例如文件,防火墙等)无法应对AI场景中的数据保护挑战。伪造者和实用AIS,必须立即建立一个新的认知框架,以便在生成AI期间完全了解数据保护问题并应对数据保护挑战。在(一般)人工智能时代,当我们谈论数据保护时,我们会谈论什么?为了回答这个问题,郑大学国家的研究人员Al区块链实验室和数据,真实的技术大学,马里兰州大学,IBM,Helmholtz信息安全中心和牛津大学最近发表了一篇持续的论文“重新考虑(生成的)人工智能时代的数据保护(生成)人工智能时代”,旨在为科学和科学的科学和技术问题提供有关科学和技术问题的新型和系统性的现象,这些问题与MMGA有关的问题和洞察力问题,这些问题与MMGA有关,这些问题和洞察力涉及MGA的问题,这些问题和洞察力涉及MGA的问题,这些问题和跨越了MMGA的知识,这些问题和跨越通过易于理解的语言,在人工智能观点中对科学问题感知的问题。论文标题:(形成)Artistical Intelligence ERA链接的重新考虑数据保护:http://arxiv.org/abs/2507.03034在生成人工智能期间需要保护哪些数据?在生成人工智能期间,数据保护的范围比传统的静态数据保护范围更重要,而不是保护DI在以生命生活的整个循环中,培训数据集,人工积分数据模型,集成数据扩展,用户输入和智能合成的整个周期中的数据类型。培训培训:在模型开发过程中,需要大量的高质量培训数据库作为模型培训的“燃料”。培训数据集通常是从许多不同的数据源中收集的,因此可能包含隐私或版权数据。人工智能模型:人工智能模型,包括建筑设置和模型权重,在完成模型培训后成为非常重要的数据所有者。这些模型是大量数据的压缩和凝结。它们不仅具有大量的应用量,而且预先训练的模型参数也可以帮助快速开发流量的其他流程模型,并且在行业中具有更多的链条。部署集成数据:除手工l智能模型,在模型的模型阶段,当前的人工智能应用程序将引入一些其他辅助数据,以改善实际应用中AI模型的性能和证明。两个最受欢迎的示例是单词和外部数据库的提示。系统提示可以为生成人工智能模型提供统一的,预定的指令和上下文,这些指令和上下文用于指导模型产生与人类价值或特定样式更一致的响应;尽管外部数据库被广泛用于获取和增强的世代,并且通过提供更新,更及时,更专业的信息来开发AI,但一代一代内容的准确性在没有更改模型的情况下提高了。 Gumagamit的输入:在模型的推理阶段,用户的输入信息也是需要轻松保护的重要部分。用于隐私,安全和道德原因,保护这些即时数据很重要。例如,从隐私角度来看,用户查询中包含的任何个人信息(例如名称,地址,健康详细信息等)都必须遵守数据保护法,并满足用户对隐私的期望。商业秘密也有风险 - 例如,员工使用AI的编程助手,并将专有法规作为信号输入。如果AI服务保持了这样的意见,则可能导致商业秘密意外泄漏。人工智能合成内容(AIGC):最终数据类型是AI合成内容。 SA不断改进AI的生成能力,AI合成内容达到了很高的质量,并且人类创造的内容的差距越来越小。此外,AI合成内容也可用于创建大型合成数据大小,这对于进一步开发AI模型和其他过程也具有重要价值。我们如何保护t期间的数据他发展人工智能?为了系统地对AI期间的数据保护问题进行建模,本文提出了一个新的数据保护层次结构系统,将数据保护的目标从强到弱到弱分为四类:数据不可用,数据隐私保护,数据监视和数据删除。分类方法旨在平衡“数据实用程序”和“数据控制”之间的UUGANBET,为复杂的数据保护问题提供结构化解决方案,然后指导从业者和监管者找到更好的实用程序 - 基于实际条件的控制平衡。第1级。数据非利用:无可用性的数据是指阻止数据在培训或识别AI模型的过程中使用的引言。即使获得了攻击,该数据也不会对模型的研究或猜测产生积极影响。不可用的数据是数据保护的最高水平,用于牺牲EF数据的纤维性以换取全面保护。第2级。数据隐私保护:数据隐私保护旨在保护数据隐私组件并防止在收集过程和推理模型中分散的个人隐私信息(例如年龄,性别,性别,地址等)。与1级相比,数据隐私保护保持一定程度的数据可用性,但这是强大的数据保护级别。第3级。数据可追溯性:数据可追溯性是指在使用数据开发和应用AI模型时监视数据资源,数据使用情况和数据更改的能力。此功能为AI应用程序中的数据使用提供了调节器或数据拥有的数据,从而防止了错误的数据使用情况。实施数据监视通常仅需要数据上的较小更改,甚至没有更改,因此它可以维持数据的可用性。第4级。删除数据:数据将数据删除到完全d的能力Elete A数据或其对AI应用程序的影响,这也是许多数据法规(例如欧盟GDPR)中设定的“忘记权利”。删除数据允许开发人员在不需要或许可恢复数据时消除对较低开销的影响。数据删除为AI应用程序开发人员提供了完整的数据可用性,但仅在数据使用阶段提供较弱的数据保护。实际的重要性和未来挑战本文提出的数据保护系统还为理解现有技术并进一步促进当前的全球法规并应对未来挑战提供了重要的新兴见解。对现有技术的设计概念的分析数据保护:本文还介绍了一系列设计概念和相应的技术代表,以实现高四个保护层的保护,为应用现有方法的应用提供了单一的前景和框架和S的设计UB后期方法。审查全球法规和管理:本文列出了对全球代表性国家和地区的数据保护的当前法律和法规,使用层次模型的新“规则”来审查现有的管理计划,并研究不同地区管理管理的特征,偏好和缺点。关于数据保护和边界挑战的进一步讨论:除了审查当前的管理趋势外,本文还将进一步讨论Thedata保护的跨学科含义,并教授切割数据保护的一些挑战。与数据安全相比,数据保护:数据安全旨在保护数据内容并防止潜在有害的偏见内容。在AI期间,数据安全性和数据保护更接近链接,保护弱点会导致严重的安全性和相反的问题。 AI合成(AIGC)内容带来的新挑战:AI合成con帐篷随着新的管理挑战而增加。例如,许多国家和地区由于缺乏创造性元素而拒绝授予AI内容版权,这导致了颜色颜色的区域,用于使用和管理AI合成内容。与将AIGC视为简单内容本身不同,Proteks的观点数据具有更复杂的性能。当AIGC本身用作数据时,版权状态变得更加复杂,例如用于培训新模型,知识努力或输入以寻求改进的生成系统的合成数据。用于训练生成模型的原始数据的版权(或版权缺陷)会影响合成数据的版权状态吗?如果该模型从具有版权的数据中汲取知识,则形成的训练模型(作为这些数据中包含的信息的紧凑表示)或与-class限制生成的数据?这些误解涉及数据的基本定义版权:数据版权o与数据内容的“直接表达”相关联,还是可以进一步扩展到那些明确捕获和传输模型的潮流,样式和知识? AI模型(尤其是生成模型)的潜在风险“粉饰有关AIGC的新颖和未受保护的内容的受版权保护的信息也是一个重要的问题,它是正确的关注。跨国数据治理的困难:工业链和系统的性质是全球化的 - Datos是全球化的 - 可以在海外的Datos,并最终提供全球服务。