创新工场给数据“下毒”以 破解“AI黑客”,论文入选顶会NeurIPS

AI报告4天前我要分享

9月4日,NeurIPS 2019公布了论文清单,并列出了创新工场人工智能工程研究所的论文。论文的全名是《“深度困惑:一种利用自编码器生成恶意训练样本的方法”》(《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》)。

NeurIPS是神经信息处理系统的会议和研讨会,自1987年诞生以来已经存在了32年。它一直受到学术界和工业界的高度重视,是一个机器学习和神经网络。该领域的顶级会议之一。

本文选取的三位作者是:南京国际人工智能研究所执行院长,南京国际人工智能研究所创新研究所院长,蔡启智,南京大学人工智能学院院长周志华。

在谈到“数据中毒”研究的目的时,本文第一作者,南京国际人工智能研究所执行主任冯伟表示,该研究旨在对人工智能的安全性进行技术评估。系统,假设数据库是如果恶意篡改,相应的系统将被破坏。同时,也希望呼吁关注这个问题。

为此,本文创造性地提出了一种有效生成反训练样本DeepConfuse的方法,通过弱扰数据库来完全破坏相应学习系统的性能,达到“数据中毒”的目的。

为顶级会议Neurop选择了创新的研讨会“数据中毒”论文

近年来,机器学习的热度不断上升,各种问题在不同的应用领域得到了解决。然而,很少有人意识到机器学习本身也容易受到攻击,而且该模型不是想象的、不可摧毁的。

例如,在训练(学习阶段)和预测(推理阶段)两个过程中,机器学习模型容易受到对手的攻击,攻击手段也多种多样。

为此,创新工场人工智能工程研究院成立了人工智能安全实验室,对人工智能系统的安全性进行深入评估和研究。

《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》本文的主要贡献是提出了一种最先进的有效生成对抗训练数据的方法。深度混淆。

如何实现“数据中毒”?

深度混淆的操作是:通过对神经网络的劫持过程,教会噪声发生器向训练样本添加有界干扰,使得训练样本训练的机器学习模型可以在测试样本面前被推广。尽可能糟糕的是,数据被巧妙地毒害了。

顾名思义,“数据中毒”是指训练数据“中毒”。具体的攻击策略是通过干扰模型的训练过程影响模型的完整性,进而影响模型后续预测过程的偏差。

值得注意的是,“数据中毒”是一种不同于普通“反样本攻击”的攻击方法。它们存在于不同的威胁场景中:前者假设模型是固定的,而模型是通过修改训练数据而“中毒”的。后者通过修改要测试的样本来“欺骗”模型。以往的研究对样本攻击做了大量的工作,但对数据中毒技术的研究还不够。

例如,如果从事机器人视觉技术开发的公司想要训练机器人识别现实场景中的物体,人物,车辆等,则无意中被黑客攻击使用纸张中提到的方法来篡改培训数据。

在视觉检查训练数据时,研发人员通常不会察觉异常(因为使数据“中毒”的噪声数据难以在图像级别被视觉识别),训练过程一如既往地顺利进行。然而,此时训练的深度学习模型在泛化能力方面将大大降低。由这样的模型驱动的机器人将在真实场景中完全“圈”,并陷入无法识别的尴尬境地。

更重要的是,攻击者还可以仔细调整“中毒”中使用的噪声数据,以便训练有素的机器人视觉模型“故意承认”某些东西,例如将障碍物识别为路径,或将危险场景标记为安全场景,等。

为了实现这一目标,本文设计了一种自编码神经网络DeepConfuse,它可以产生抗噪声,通过观察假设分类器的训练过程来更新自身的权重,并产生“有毒”噪声,从而使受害分类器带来最低的泛化效率,这个过程可以简化为具有非线性等式约束的非凸优化问题。

“中毒”有什么影响?

从实验数据可以看出,在MNIST,CIFAR-10和IMAGENET的简化版本的不同数据集中,由“未中毒”训练数据集和“中毒”训练数据集训练的系统模型是用于分类准确性。它有很大的不同,效果非常可观。

同时,从实验结果来看,这种方法产生的抗噪声是通用的,甚至在非神经网络上也是如此,例如随机森林和支持向量机。 (其中蓝色是使用“未中毒”训练数据训练模型的测试性能,橙色是使用“中毒”训练数据训练模型的广义能力的测试表现)

CIFAR和IMAGENET数据集上的性能具有相似的效果,这证明了该方法生成的反训练样本在不同的网络结构中具有高移动性。

此外,本文提出的方法可以有效地扩展到特定标签的情况,也就是说,攻击者希望通过一些预先规定的规则对模型进行分类,例如将“猫”分类为“狗”并让其进行分类。模型跟随攻击。计划,方向是错误的。

例如,下图显示了MINIST数据集上不同场景中测试集上的混淆矩阵的性能,它们是干净的训练数据集,没有特定标记的训练数据集,以及具有特定标记的训练数据集。

实验结果有力地证明了相应设置对于具有特定标签的训练数据集的有效性,有机会修改设置以实现将来更具体的任务。

对数据“中毒”技术的研究不仅要揭示类似AI入侵或攻击技术对系统安全的威胁,更重要的是,只有深入研究相关的入侵或攻击技术才能成为目标,以防止完美的解决方案。 “AI黑客攻击”。

安全和隐私保障是人工智能发展的唯一途径

相关研究仍在继续,AI带来的安全威胁距离我们有多远?

“最近使用AI模拟语音诈骗钱的案例是人工智能安全中一个相对严重的事件。” CTO和人工智能工程研究所执行主任王浩刚认为,“人工智能技术将不可避免地应用于各种核心业务。”在现场,甚至涉及财产或生命安全(如医疗,自动驾驶,金融等),随着未来AI攻击技术的发展,相关事件将不可避免地变得越来越多。“

冯伟还表示,人工智能系统的安全和隐私保障是人工智能发展的必由之路。类似于计算机网络/计算机系统发展的早期阶段,当时没有多少病毒,但随着时间的推移,一系列人工智能安全产业将诞生。人工智能安全的威胁比目前的计算机病毒严重得多。

但是,在王玉刚和冯伟看来,目前的人工智能系统攻防正处于研究和开发的早期阶段。与传统成熟的方法,算法,工具,平台等相比,AI安全攻防仍处于探索阶段。

“目前,业界对人工智能安全的整体认识和关注还不够。在这种情况下,一旦大量与人身安全或财产安全相关的人工智能系统投入运行,就会暴露出大量的安全事故。 “王说。因此,他主张“AI公司应该尽快彻底研究人工智能安全保护,并投入足够的资源尽快开发人工智能安全保护工具和保护技术。”

除了安全问题,人工智能应用的数据隐私问题也出现在生活中。最近的ZAO事件是一个明显的案例。

人工智能时代的用户数据隐私问题也是创新研讨会人工智能安全实验室的关键问题之一。近年来,随着人工智能技术的快速发展,对隐私保护和数据安全的需求不断增强,联邦学习技术应运而生,越来越受到学术界和工业界的关注。

具体地,联合学习系统是具有多个参与者的分布式机器学习框架。每个联合学习参与者不需要与其他方共享他们的训练数据,但仍然可以使用剩余的参与者。提供信息以更好地培训联合模型。换句话说,各方可以共享数据生成的知识,而无需共享数据以实现双赢。

创新研讨会AI Engineering Institute非常看好联邦学习技术的巨大应用潜力。今年3月,冯伟代表创新工作室当选为IEEE联邦学习标准发展委员会副主席,并开始制定人工智能协作和大数据安全领域的第一个国际标准。创新研讨会也将直接参与该技术的联邦“立法”。

“联邦学习技术实际上是人工智能时代用户数据隐私问题的解决方案。类似于安全领域的”白帽子“,创新工作室AI工程学院呼吁出现更多的AI安全”白色帽子“共同致力于人工智能系统。评估和分析安全漏洞。”

来自网络的图片

如何获得干货

如果您想及时获取人工智能信息和干货,您可能希望“为我们注明”!

如果要输入[AI报告用户通信组],

Qiuqiuqiuyoung

在此期间,请注意:

AI报告+公司+姓名+职位

收集报告投诉

9月4日,NeurIPS 2019公布了论文清单,并列出了创新工场人工智能工程研究所的论文。论文的全名是《“深度困惑:一种利用自编码器生成恶意训练样本的方法”》(《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》)。

NeurIPS是神经信息处理系统的会议和研讨会,自1987年诞生以来已经存在了32年。它一直受到学术界和工业界的高度重视,是一个机器学习和神经网络。该领域的顶级会议之一。

本文选取的三位作者是:南京国际人工智能研究所执行院长,南京国际人工智能研究所创新研究所院长,蔡启智,南京大学人工智能学院院长周志华。

在谈到“数据中毒”研究的目的时,本文第一作者,南京国际人工智能研究所执行主任冯伟表示,该研究旨在对人工智能的安全性进行技术评估。系统,假设数据库是如果恶意篡改,相应的系统将被破坏。同时,也希望呼吁关注这个问题。

为此,本文创造性地提出了一种有效生成反训练样本DeepConfuse的方法,通过弱扰数据库来完全破坏相应学习系统的性能,达到“数据中毒”的目的。

为顶级会议Neurop选择了创新的研讨会“数据中毒”论文

近年来,机器学习的热度不断提高,在不同的应用领域已经解决了各种问题。然而,很少有人意识到机器学习本身也容易受到攻击,而且模型不是虚构的,也是坚不可摧的。

例如,在训练(学习阶段)或预测(推理阶段)这两个过程中,机器学习模型很可能受到对手的攻击,攻击手段也是多样的。

为此,创新工作室AI工程研究所建立了人工智能安全实验室,对人工智能系统的安全性进行深入评估和研究。

《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》本文的主要贡献是提出一种有效产生战斗训练数据的最先进方法。 DeepConfuse。

如何实现“数据中毒”?

DeepConfuse的操作如下:通过劫持神经网络的过程,教堂噪声发生器为训练样本增加了有界干扰,使得训练样本训练的机器学习模型可以在测试中得到推广。样品。尽可能糟糕,数据非常熟练地中毒。

顾名思义,“数据中毒”意味着训练数据“中毒”。具体攻击策略是通过干扰模型的训练过程影响模型的完整性,然后是模型后续预测过程的偏差。

值得注意的是,“数据中毒”是一种与常见的“反样本攻击”不同的攻击方法。它们存在于不同的威胁场景中:前者假定模型是固定的,并且模型通过修改训练数据而“中毒”。后者通过修改待测样本来“欺骗”模型。以前的研究已经针对样本攻击做了大量工作,但对数据中毒技术的研究还不够。

例如,如果从事机器人视觉技术开发的公司想要训练机器人识别现实场景中的物体,人物,车辆等,则无意中被黑客攻击使用纸张中提到的方法来篡改培训数据。

在视觉检查训练数据时,研发人员通常不会察觉异常(因为使数据“中毒”的噪声数据难以在图像级别被视觉识别),训练过程一如既往地顺利进行。然而,此时训练的深度学习模型在泛化能力方面将大大降低。由这样的模型驱动的机器人将在真实场景中完全“圈”,并陷入无法识别的尴尬境地。

更重要的是,攻击者还可以仔细调整“中毒”中使用的噪声数据,以便训练有素的机器人视觉模型“故意承认”某些东西,例如将障碍物识别为路径,或将危险场景标记为安全场景,等。

为了实现这一目标,本文设计了一种自编码神经网络DeepConfuse,它可以产生抗噪声,通过观察假设分类器的训练过程来更新自身的权重,并产生“有毒”噪声,从而使受害分类器带来最低的泛化效率,这个过程可以简化为具有非线性等式约束的非凸优化问题。

“中毒”有什么影响?

从实验数据可以看出,在MNIST,CIFAR-10和IMAGENET的简化版本的不同数据集中,由“未中毒”训练数据集和“中毒”训练数据集训练的系统模型是用于分类准确性。它有很大的不同,效果非常可观。

同时,从实验结果来看,这种方法产生的抗噪声是通用的,甚至在非神经网络上也是如此,例如随机森林和支持向量机。 (其中蓝色是使用“未中毒”训练数据训练模型的测试性能,橙色是使用“中毒”训练数据训练模型的广义能力的测试表现)

CIFAR和IMAGENET数据集的性能相似,证明该方法生成的训练样本在不同的网络结构中具有较高的迁移能力。

此外,本文提出的方法也可以有效地扩展到特定标签的情况,即攻击者希望通过一些预先规定的规则来制作模型分类错误,例如将cat错误分类为dog错误,以便根据攻击者的计划,模型可以针对错误。

例如,在MINIST数据集上,不同场景中测试集上的模糊矩阵的性能是干净的训练数据集,无标记的训练数据集和标记的训练数据集。

实验结果有力地证明了使用特定标签训练数据集的相应设置的有效性,并且有机会通过修改将来的设置来实现更具体的任务。

数据中毒技术的研究不仅要揭示类似AI入侵或攻击技术对系统安全的威胁,更重要的是,只有深入研究相关的入侵或攻击技术,才能制定出完善的防范AI的方案。黑客的攻击。

安全和隐私保证是AI开发的唯一途径

随着研究的不断深入,人工智能给我们带来的安全威胁有多远?

“最近使用AI模拟语音诈骗钱的案例是人工智能安全中一个相对严重的事件。”创新研讨会CTO和AI工程研究院执行主任王永刚表示,“人工智能技术将不可避免地应用于各种核心业务领域,甚至涉及财产或生命安全(如医疗,自动驾驶,金融等)。未来,随着人工智能攻击技术的发展,将不可避免地发生越来越多的相关事件。“

冯伟还表示,人工智能系统的安全和隐私保障是人工智能发展的必由之路。类似于计算机网络/计算机系统发展的早期阶段,当时没有多少病毒,但随着时间的推移,一系列人工智能安全产业将诞生。人工智能安全的威胁比目前的计算机病毒严重得多。

但是,在王玉刚和冯伟看来,目前的人工智能系统攻防正处于研究和开发的早期阶段。与传统成熟的方法,算法,工具,平台等相比,AI安全攻防仍处于探索阶段。

“目前,业界对人工智能安全的整体认识和关注还不够。在这种情况下,一旦大量与人身安全或财产安全相关的人工智能系统投入运行,就会暴露出大量的安全事故。 “王说。因此,他主张“AI公司应该尽快彻底研究人工智能安全保护,并投入足够的资源尽快开发人工智能安全保护工具和保护技术。”

除了安全问题,人工智能应用的数据隐私问题也出现在生活中。最近的ZAO事件是一个明显的案例。

人工智能时代的用户数据隐私问题也是创新研讨会人工智能安全实验室的关键问题之一。近年来,随着人工智能技术的快速发展,对隐私保护和数据安全的需求不断增强,联邦学习技术应运而生,越来越受到学术界和工业界的关注。

具体地,联合学习系统是具有多个参与者的分布式机器学习框架。每个联合学习参与者不需要与其他方共享他们的训练数据,但仍然可以使用剩余的参与者。提供信息以更好地培训联合模型。换句话说,各方可以共享数据生成的知识,而无需共享数据以实现双赢。

AI Engineering Institute of Innovation Workshop非常看好联邦学习技术的巨大应用潜力。今年3月,冯宏代表创新工作室当选为IEEE联邦学习标准制定委员会副主席,以推动人工智能协作和大数据安全领域的首个国际标准的制定。 Innovation Works也将成为联邦“立法”的直接参与者,以学习这项技术。

“联邦学习技术实际上是人工智能时代用户数据隐私问题的解决方案。类似于安全领域的”白帽子“,AI工程创新研讨会呼吁在AI中提供更多”白帽“安全性,共同评估和分析AI系统的安全漏洞。

图片来自互联网

干货采购方法

如果您想更及时地获取人工智能信息和干货,您不妨“明星”我们!

如果要输入[AI报告用户交换组],

Qiuqiuqiuyoung

同时请注意:

AI报告+公司+姓名+职位