澳洲儿童图像未经家长同意被用于训练AI(图)
本文转载自澳大利亚广播公司ABC中文,仅代表原出处和原作者观点,仅供参考阅读,不代表本网态度和立场。
人权观察(Human Rights Watch)发现,澳大利亚儿童的隐私正遭到人工智能(AI)的大规模侵犯,他们的图像、姓名、位置和年龄被用于训练一些世界领先的人工智能模型。
人权观察的研究人员在著名的数据集LAION-5B中发现了这些图像,其中包括一名仍与脐带母亲相连的新生儿、演奏乐器的学龄前儿童以及学校体育嘉年华上身着泳衣的女孩。
这是一个包含58.5亿张图像的免费在线数据集,用于训练许多可生成超现实图像的公开AI生成器。
“童年的一般性时刻被捕捉、抓取并放入这个数据集中,”人权观察儿童权利和技术研究员韩惠珽(Hye Jung Han)说。
“这真的非常可怕,且令人震惊。”
在维州巴克斯马什文法学校(Bacchus Marsh Grammar School)发生了深度伪造该校女生裸照事件后,研究人员开始调查人工智能供应链。
人权观察研究了5850幅图像样本,涵盖了从土豆到行星再到人类等广泛主题,发现了来自澳大利亚各州和领地的190名儿童的照片。
“从我查看的样本来看,儿童似乎在这个数据集中占了很大比例,这确实很奇怪,”韩惠珽女士说。
“这可能为我们提供了线索,让我们了解这些人工智能模型如何能够制作出极其逼真的儿童图像。”
这些图像是使用一种称为“网络爬虫”(web crawler)的常见自动化工具收集的。人权观察认为这些图像来自受欢迎的照片和视频共享网站,包括YouTube、Flickr和博客平台。
“其他照片是由学校或家庭聘请的摄影师上传到 [他们自己的网站上] 的,”韩惠珽说,她补充说这些图片无法通过搜索或在其来源网站的公共版本上轻易找到。
一些图片还附有非常具体的说明,通常包括儿童的全名、住址、他们就诊的医院以及拍摄照片时的年龄。
AI正处于“狂野西部”阶段?
阿德莱德大学(University of Adelaide)澳大利亚机器学习研究所所长西蒙· 露西(Simon Lucey)教授表示,这些发现会给该行业敲响警钟。
他说人工智能正处于“狂野西部”(wild west,即毫无约束的发展)阶段。
“如果那里有数据集,人们就会使用它,”他说。
韩惠珽女士说:“人工智能模型已经了解了孩子的特征,并将以未来无人能预见的方式使用它。”
此外,人工智能图像模型可能会重现其训练数据的元素,例如儿童的脸部,这种风险虽然很小,但却是真实存在的。
目前尚无关于儿童图像被无意重现的已知报告,但露西博士表示确实存在这种能力。
他认为某些模型应该被关闭。
删除照片管用吗?
数据集LAION-5B已用于训练许多世界领先的人工智能模型,例如Stable Diffusion和Midjourney,全球数百万人都在使用。
它是由一个名为LAION的德国非营利组织创建的。
LAION发言人在给澳大利亚广播公司(ABC)的一份声明中表示,其数据集“只是公共互联网上可用图像链接的集合”。
他们说,“提高安全性的最有效方法是从公共互联网上删除儿童的私人信息”。
2023年,斯坦福大学的研究人员在LAION-5B数据集中发现了数百张已知的儿童性虐待材料图像。
LAION将其数据集下线并试图删除这些材料,然后才公开收集再次可用。
LAION的发言人告诉ABC,“不可能根据人权观察分析的少量数据得出结论”。
“我们可以确认,我们删除了人权观察报告的所有私人儿童数据。”
本文转载自澳大利亚广播公司ABC中文,仅代表原出处和原作者观点,仅供参考阅读,不代表本网态度和立场。