国际 | 美人工智能巨头陷非法收集数据争议漩涡
2024-4-18 17:55:14 Author: mp.weixin.qq.com(查看原文) 阅读量:0 收藏

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线:010-82341063

美国“商业内幕”网站近日刊文称,作为业界领先的人工智能(AI)初创企业,OpenAI正因收集、获取数据的方式陷入广泛争议。实际上,目前身处争议漩涡的除了OpenAI,还有多家美国科技企业。鉴于此,分析人士指出,世界各国亟须进一步完善人工智能法律法规,以清晰界定OpenAI等企业使用公众数据的边界。据此,也能判定这些企业训练人工智能大模型的数据来源是否合法。

数据收集引发争议

人工智能赛道在全球持续火热,众多初创公司争先恐后地收集海量、高质量数据训练人工智能大模型。然而,因为相关法律法规并不完善,目前尚存诸多灰色地带。

近日,“商业内幕”网的文章以OpenAI公司旗下人工智能视频创作工具Sora为例报道称,Sora的训练依赖海量数据,这些数据很可能来自谷歌旗下的YouTube视频网站,而“这几乎是公开的秘密”。
YouTube官方一直禁止使用自动化工具批量下载网站视频的做法,也禁止下载YouTube视频用于商业目的,并采取限流等措施加以应对。文章称,目前尚不清楚OpenAI是用了什么样的技术手段绕过YouTube的拦截。
据熟悉OpenAI运营的知情人士透露,这家公司指派了一个“秘密团队”来获取训练数据,公司内部也不会探究数据来源。OpenAI首席技术官米拉·穆拉蒂称,公司“使用公开和被许可数据”训练Sora,但“并不确定”其中是否包括YouTube视频内容。
当前,互联网界的各大公司似乎达成某种“共识”——只要自身能获取到别人的数据,也就默许其他玩家采取相同的做法。在一些人看来,这样的“共识”是“狂飙突进中的人工智能产业需要留意的一大隐患”。
有分析人士指出,OpenAI做的是通用大模型,会在YouTube等公共平台上获取数据,而图片和视频的版权往往较文字更为明确,更容易引发争议。
业内人士指出,生成式人工智能的快速兴起掀起了一场世界范围内的技术竞赛,在这个新领域中,什么是合法的,什么是合乎道德的,目前尚缺乏明确而成熟的规则。

推动监管措施变革

无独有偶,近来,美国多个头部科技企业遭遇类似争议,因人工智能训练数据来源而陷入侵权纠纷,进而吃到官司。

1月5日,美国知名作家尼古拉斯·巴斯贝恩和尼古拉斯·盖奇向纽约曼哈顿联邦地区法院提起集体诉讼,指控微软和OpenAI侵犯了他们以及其他作家的版权。他们在诉讼中称,这两家公司使用他们书中的信息来训练包括聊天机器人ChatGPT在内的人工智能产品,这一行为构成“对版权作品的恶意大规模窃取”。
3月初,3名作家在美国加州对英伟达公司发起集体诉讼,指控该公司的NeMo AI平台使用盗版文学网站素材训练人工智能的自然语言撰写技能。早前,已有18名作家起诉OpenAI侵权。这些作家向法庭表示,OpenAI在未经许可的情况下,从互联网上批量复制了他们的作品并纳入ChatGPT训练数据中,侵犯了作品版权。
作家们还表示,由于微软公司“深度参与”了训练和开发人工智能模型,也应承担侵权责任。
微软和OpenAI面临的诉讼浪潮还不止于此。2023年12月27日,美国《纽约时报》对微软和OpenAI提起诉讼,成为第一家起诉人工智能科技公司侵权的美国大型媒体。起诉书称,OpenAI和微软“试图搭《纽约时报》在新闻领域巨额投资的便车,在未经许可或未付款的情况下利用《纽约时报》的内容制造替代产品”。
此外,法国环球音乐集团和其他音乐出版商2023年曾起诉美国企业Anthropic公司,指控后者使用受版权保护的歌词来训练人工智能系统,并为用户查询生成答案。图片企业盖帝图像有限公司指认英国“稳定”人工智能公司利用这家图片公司及其合作伙伴的照片获利,以制作能生成图像的视觉AI。
由此可见,随着人工智能领域新一轮爆发式发展,各方向人工智能公司开打版权战的案例已不在少数。美国娱乐游戏网站IGN评价上述官司称,这些案例或成为推动监管措施变革的关键。

多国法规有待检验

对于获取训练人工智能大模型的数据,各国法规尚有分歧,甚至是一片空白。有些国家的法规更加倾向于信息公开,有些国家的法规更加倾向于信息安全。共识在于,选取数据不能涉及个人隐私数据。如果企业从互联网上获取数据,需对数据进行处理以达到脱敏脱密。

在管理人工智能训练数据来源方面,欧洲步子迈得较大。欧洲议会3月13日以压倒性票数通过《人工智能法案》。这一法案为人工智能技术设置严格的规则,旨在确保人工智能的使用不会侵犯人的基本权利,如隐私、数据保护和非歧视等。欧盟官员将其称为“世界上第一部针对可信人工智能的全面、具有约束力的法规”。
而在美国,尚未出台联邦层面、综合性的人工智能监管法律。2021年出台的《2020年国家人工智能倡议法案》更多算是在人工智能领域的政策布局,与人工智能的治理和强监管还有一定距离。
去年年底,两名美国议员曾提出一项《人工智能基础模型透明法案》,要求所有人工智能基础模型都必须披露训练数据来源、获取数据的方式以及使用的算法等。但这项法案何时能成为正式立法不得而知。
国际社会认为,OpenAI和一些科技公司在当前的“共识”下,即使“使用受版权保护的内容进行人工智能模型训练是合法的”,这样的行为也有待得到监管机构或法庭的判断。
目前,人工智能正处于蓬勃发展之中,未来的重中之重是如何引导人工智能发挥正面作用,同时规避其负面影响。在这一过程中,相关立法的及时跟进显然必不可少。

(来源:法治日报)

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图 了解详情


文章来源: https://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664211170&idx=8&sn=5df0ac47a6b51a6791e7d4ba735faf76&chksm=8b59a01bbc2e290d2286435ff608446e5cd5167abc0fa831ba7b2585ebc5fe8d384fb9de7c45&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh