澎湃Logo
下载客户端

登录

  • +1

全球首个大规模虐童图像数据库,标记15万图像、20类信息,自动判断图片是否违法​

2021-07-13 18:11
来源:澎湃新闻·澎湃号·湃客
字号

原创 文摘菌 大数据文摘

大数据文摘作品

作者:Mickey

去年3月份,一事被曝光,黑产集团用裸照威逼利诱女性、幼童,对受害者实施性剥削的产业链终于公之于大众,在Telegram上的聊天室发布这些性剥削画面供会员观看并收取会费,66名与N号房事件有关人士被捕,主犯也最终被判入狱。

韩国警方所掌握线索的被害女性多达74人,其中16人为未成年人,最小年龄受害者为年仅11岁的小学生。

以N号房为代表的性侵事件涉事人数之庞大,韩国并非孤例,Telegram也绝不是窝藏黑色产业链的唯一技术平台。每天,无数无法找到来源的虐童视频、图片被上传至互联网,并跨国进行交易。

找到这些隐藏在照片背后的犯罪分子,除了追踪技术,还需要各国法规及定则程度的一致性。目前,由于不同国家和地区对这类敏感图像和视频分类的方式很不相同,不同国家查获的内容很难共享,存在大量重复工作,受害者也非常难以定位搜寻。

标记15万数据,英国分析师团队建立儿童性虐图像元数据库

一个分析师团队正在尝试建立起一个儿童性虐图像元数据库,在不同国家共享,以打破这种僵局。

在英国剑桥郡,互联网观察基金会办公室(Internet Watch Foundation’s office in Cambridgeshire,下称IWF)建立起了一只21 人团队,他们每天都会花费数小时浏览包含儿童性虐待的图像和视频。

仅去年一年,该团队就标记出了 153,383 个带有儿童性虐待图像链接的网页,一个庞大的数据库正在逐渐建立。

而这只是第一步,IWC的最终目的是,希望这个数据库可以在国际上共享,并在数据库的基础上训练智能算法,自动归类相关违禁图片,以阻止虐童图片的全球扩散。

为了达到目的,这个21人的团队每天都在经受常人无法忍受的“痛苦”。除了浏览大量虐待、暴力、黄色视频和图像,发现照片或视频片段时,IWF的数据分析师还需要对其进行评估和标记。到目前为止,这些分析师主要会检查相关音视频材料属于ABC三个等级中的哪一种。这些分组主要基于英国的法律和儿童性虐待的量刑指南中广泛规定的虐待类型。例如,最严重的类别 A 中的图像包括严重的针对儿童的犯罪,使用这些分类可以计算被判有罪的人应被判刑多长时间。除了确定性虐待内容是否属于英国的三个群体之外,其分析师现在还在他们的报告中添加了多达 20 条不同的更详细信息。

打破各国打击性虐犯罪数据孤岛

目前,全球性虐图片和视频量级仍在增加。去年,非营利性国家失踪和受虐儿童中心收到了2140 万份来自科技公司的虐待内容报告,美国法律要求这些公司报告他们发现的内容。这是有记录以来最多的一年,报告包含 6540 万张图片、视频和其他文件。

尽管虐待儿童材料的报告有所增加,但面临的一大挑战是世界各地不同的报告流程和标准。由于方法的不同,很难全面了解在线儿童性虐待的真实规模。总部位于美国的非营利组织国际失踪和受虐儿童中心 2018 年的一项法律审查发现,118 个国家/地区拥有“足够”的儿童性虐待物质法律,62 个国家/地区的法律不充分,16 个国家/地区没有。一些法律不健全的国家没有定义儿童性虐待,其他国家没有研究技术如何用于犯罪,还有一些国家没有将虐待内容音视频材料定为犯罪。

另外,由欧盟资助的国际警务组织国际刑警组织和 ECPAT International(一系列民间社会组织)进行的研究发现,比较有关儿童性虐待内容的信息存在“重大挑战”,这阻碍了寻找犯罪嫌疑人的努力。受害者。2018 年 2 月的报告说: “这种情况因使用不同的分类方法来归类受害者特征和受害经历而变得复杂,这使得研究之间无法进行有意义的比较。”

将图像与各国法律自动匹配,判定图片是否违法

IWF希望通过这个数据库,来消除各国的一些差异。该组织构建了名为 Intelligrade 的哈希软件,以自动将图像和视频与澳大利亚、加拿大、新西兰、美国和英国的规则和法律相匹配。这一变化应该意味着减少重复的分析工作,并使科技公司更容易优先处理严重的滥用图像和视频。

各国根据图像中发生的情况和所涉及儿童的年龄对图像施加不同的权重。IWF将所有照片和视频都被赋予了一个哈希值,本质上这是一个代码,然后将其与世界各地的科技公司和执法机构共享。这些哈希值可以直接用于检测和阻止再次上传到网络的已知虐待暴力内容。

IWF的秘密武器是元数据。这是关于数据的数据——它可以是图像中包含的内容、人员、方式和时间等精细信息。

元数据是调查人员的强大工具,因为它使他们能够发现人们行为中的模式并分析其更多可能。元数据的最大支持者之一是侦查,这比具体的图片信息更有价值。

休斯说,IWF创建的数据库中为每个图像和视频创建了相关的元数据量。查看的每个新图像或视频都可以比以往任何时候进行更详细地进行评估。“我们决定是否会提供关于描述年龄的颗粒度、在描述图像中发生的事情以及确认性别方面的颗粒度,”休斯说。

IWF 希望其这一数据库和智能系统能够帮助解决各国联合打击性虐视频传播的一些问题。IWF通讯主管艾玛·哈迪说,之前的学术研究侧重在法律方向的努力——各国努力制定相同的禁止儿童性虐待的法律,这是一个非常难以实现的政治挑战。“从数据库和技术入手,能够填补法律协调方面的巨大空白,”哈迪说。IWF 现在正在研究更多国家,以推广这一数据库和技术工具。

“我们相信能够更好地共享数据,让更多人以有意义的方式使用数据,而不是所有人都只在自己的小孤岛中工作。”

素材来源:

https://www.wired.com/story/new-system-crack-down-child-sex-abuse-images/

https://www.iwf.org.uk/?gclid=Cj0KCQjw0K-HBhDDARIsAFJ6UGjWoAKz0X6M2l-eCUbAw_PTW3Cm6JJNvrvFFOdceOw3VhxnkjHaHxUaAjkQEALw_wcB

原标题:《全球首个大规模虐童图像数据库!标记15万图像、20类信息,自动判断图片是否违法​》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈