当前位置:首页 > 生活 > 正文

新工具检测人工智能生成的视频准确率达93.7%

发布时间:2024-07-05 15:03:34 编辑:冉荣泰 来源:

导读 今年早些时候,一家跨国公司的一名员工向诈骗分子汇了2500万美元。这名员工以为汇款指令是该公司首席财务官直接发出的。事实上,犯罪分子利...

今年早些时候,一家跨国公司的一名员工向诈骗分子汇了2500万美元。这名员工以为汇款指令是该公司首席财务官直接发出的。事实上,犯罪分子利用人工智能程序制作了首席财务官和其他几位同事的真实视频,这是一个精心策划的。

人工智能制作的视频变得如此逼真,以至于人类(和现有的检测系统)很难区分真假视频。为了解决这个问题,哥伦比亚工程大学的研究人员在计算机科学教授杨俊峰的带领下开发了一种新的工具来检测人工智能生成的视频,称为DIVID,即DIffusion-generatedVIdeoDetector的缩写。DIVID扩展了该团队今年早些时候发布的Raidar的工作,它通过分析文本本身来检测人工智能生成的文本,而无需访问大型语言模型的内部工作原理。

有关该新工具的论文出现在arXiv预印本服务器上。

DIVID改进了现有的生成视频检测方法,可以有效识别由生成对抗网络(GAN)等较旧的AI模型生成的视频。GAN是一种具有两个神经网络的AI系统:一个神经网络创建虚假数据,另一个神经网络对其进行评估以区分虚假数据和真实数据。通过持续反馈,两个网络都会得到改进,从而生成高度逼真的合成视频。当前的AI检测工具会寻找一些明显的迹象,例如不寻常的像素排列、不自然的运动或真实视频中通常不会出现的帧间不一致。

新一代生成式AI视频工具(如OpenAI的Sora、RunwayGen-2和Pika)使用扩散模型来制作视频。扩散模型是一种AI技术,它通过逐渐将随机噪声变成清晰逼真的图像来创建图像和视频。对于视频,它会逐帧细化,同时确保过渡流畅,从而产生高质量、逼真的效果。AI生成的视频越来越复杂,这对检测其真实性提出了重大挑战。

Yang的团队使用一种名为DIRE(扩散重建误差)的技术来检测扩散生成的图像。DIRE是一种测量输入图像与由预训练扩散模型重建的相应输出图像之间的差异的方法。

将Raidar的AI生成文本扩展为视频

杨是软件系统实验室的联合主任,他一直在探索如何检测人工智能生成的文本和视频。今年早些时候,随着Raidar的发布,杨和他的同事们通过分析文本本身实现了检测人工智能生成的文本的方法,而无需访问chatGPT-4、Gemini或Llama等大型语言模型的内部工作原理。Raidar使用语言模型来改写或修改给定的文本,然后测量系统对给定文本进行了多少次编辑。编辑次数多意味着文本很可能是人类编写的,而修改次数少意味着文本很可能是机器生成的。

“Raidar的洞察力——一个人工智能的输出通常被另一个人工智能认为是高质量的,因此它会进行更少的编辑——非常强大,而且不仅限于文本,”杨说。“鉴于人工智能生成的视频越来越逼真,我们希望利用Raidar的洞察力,创建一种可以准确检测人工智能生成的视频的工具。”

研究人员利用同样的概念开发了DIVID。这种新的生成视频检测方法可以识别由扩散模型生成的视频。该研究论文包括开源代码和数据集,于2024年6月18日在西雅图举行的计算机视觉和模式识别会议(CVPR)上发表。

DIVID的工作原理

DIVID的工作原理是重建视频,并根据原始视频分析新重建的视频。它使用DIRE值来检测扩散生成的视频,因为该方法基于以下假设:扩散模型生成的重建图像应该彼此非常相似,因为它们是从扩散过程分布中采样的。如果有重大改动,原始视频很可能是人工生成的。如果没有,则可能是人工智能生成的。

该框架基于这样的理念:AI生成工具根据大型数据集的统计分布来创建内容,从而产生更多“统计均值”内容,例如视频帧中的像素强度分布、纹理模式和噪声特性、帧之间不自然变化的细微不一致或伪影,或者在扩散生成的视频中比在真实视频中更可能出现的不寻常模式。

相比之下,人类创作的视频则展现出个性,并偏离统计常态。DIVID在其由StableVisionDiffusion、Sora、Pika和Gen-2的扩散生成视频基准数据集中实现了高达93.7%的突破性检测准确率。

目前,DIVID是一个命令行工具,可以分析视频并输出视频是人工智能还是人类生成的,只能由开发人员使用。研究人员指出,他们的技术有可能作为插件集成到Zoom中,以实时检测深度伪造呼叫。该团队还在考虑开发一个网站或浏览器插件,让普通用户可以访问DIVID。

“我们的框架在检测人工智能生成内容方面取得了重大飞跃,”论文作者之一、杨的博士生蔡云云(Yun-YunTsai)表示。“使用人工智能生成的视频的骗子太多了,阻止他们并保护社会至关重要。”

下一步是什么?

研究人员目前正在努力改进DIVID的框架,以便它能够处理来自开源视频生成工具的不同类型的合成视频。他们还使用DIVID为DIVID数据集收集视频。


免责声明:本文由用户上传,如有侵权请联系删除!

上一篇:新研究探索人形机器人达成共同目标的最佳情况

下一篇:最后一页