facebook内容审核

facebook广告,facebook账号,facebook产品,facebook,facebook投放

Facebook全球月活已经突破22亿,Youtube是19亿,微信也超过10亿,可以说互联网已经覆盖了全球大部分人口,而随着使用人口同步激增的还有用户时长,以及内容的生产消费量级也呈指数级井喷,这海量的内容无论对大平台还是小公司都形成了巨大的管理难度和审核挑战。

Facebook 上每天上传的照片超过3亿张,每分钟发布51万条评论,30万条新状态;每天在Instagram上的照片和视频分享量为9500万次;而在微信朋友圈,每天有10亿张图片被上传。

当前,每天约有2.5万亿字节的数据被创建,过去两年里生成的数据占到了全球总数据的90%,而预计到 2022年,全球互联网流量讲达到每秒 7.2 PB。

在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图文类内容,音频、长视频和短视频,以及直播的比例在不断增加,这对于那些那些既追求实时性(发布速度和用户体验)、又追求不出问题(举报率和负面事件)的内容平台审核管理,提出了巨大而严峻的挑战。

包括Facebook和Youtube在内的国际顶级UGC平台,如今在这类老生常谈的问题上依然十分吃力,尤其是发达国家最为在意的低龄内容、种族歧视和跨国文化/多语言等问题,它俩其实一直未能交出一份让各方满意的答卷。

而国内今年比较知名的互联网内容社区类产品里,下架甚至关停的已经不下于10余款,尽管它们各自都有各自的问题,比如色情内容、微商、内容涉政等等,但归根结底,这还是用户激增带来的日益增长的内容生产量和无法跟上的审核措施和效率之间的矛盾。

一、Facebook:用AI和算力应对海量内容
Facebook在整个2018年遭遇过巨大的信任危机,除了数据接口和用户隐私的处理不当,平台上的内容审核政策也受到严重质疑。
但其实,它背后的核心问题是,这家公司本就是世界互联网内容吞吐量最大的平台。
而这些内容并不只在Facebook app发布和消费,还在这家公司旗下月活15亿的Whatsapp 、13亿的Facebook Messenger和10亿的Instagram上面传播和推广,所以这家公司承受的内容审核压力才会如此之大。
那么Facebook拿出的应对措施是什么?
在去年那场著名的美国国会听证会上,扎克伯格在一小时内提及AI三十余次,坚称AI是平台内容审核的答案,他的原话是:“未来的五到十年,AI将成为世界上最大的社交网络的捍卫者,在全球范围内解决其最紧迫的问题,同时也帮助公司回答有关审核、公平和人类无节制等棘手问题。”
小扎自称,Facebook上99%有关ISIS和基地组织的内容,都在人们看到之前被人工智能系统标记,并且被删掉。
但AI想要和内容审核结合并落地,必须拿出一些具体的手段来。Facebook现在的审核分为文字审核、图片和视频审核,以及大量的人工配合。
文字审核方面,Facebook推出了DeepText(深度文本)引擎,利用深层神经网络架构去理解那些帖子的内容,据称它能够以近乎人类的精确度、每秒同时理解数千篇文章的文本内容。
相比国内的各大平台的审核体系来说,它的优势除了速度更快,另一方面是Facebook作为一个全球化的社区,DeepText能够审核超过20多种语言的文字。
DeepText甚至能实时通过用户发送的内容分析用户的想法,通过对意图、情绪和实体(人物/地点/事件)的提取,结合文本、图片,并自动移除垃圾信息的干扰,这一能力在Facebook Messenger上已经被测试验证。当然这个AI技术也并不只被用来审核一些可能发生的危险(针对青少年的犯罪),它还可以改进用户体验,帮助广告商进行有目标的宣传活动。
Facebook为这些实时而海量的信息编目录、并让其被搜索是件很困难的事情,所以他们才转向了人工智能。
同时,News Feed做为短小而高频的内容素材,恰好就是众多开展深度学习活动的有效场所之一,因为每个Feed的背后,包含了人们希望看到哪些与他们相关的内容。
而Facebook的图片和视频审核系统名为Rosetta,利用光学字符识别系统来处理图片和视频内容,每天可以实时地从超过10亿张图像和视频帧中提取信息并识别多种语言背后的含义。
另外,Facebook在上周刚刚开源了它们在图像识别及视觉领域的最新模型:ResNext101。这是一个在Instagram的图片标签上预训练,并在ImageNet上微调的模型。
ImageNet是由知名人工智能专家李飞飞教授团队于2009年发布,包含了超过两万类物体共计一千四百多万张图片,后来的很多计算机视觉任务模型都以此为基础进行训练。
而ResNext101更上一层楼,利用了Instagram上的35亿张图片(比 ImageNet的1400万多了200多倍)进行了预训练,并以人们为图片添加的话题标签(#hashtag)为类别,研发出来的有着超强特征提取能力的图像识别模型。
在这两大系统的背后,其实是Facebook的人工智能研究院FAIR(Facebook Artificial Intelligence Research)在发挥功劳。
比如其物体识别技术(Object recognition),以含有数十亿参数和数百万案例训练的神经网络为基础,给了挑战最大的图片和视频审核有力的支持。
另外它们也使用自我监督学习(SSL)探索大量数据,让机器可以通过分析未标记的图像、视频或音频来学习世界的抽象表达,这也是 FAIR 将 AI 能力规模化的努力之一。
FAIR 还在研究用户头像的面部识别、上传照片的环境识别等,它承担 Facebook 所有 AI 相关的基础研究、应用研究和技术开发。
比如它推出的刚刚获得了国际视觉模型挑战赛冠军的Mask R-CNN ,这个系统可以将计算机视觉世界的物体检测与语义分割结合到了一起,不但可以检测劣质视频内容,甚至可以帮助视障人士自动替代文字。
不过,你可千万别以为世界上最大的社交网络和内容平台,光靠AI和审核系统就搞定了一切。截止目前,Facebook聘请了超过2万人(是的你没看错),来辅助内容筛查,并配合监测和删除争议内容。

Add a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注