全网ks最低自助下单平台,抖音20个赞 - 快手50个赞网站

智聪说说网
智聪说说网
智聪说说网
43262
文章
0
评论
2023-02-2516:27:41 评论 8

原创的机器之心

作者:Tony Peng

快手是如何逐步积累人工智能的?机器之心采访了快手多个业务部门的退伍,希望在快手恢复人工智能 0 到 1 的全过程。

在CVPR上面看到的快手和我印象中的不一样。

CVPR,全称 IEEE 在计算机视觉领域,国际计算机视觉和模式识别会议是和谐的 ICCV、ECCV 并称三大顶级会议。今年的 CVPR 于当地时间 6 月 16 加州长滩日在美国开幕,吸引了超过 9000 多位参会者、284 家赞助商,和 104 家展商。

这是快手第一次参加 CVPR。在一个大约 40 快手展示了一个平方米的展区,基于人脸特征的识别 demo,可以在大量的视频库中找到与参与者相似的用户。这很有趣 demo 很快引起了与会者的注意,人群熙熙攘攘地聚集在展位周围,想看看他们「双胞胎」到底长什么样。

给我印象最深的是一个穿着黑色短袖和短发的大叔,因为匹配结果太相似,吸引了旁观者的笑声。

这种新奇的体验让我对快手的人工智能感兴趣。我曾经刷过快手「昏天黑地」也知道日子「记录世界记录你」、「老铁双击 666」这个短视频应用给我的生活带来了很多乐趣。然而,快手的人工智能似乎从未被认真讨论过,至少与其他活跃在闪光灯下的中国科技公司相比—BAT、TMD、或者商汤,旷视,依图。

仔细想想,快手应该比大多数中国科技公司更依赖人工智能。创立 8 今年以来,快手的日活人数已经超过了 2 1亿,公司业务涉及生产、审计、分发、消费、处理大量数据的需求和快手自身业务的特点。没有机器学习的支持,今天很难到达。

快手是如何逐步积累人工智能的?带着这样的问题,我采访了快手多个业务部门的退伍,希望在快手恢复人工智能 0 到 1 的全过程。

第一个深度学习团队

2015 年 12 彭博社发表了一篇题为月的文章「为什么 2015 年是人工智能突破的一年」。

今年,人工智能遍地开花。谷歌开源于机器学习平台 TensorFlow,成为世界上最大的机器学习平台;亚马逊智能音箱以前不受青睐 Echo,已经占据了整个音箱市场的销量 25%;10 月,一个叫 AlphaGo 智能体首次击败了专业围棋选手。没有人会认为这种智能体会在不久的将来掀起巨大的科技浪潮。

1 月至 12 月,全球超越 300 投资涉及人工智能领域,几乎每天都有人工智能初创公司融资的消息;人工智能在中国也受到资本的追捧。据德勤报道,2015年 年,我国人工智能投资总额达到 450.7 亿元,同比增长 306%。

在这样的背景下,2015年 年底,快手迈出了深入学习的第一步。创始人兼 CEO 苏华找到了李燕,希望他能成立一个深入的学习部(DL 组),用算法打击盗版和非法内容。当时的快手已经超过了 1 亿的安卓和 iOS 用户分布在北京、上海、广州等一、二线城市和许多三、四线城市。

宿华

几乎每个视频应用都需要确保内容安全和原创。过多的非法内容会挤压内容制作人的流量,进而拖垮整个平台。换句话说,这是快手生存的底线。

苏华委以重任毕业于中国科学院计算技术研究所的李岩,是快手老员工,工号 75 早期在视频安全方面取得了相当大的成就。2015 年 11 10月,李燕成立了一个不到10人的团队,目标是在第二级内线下非法内容,包括色情、暴力等以及识别非原创和盗版的视频内容。

为了招人,李岩尝试了各种方法,甚至在知乎找人才。当时,一些研发人员不了解快手,一些工程师只是来面试,因为快手离家很近,但面试后被快手所做的事情所吸引,他们坚决选择加入快手。

在技术积累的过程中,快手对视频内容的理解有了更多的需求:视频中的人在说什么?场景在哪里?你想表达什么?深度学习部门不再局限于解决视频安全或版权问题,而是希望帮助快手「老铁」他们更快地找到自己喜欢的东西。

当时,深度学习部门只有两个单模式内容理解团队:图像和音频。然而,来自视频理解背景的李燕坚信,多模式内容理解对于像快手这样的短视频公司来说非常重要。在 2018 在一年的公开演讲中,他举了一个例子,「在一个男人表演口腔技能的视频中,如果声音关闭,我们不知道他在做什么,我们可能会认为他在唱歌或唱歌。这表明,如果只是通过视觉,你可能无法获得真实的信息。」

「视频是视觉、听觉、文本多种模态综合的信息形式,而用户的行为也是另外一种模态的数据,所以视频本身就是一个多模态的问题,再加上用户行为就更是一种更加复杂的多模态问题。因此,多模态研究是快手非常重要的课题。」

2016 多年来,深度学习部门开始涉足语音、文字、音乐等媒体形式。李燕决定将团队名称从深度学习组改为多媒体理解组(Multimedia understanding,简称MMU)。

今年被称为短视频的第一年,资本涌入这个风口,市场 65% 资金投入短视频内容创作者,垂直细分领域的短视频内容达到 76%。

而在随后的 2017 年初,完成 3.5 1亿美元融资的快手率先从短视频领域获得「厮杀」总用户和日活跃用户分别脱颖而出 4 亿和 4000 万。到年底,这两组数据分别增长到 7 亿和 1 亿,日均上传视频量则超 1000 万条。快手队的规模也从 200 多人扩充到 800 多人。

从这个时候开始,MMU 随着小组的快速扩张,每个单模态小组都引进了业内顶尖人才进行算法优化和项目实施。起初,不同模式的业务组是单独发展的 2018 年,每组算法开始融合。

多模态理解的挑战

作为快手的第一支深度学习团队,MMU 小组面临着巨大的挑战。

在过去的几年里,单模态内容的理解能力在学术界还不够成熟。此外,学术界对视频理解没有强烈的研究需求,导致视频理解没有形成一套解决方案。在工业界,即使是世界上最大的视频平台 YouTube,由于其视频具有丰富的文本信息-标题、简介、标签,可以在一定程度上绕过视频理解。

但是快手不一样。快手作为移动互联网时代兴起的短视频应用,为用户提供轻盈新颖的视频拍摄体验。用户喜欢在拍摄后传输,不喜欢编辑文本,严重缺乏描述视频的文本信息。快手又需要理解内容来做推荐算法,视频理解成了一个绕不开的坎。李岩说,快手是一家早期对视频内容分析有强烈需求的公司。

复杂的应用场景和多样化的用户分布 MMU 挑战的另一个维度。朝旭负责视频理解的方向 MMU 组里的老员工举了一个机器之心的例子:快手上有很多风景的视频内容,有些风景很美,有空灵感的画面就像「仙境」,所以快手的标签需要描述「仙境」这种风景;但在学术数据集中,你不会看到这种情况「诡异」的标签。

「这不再是一个具体的分类算法问题,而是你如何定义一个合理的标签系统。」

语音组最直观的问题是方言口音。MMU 语音组月朗表示,快手用户的区域分布结构与中国移动互联网的人口分布结构基本相同:一线城市只占人口比例 7% 左右,另外 93% 人们生活在非一线城市,特别是许多城镇的年轻人,或三、四级以下的人,口音很强,需要快速收集特定方言区域的语音和文本数据。

音乐组面临的一个难题是给用户唱歌打分。传统的歌唱打分是将用户所唱的歌曲和原唱音频做对比,匹配度越高分数越高。但是在快手,很多用户都是来自偏远地区的少数民族,他们唱的民歌在快手的搜索库里根本找不到。

「我们现在要求解决的不是 1 1 等于 2 这个问题是你在计算的 1 1 当你发现连纸和笔都没有,」朝旭说。

经过两年的探索,MMU 基于多模态技术,组逐步形成了信息分发和人机交互两大业务系统。前者利用多模态实现对视频内容的准确理解,后者利用多模态帮助人们更好地记录生活。

为了更好地理解这两个方向,我们举一个例子:冷启动项目属于内容分发,即用户刚刚打开快手 app 算法除了内容和视频中的人物外,无法获得任何行为数据,因为用户打开快手页面「发现」而非「关注」,因此,快手应在冷启动阶段提供个性化的内容推荐。MMU 组在 2018 参与了冷启动优化项目。

视频配乐是人机交互中典型的多模态理解场景。MMU 音乐组的寒冷告诉机器的心,快手需要首先了解视频,包括人脸识别、年龄、性别、动作时间和地点场景识别,然后了解音乐风格、情感、节奏、主题和适合性,这个过程涉及视频理解、人脸识别、自然语言处理、视频检索、音乐检索和最终推荐算法。

算法优化带来的红利是显而易见的。2018 年第 2 季度,快手 app 月活跃用户数达到 2.4 一亿人,日活人数过亿。这一年的 4 腾讯为快手加月 4 亿美金融资使快手的估值接近 200 亿美金。

但是给出了多模态研究 MMU 没有减少团队带来的挑战。李燕表示,多模态研究仍存在三个困难:多模态集成后,由于样本空间的扩大,单模态的语义差距将进一步增加;综合建模不同模式之间的数据,存在数据异构差距;多模态数据集难以构建,存在数据丢失的问题。

MMU 下一个目标是从低层次的感知过渡到高层次的语义理解,这所认为的「目前工业界最难的问题。」MMU 目前,视频分级系统正在开发中。为了更好地保护未成年人使用快手,算法需要对视频内容有更深入的理解:视频表达了什么概念?透露什么样的情绪?

「我认为视频内容理解是未来人工智能在现实生活中大规模爆发的关键技术,而快手在这方面既有战场,也有数据。我们 MMU 它应该是未来人工智能产业的关键力量,」李岩说。

快手的「Google X」

在 MMU 在发展的同时,快手也在大力发展其他部门,如负责音视频传输和质量保证的音视频技术团队和推荐的社会科学团队。和 MMU 同样,这些部门是由业务驱动的,主要是产品开发和技术实施。

当快手在视频理解技术推荐和内容安全方面的应用越来越成熟时,苏华希望建立一个专注于前沿算法的实验室,将好莱坞等特效内容添加到用户的内容制作中,让用户通过人工智能获得新颖的体验。

于是,在 2016 2000年,苏华在清华大学找到了老同学,斯坦福计算机系博士郑文。在斯坦福大学期间,郑文的研究方向主要集中在计算机图形学和电影特效方面,他的导师两次获得奥斯卡科技奖。毕业后,郑文继续在美国从事机器学习和计算机视觉研究。

郑文

2016 年 9 在宿华的劝说下,郑文回国加入快手,成立了 Y-Lab 实验室。郑文当时告诉国内媒体,「我觉得他想做的很有趣,和我的经历很一致。我自己也很感兴趣,所以我回来了。」宿华没 有设立特定的考核标准,只要做出来东西好玩就行。

{n}{n}

  Y-Lab 的早期员工、目前增强现实(AR)技术的负责人梦松向机器之心回忆了当年和宿华的一次对话。他说宿华想建立一个类

相机图像的基本参数没有设置好,影响了视频的清晰度

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。

标签:全网ks最低自助下单平台,抖音20个赞 - 快手50个赞网站

智聪说说网
  • 本文由 发表于 2023-02-2516:27:41
  • 转载请务必保留本文链接:https://www.zhicongwang.com/104796.html