雷刚 发自 凹非寺
量子位 报道 | 公众号 QbitAI
二变娃娃脸,技术应用有新突破。
而且与P图后的变脸相比,这次是拍摄短视频时终端实时变脸,几万元iPhone即使没有网络,也可以体验千元安卓机。OK。
你可能没想到中国公司的快手会在这次领先全球技术。
是的,是老铁双击666的快手。
秒变童颜
在最新的迭代版本中,拍摄页面推出了名为变成孩子的魔法表情。
拍摄界面选择这个表情进行短视频拍摄,可以在几秒钟内变成孩子的脸,实现娃娃脸的样子——一千个老铁,一千个娃娃脸老铁。
比如这样:
这样:
以及这样:
开始简单,看起来好玩,但是稍微了解一下技术原理,就知道实现这样的应用和效果并不容易。
核心是依靠GAN——对抗生成网络。
这一次,不仅是国内第一个实现端实时GAN,也是全球首次实现iOS实时视频覆盖安卓多平台和全机型GAN,甚至出于技(lao)术(ban)实(yao)力(qiu),快手AI工程师们也实现了断网的壮举——没有网络状态也可以使用。
这是终端本地化的完全实现AI包括能力Google在内的AI头雁公司才有的追求。
与翻译、语音识别、视觉和实时视频相比,终端计算能力、内存资源、模型培训和压缩要求更加严格。除了投资资源外,它还必须承受用户体验的压力,最终在各种终端用户场景中进行测试。
挑战不小。
但直接带来的好处值得面对这一挑战。魔表上线3天,使用量百万。
潮湿与难以实时变脸
也许你也注意到,变脸、变脸在全世界掀起了新的风尚。
除了没有证据但可能在驾驶的各种类型外deepfakes,从图片到视频,从变老、男变女、女变男、回老孩子,全球网友都玩得很开心。
简单回顾一下,视频中最初推出的实时娃娃脸是Snapchat。
今年5月,这个海外社交应用推出了这个新功能,研发建设了一年。
但效果也立竿见影,一旦发布,日常生活就会飙升10%。
随后,俄罗斯变脸应用间接带火FaceApp,许多明星和普通人开始在应用程序的帮助下看到自己的衰老和童年。
但放眼全球,能跟上这一技术潮流的人并不多。
而且从Snapchat和FaceApp,也可以看出技术实现的挑战。
一方面,实时视频几乎无法覆盖整个模型和平台——Snapchat就只能在iOS支持。
另一方面,必须依靠云训练和效果,对网络条件的要求也很高。这个插曲是美国议员呼吁的FaceApp,将照片上传到云端会侵犯美国人的隐私。
快手选择在端上实时变脸,目标是给所有用户带来更时尚的短视频游戏。但是,除了技术上难以解决外,还留给快手Y-tech技术团队的时间只有一个多月。
是的,一个多月后,结束了Snapchat一年的仗。
娃娃脸背后的技术
事实上,早在18年4月,快手就在端侧实现了衰老的功能效果。
但就技术而言,变老和娃娃脸的难度无法比拟。
一般来说,衰老不需要改变面部结构,可以通过化妆来实现。娃娃脸的面部结构发生了很大的变化,面部特征的细节也与成年人有非常微妙的不同,成千上万的人,很难用传统的化妆方法来实现。
另外,娃娃脸效果,P图片也不同于实时视频。
视频追求的是在没有人为干预的情况下快速生成效果逼真的娃娃脸。
还有两个挑战必须解决:
首先,机器需要根据每个人的面部特征自动生成图像,而且没有手工P图的痕迹。二是在手机上实时生成面部图像。在有限的计算能力和内存资源支持下,手机端的计算能力和内存资源是有限的。
这些挑战,也是Snapchat在iOS实现而无法全平台全机型覆盖的原因——iPhone计算能力和资源,算上层。
ks业务24小时自助下单平台最便宜,刷快手双击50个网址 - 卡盟24小时自助下单
然而,对于中国的实际情况和快手用户来说,Android用户的比例并不低,Android型号种类繁多,不同型号的计算能力和内存资源差异很大。因此,完成实时视频并将其改为娃娃脸的产品需求更加明确:
设计一个可以覆盖高、中、低不同型号的解决方案。
因此,快手技术团队采取了差异化AI对不同型号的模型生成方案采用相应的解决方案。
对于计算能力较高的机型,可以使用AI模型做更多的工作,比如生成更广泛的图像,更清晰的细节。
对于计算能力较低的机型,可以部分使用AI用传统的方法解决模型的工作。
然而,总的来说,无论计算能力如何,最终都必须在用户使用中实现GAN秒变意味着计算能力再低,也要有高质量AI算法实现-挑战和能力都隐含在其中。
最后,快手还有一个潜在的挑战:网络。
一方面,考虑到用户体验,实时效果对延迟有很高的要求。实时应用中服务端计算增加的网络延迟非常明显——用户需要等待,体验效果滞后。
另一方面,如果用户还在偏远的山区,手机信号和网络都不好,体验就会变得很糟糕。
因此,从一开始,快手技术团队就设定了实现手机断网的目标。
因此,所有算法操作都在手机上完成,不需要将用户拍摄的图像或视频传输到后端服务器进行算法处理。
用小手机完成计算能力强的服务器才能做到,这是快手技术团队在娃娃脸功能上的实力。
而这只是冰山一角的力量,背景是驱动快手产品前进的基本引擎。
技术积累
俗话说,水滴石穿非一日之功。
快手本次能引领全球技术应用,快手自主研发YCNN深度学习推理引擎和定制模型压缩算法是幕后英雄。
正是基于内部自主研发的压缩模型,在考虑各种边界条件、有限计算和内存资源的情况下,模型的计算量仍然可以在不影响算法效果的情况下最小化。
快手深度学习推理引擎为娃娃脸算法的实施提供了有力的支持。
这个取名YCNN深度学习推理引擎,之前介绍快手AI也多次提到。
这是一个神经网络推理引擎,由快手自主研发,支持多平台和深度优化,是许多快手AI功能强大的加速器支持不限于NEON、SSE、Metal、NPU,OpenCL,OpenGLES优化方法和技术。
在这个娃娃脸功能中,针对移动平台计算能力弱的特点,尤其是低端安卓机,YCNN优化定点推理引擎,提出低功耗、高性能的解决方案。
事实上,近年来,在深度学习研究领域,GAN其他模型被广泛应用于解决各种问题,但很少有人坚持建立核心基本引擎,最终使产品功能和终端用户受益。
而且由于产品落地和应用的成功,技术难度和积累鲜为人知。
事实上,每一个拥有不同手机型号的老铁都能享受高计算能力AI技术带来的乐趣背后是技术团队极其强大的努力。
但这样的团队,也有委屈的时候。最近快手首次举办技术OpenDay一些学校招生学生透露,因为家人和朋友认为快手Low并表示不希望他们选择快手工作。
如果你能全面了解快手的包容性价值观,以及通过公司的努力给普通人的生活带来的变化,我相信他们的想法会改变。只有经过全面的了解,才能做出客观的判断。
如果对端上端有更深入的了解,那么如果对端上端有更深入的了解GAN的进展突破呢?知道本地化无网络也可以应用AI模型呢?或者进一步了解压缩模型和推理引擎的强度……
也许是时候给快手和快手技术更多的正名了。
在技术可能加剧资源、地区和发展不平等的今天,快手可以让每个用户通过终端产品感受到技术的乐趣和不同的世界,并帮助更偏远地区加快商业化,增加收入。
将技术推向前沿值得感叹,用前沿技术打造接地气、普惠产品,值得称道。
你说呢?
Last but not least,制作这种特效的技术团队是快手Y-tech团队,这里还特别传送门:
快手Y-tech,以研发前沿技术、提升用户体验、创造用户价值为使命,是快手在人工智能等前沿领域的探索者和先锋,致力于计算机视觉和机器学习 、在计算机图形学等领域进行技术研究和业务实施。
该研究的技术方向还包括图像处理、人脸识别、多媒体技术SLAM/AR/VR/MR、推荐三维重建、优化算法、ranking,game AI, 机器学习平台、数据库、数据分析、强化学习等。
最后,你可以立即体验H5传送门(也可直接点击阅读全文),欢迎在盆友圈分享您的宝宝照。
最后,你可以立即体验H5传送门(也可直接点击阅读全文),欢迎在盆友圈分享您的宝宝照片。谁不是婴儿?
https://activity1.m.viviv.com/babyface/
— 完 —
诚挚招聘
北京中关村正在招聘量子位编辑/记者。期待有才华、有热情的同学加入我们!相关细节请在量子位微信官方账号。(QbitAI)对话界面,回复招聘二字。
量子位 QbitAI · 头条签约作者
?'?' ? 追踪AI新的技术和产品动态
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。
标签:
评论