格物钛:格物钛,甘做AI铺路石的隐形英雄

智聪说说网
智聪说说网
智聪说说网
43262
文章
0
评论
2023-02-1010:27:42 评论 10

文字:科技商业 于洪涛

台风烟花登陆前一天下午采访崔运凯。那天的上海,虽然天空阴沉,但风不大,典型的台风来临前的宁静。

作为90后的创业者,崔云凯也是一脸风轻云淡,就像他创立的一样AI数据基础设施公司的格物钛风格相同。在一些浮躁的国内AI这在市场上是相当困难的。

为了让消费者和投资者看到,为了让他们的业务看起来.,绝大多数AI初创公司选择从事最终消费者可以看到的顶级应用业务,如人脸识别、智能语音等。

与他们不同,格物钛选择建造下一代AI数据平台,帮助千行百业AI降低应用开发难度,提高效率。在这个过程中,格物钛扮演着铺路石的角色,专注于创造AI底层数据基础设施已成为AI隐形英雄的市场。

崔运凯毕业于上海交通大学和宾西法尼亚大学,并于2015年加入Uber的无人驾驶部门,从事人工智能研究和产品化工作,后来成为该部门最年轻的Tech Lead Manager。

在Uber,灌满100PB(1PB=1024TB)硅谷其他以处理结构化数据为主的公司可能只需要几个月的时间来处理数据池。这相当于提前5-6年看到崔运凯。AI着陆面临的问题。

当时,Uber 除了在拥有大型数据生产团队外,还将部分数据需求外包给西雅图初创公司,除了承担昂贵的价格(价格是5美元)、漫长的等待时间(5000张图片大约需要4个月),还解决数据对接、跨境分发、检索、整理和保存和使用一系列问题。对于无人驾驶来说,训练至少需要1亿张图片,这无异于把问题的难度放大了数万倍。

2018年,崔运凯回国创业,担任高精度地图公司的合伙人。在研发过程中,需要收集大量的模型训练数据。崔运凯需要一个合适的数据平台来管理和使用这些数据,但却苦于找不到能满足需求的公司。

此时此刻,他深深意识到,人工智能的整个工具链在国内外都非常早期和不完善,如果他再做一个,AI公司也会遇到同样的工具问题,要花很多钱再解决这些问题。

为此,崔运凯干脆决定自己搭建这样的平台,通过搭建AI数据基础设施,系统地解决问题,使前业主如此AI应用开发难度更低,效率更高。

崔运凯自创业第一天起,就为格物钛制定了明确的企业愿景:让AI触手可及。格物钛服务的对象是AI他希望通过努力减少开发者AI应用开发门槛降低了高质量的数据访问、存储和处理成本,使普通开发者能够更好地将时间和资源投入到业务创新中。

秉持“让AI崔运凯和他的格物钛在中国开始了触手可及的理念AI数据基础设施领域的创业步伐,很快获得了红杉、真格等一线投资机构的青睐。

统计数据显示,全球AI市场快速增长,中国AI产业规模已经超过1000亿元,正在向万亿级迈进。然而,许多初创公司和各种行业的用户都在积极拥抱AI与此同时,另一项调查显示,只有8%的数据专业人士认为他们的组织正在使用AI,人工智能和机器学习失败的主要原因是数据质量。

人工智能和机器学习的基础是数据,没有数据就没有数据ML或AI,所谓机器学习,就是机器输入和学习数据,从而输出正确的编码,而不好的数据比没有数据差。

对于数据质量差AI很可能是致命的。例如,在自动驾驶场景中,如果原始图像数据中的婴儿车或自行车没有准确标记,很可能导致车辆在实际道路驾驶时无法准确识别,导致交通事故。

“Garbage in, garbage out显然,高质量的训练数据对模型训练效果至关重要,但对绝大多数算法工程师来说,这是一个巨大的挑战。

崔运凯说,像Uber这样的大公司仍然有能力建立数据基础设施,初创公司和小企业需要花时间和精力打磨自己的产品。这些数据基础工作应该交给像格子钛这样的专业公司。在传统中,这种精细化的分工IT和云服务领域早已如此。AI领域也是大势所趋。

为AI开发者生产的格物钛专注于解决方案AI目前,开发中的数据痛点主要从事机器学习的非结构化数据管理两大业务SaaS——TensorBay,二是构建以AI以开发者为核心的海量公开数据集社区——Open Datasets。

平头哥,大象优贷,小象优贷,海豚钱包,大王贷款,快花花,点滴易贷7网贷App涉刑事诈骗

崔云凯表示,中国没有与格物钛从事类似业务的公司。从全球角度来看,格物钛的商业模式和Scale AI很像。2016年由两位华裔美国人创立Scale AI,估值超过73亿美元,去年收入上亿,是有史以来最快突破1亿美元的公司之一。

Scale AI从数据标注业务入手,客户遍布多个行业,业务范围逐步扩大。与Scale AI类似地,格物钛不仅为客户提供数据标注服务。

崔云凯表示,格物钛提供以数据为中心的解决方案,数据标记是最重要、最容易理解的环节之一,但并非全部。

格物钛的核心产品TensorBay,非结构化数据管理平台。瞄准非结构化数据的原因是它在整体数据中的比例越来越高。

IDC报告显示,未来非结构化数据将占总数的80%,包括AI视频、图像、语音等类型的数据经常用于训练。例如,中国每年销售数亿台摄像头,数据可以达到十几个ZB(1ZB=1万亿GB),由于数量过于庞大,这些数据未能得到很好的保存和利用。

崔运凯更愿意把格物钛放在产品上MLOps理解工具链。

早些时候,机器学习一直以模型为中心,强调建模、调整超参数或选择正确的结构AI模型效果。AI/ML吴恩达是上半年最权威的学者之一《MLOps:从以模型为中心到以数据为中心AI》,以数据为中心的时代已经到来。

格物钛TensorBay的设计理念,也更偏向于以数据为中心的AI策略,利用工具链和系统的方法来提高数据质量,通过不断喂养数据,保持模型的轻微调整,可以批量提高模型的效果。显然,以数据为中心的策略比以模型为中心的策略更具可操作性。

除了通过TensorBay除了管理、查询、协调、可视化和版本控制功能外,还积极构建公共数据集社区Open Datasets,为全球AI开发人员提供高质量的开源数据集。

我们都知道,AI模型训练需要依靠大量的数据。然而,可用的数据集一直是市场上的稀缺资源,特别是随着AI应用程序逐渐渗透到千行百业,对数据集的需求越来越大,尤其是高质量的数据集。找数据难,买数据贵,成为全球AI开发人员普遍面临的问题。

同时,一些数据所有者秉承开源的理念,希望分享自己的数据集,充分释放自己的价值。格物钛的Open Datasets可简单理解为GitHub for Data目标是建设全国乃至全球最大的公共数据集社区AI开发者和行业合作伙伴一起打破数据孤岛,共同构建开源数据生态。

崔云凯更倾向于认为数据是一种无穷无尽的阳光,而不是数据是一种无穷无尽的阳光,因为数据是非竞争性的,可以的公司或个人同时使用和重复使用,而不会减少损失。

为此,格物钛专门发布了寻集令生态合作伙伴招聘计划,为全球市场吸收优质公共数据集合作伙伴。据了解,目前Open Datasets已有1200 覆盖各行各业的高质量数据集,用户可以免费上传和开源下载,并支持云读取。

为提高用户体验,Open Datasets 提供在线数据可视化功能,无需下载处理即可在数据集详情页面查看标记和标签分布。同时,对于数据集发布方,Open Datasets 其丰富的流量和讨论功能也为连接用户提供了渠道。

在奥运会上,吸引眼球的是光鲜亮丽的金牌得主,而不是为球员提供幕后服务的人和机构。在国际网球界,每个人都熟悉德约、纳达尔、费德勒和穆雷,但很少有人知道佛罗里达小镇IMG Academy,许多著名的网球运动员都在那里训练和成长。

默默无闻并不意味着没有价值。相反,这些甘当铺路石的隐形英雄不仅在发挥越来越重要的作用,而且在不断提高其市场价值。就像硅谷教父彼得一样·蒂尔说:在激烈的竞争中,AI公司会再次消失,但是Scale它将永远存在,因为它提供整个AI/ML行业的基础设施,数据是这个行业最重要的东西。“

崔运凯说,虽然现在大家都在说话AI,但真正用到AI公司不多。目前AI冰山一角在中国仍然发挥着重要作用,许多应用还没有落地。未来当AI随着云的普及,格物钛希望成为云市场的亚马逊。

当然,对于成立仅两年的格物钛来说,梦想才刚刚开始,前面的路还很长。在为AI在市场铺路的同时,格物钛今天所做的一切,也是其未来雄心壮志的铺路。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。

标签:格物钛:格物钛,甘做AI铺路石的隐形英雄

智聪说说网
  • 本文由 发表于 2023-02-1010:27:42
  • 转载请务必保留本文链接:https://www.zhicongwang.com/103390.html