◆ 创始人章磊正在演讲。
文| 铅笔道 记者 杨博宇
►导语
今日,“星尘数据”创始人章磊向铅笔道透露,公司已于今年8月获得天使轮投资。该笔投资由天使湾领投,英诺天使、老鹰基金和创势基金跟投。资金主要用于产品开发和运营。
在人工智能领域,为机器学习模型提供的数据通常由人工标注形成。这是AI公司耗时耗力的环节,但同时也是最刚需的环节。“在深度学习模型训练过程中,几十万标注好的数据样本是最基本的前提条件。”
目前,国内的数据服务才刚刚起步,章磊及其团队成立“星尘数据”,想在这一领域掘到“金矿”。“星尘数据”是一家为机器学习训练提供数据标注服务的公司。其平台“stardust”通过“准入考核”、“动态测量”、“动态发题”和“人机结合”等标注方法,为人工智能企业提供人工智能数据众包服务。
注:章磊承诺文中数据无误,为内容真实性负责。铅笔道作客观真实记录,已备份速记录音。
若把人工智能行业比作金字塔,最顶端的是人工智能应用(如无人汽车、机器人等),而最底端则是数据服务。“国内的应用端和欧美已经并驾齐驱了,但是在最基础的数据服务上还有较大差距。”
刚从硅谷回国的章磊,对此感触颇深。彼时,他在一家人工智能投资公司担任首席数据科学家。由于没能找到合适的数据标注公司,他只能通过招募、培训实习生的方式,完成标注工作。由于人员流动性大、成本高,标注效果并不理想。
章磊介绍,“人脸识别每张图至少需要标注52个点,标注上万张图,无人汽车需要标注的数据更多。这样巨大的工作量通过招募实习生标注的方式事倍功半。”
在美国有许多专门提供数据标注服务的公司,国内仅有三四家刚刚起步,其标注体系和工具还较落后。如使用QQ群管理标注人员,而非系统自动计算数据质量。
但是数据的竞争是AI领域最根本的竞争。业界共识是“大量数据+普通模型”比“普通数据+高级模型”的准确度更高,而这些数据必须通过标注才能形成。章磊意识到国内的这座价值50亿美金的“金矿”正待挖掘。
从前公司离职后,今年3月章磊和合伙人成立“星尘数据(stardust)”。这是一家AI数据服务公司,为人工智能企业提供机器训练的数据标注服务。
团队将客户提供的数据和标注模型公布在“stardust”平台上,通过平台考核的C端标注人员可根据模型做标注试题,完成标注任务。团队提供人脸、无人车、图片边缘、图片识别、图片主题提取和声音转文字等多种模型的标注服务。其可标注内容和具体流程如下:
◆ 可标注内容
◆ 标注流程
以电商的人工智能客服为例,客服需要“理解”用户留言所包含的情绪,才能有针对性地回复。在“你们到底什么时候发货?”这句话中,标注人员需要对所包含的情绪模型“焦躁、疑问、平静、高兴”进行标注,让人工智能学习如何作答。
由于标注是不断测试和优化的互动过程,“星尘数据”的数据科学家基于建模经验和学术水平,会给客户提供免费的咨询和流程化方案。比如在上例中,章磊会对情绪模型是否合理、是否需要改进提供建议和优化方案。同时,团队也可免费为客户提供标注工具的开发。
“星尘数据”通过“准入考核”、“动态测量”、“动态发题”和“人机结合”四种方式控制C端用户标注的准确度。其具体内容如下表:
通过这套标注方法和体系,平台的标注准确度为99.9%。通过准入考核的C端标注人员已有2万余名。
章磊通过和硅谷数据安全公司合作,用加密技术在数据底层做隔离,从而分离了数据的使用权和拥有权,以此防止客户数据在众包过程中泄漏。
目前“星尘数据”团队成员6人,包括2名数据科学家、4名工程师。核心成员来自于世界银行、硅谷、百度人工智能实验室吴恩达团队等公司或机构,长期从事数据分析和建模工作。
◆ 标注人员正在对汽车轮廓进行标注。
公司现仍在试运行阶段,主要通过人工智能数据标注收费盈利。收费标准为0.05~2元/条。团队已有两家客户。
今年8月,团队获得天使轮投资,由天使湾领投,英诺天使、老鹰基金和创势基金跟投。章磊介绍,下一步团队除了扩展市场、完善产品外,还将开放API接口,“像淘宝电商一样出售数据模型。”
/The End/
编辑 吴晓宇 校对 李梓葳
优质项目"融资首发绿色通道":创业者请加微信yangmao-71,务必注明项目名称;或发送BP至xueting@pencilnews.cn。
如需转载文章请联系铅笔道微信客服号铅笔道大芯芯(微信id:qianbidao2017)获取授权资质,否则我们将依法追究相关责任
联系创业者
进入个人中心-联络人,即可查看请求结果
您还未认证身份,暂时无法和ta联系!请尽快前往个人中心进行创投认证哦。