媒体报道 | 图漾科技,让3D机器视觉无处不在

【摘要】随着工业4.0和智能制造时代的到来,3D机器视觉在工业和行业领域的应用越来越重要,涉及物件辨识、产品检测、尺寸测量、机械手的视觉引导定位等。上海图漾信息科技有限公司(以下简称“图漾科技”)是一家专业的3D机器视觉技术公司,提供3D工业相机硬件和应用软件配套,组成丰富和可灵活伸缩扩展的软硬件协同产品方案,为工业和行业应用、机器人、智能安防、智慧商业等应用提供产品及服务,目前产品已经在诸多行业大客户上线并大量部署。麦姆斯咨询有幸邀请到图漾科技出席2019年9月5日在深圳举办的『第二十七届“微言大义”研讨会:机器视觉及工业检测』(https://www.memseminar.com/27/)。在此之前,麦姆斯咨询与图漾科技创始人兼CEO费浙平先生,就3D机器视觉发展及工业应用进行了深入交谈!

麦姆斯咨询:请您介绍下图漾科技的发展历程和现状?

费浙平:图漾科技已经成立近4年时间了,目前员工约50人,一直以来专注于3D机器视觉的技术研发和应用落地,致力于产品在工业行业领域的大规模普及性应用,助推工业人工智能和生产力水平的提升。3D视觉在过去的几年里概念迭出,如体感娱乐、人机交互、视觉导航、智能手机、增强现实/虚拟现实(AR/VR)等,我们有不少客户和合作伙伴也在积极探索这些新兴应用,但我们自己的的主要资源和精力集中于工业和行业解决方案的技术研发和产业落地,从核心技术研发、产品方案设计、现场测试、工程优化,到最终实现并交付超高性价比的软硬件整合方案,在物流、工业自动化、工业测量、智慧商业等多个场景的龙头客户生产现场开始了大量部署,夯实了我们在3D机器视觉领域的核心竞争力,形成了明显的行业优势地位。去年我们已经实现了几千万人民币的主营业务收入,今年预计将实现第一个盈利年度,可以说目前公司已经实现了从0到1的突破,后续将在产品持续演进、更多的行业解决方案落地和商业化进程中加速发展,实现我们“3D机器视觉无处不在”的愿景。

麦姆斯咨询:业界都说3D视觉的出现,是继黑白到彩色、低分辨率到高分辨率、静态图像到动态影像后的第四次视觉革命。请您为大家分享一下相比2D视觉,3D视觉的优势有哪些?3D视觉会为哪些应用领域带来突破性的发展?

费浙平:毫无疑问,3D视觉正在多个领域中为智能视觉带来新的技术能力和应用可能。但整体而言,3D视觉目前还处于早期,落地场景都还比较分散,只能算是有了一些点的突破,还谈不上线和面的普及。3D视觉无可替代的关键点在于几何数据的采集和利用,在传统的图像颜色信息之外增加了额外的空间维度,定性而言,在传感器的数据采集层面就同人的视觉系统持平了,往后如果机器视觉的“人工智能”能力再不如人的话,就只能归咎于数据质量和机器的聪明程度了。

就具体技术角度来看,2D颜色和3D几何数据的采集是从两个不同的物理通道进行的,在应用方案的选择过程中必然存在一个选择2D还是3D的问题(或者两者协同),而3D的应用机会只能来自于2D做不到或者做不好的场景,目前市场上有一些盲目乐观的人宣称3D视觉将全面替代2D的观点,我认为是很不恰当的,3D的价值还是在于能做到一些2D做不了或做不好的事情。举几个例子,如果要测量某些物体的相对尺寸比例,2D视觉可以胜任,但如果要测量物体绝对几何尺寸的话,那3D视觉将是唯一选项;又比如在工业自动化中,如果能够保证目标物体的有序平铺,2D视觉通常能够做得又快又好又经济,但如果目标物体是无序的话,则必须有3D视觉加持;我们最近还碰到一个有趣的客户案例——数鸡蛋:通过2D识别鸡蛋的技术也并不难,但是在实际工况条件下出错率很高,2D视觉系统受到鸡蛋的颜色、包装材料的颜色、背景颜色、环境光照条件等诸多约束条件的影响,方案的标准化和效果一致性问题难以令人满意,而如果采用3D方法的话,鸡蛋的几何形状完全不受这些颜色类因素的影响,约束条件少、识别精度高,方案可以做到完全的标准化,这种就属于3D能比2D做得更好的案例。诸如此类的真实行业需求,正在源源不断地涌现并落地,无论是2D还是3D,机器视觉的春天都才刚刚露出苗头而已。

麦姆斯咨询:当前市面上主流的3D视觉技术有三种:双目视觉、飞行时间(ToF)和结构光。请问图漾科技3D视觉技术主要基于哪种方案?相比其它方案,请您详细介绍一下图漾科技3D视觉方案的特点和优势。

费浙平:你提到的这些方案都是消费类产品中的常见技术方案,在工业中其实都难以应用,工业领域基本上都是采用“双目+结构光”的方案,其中的结构光又有动态结构光和静态结构光的差别。

(1)双目视觉即大家一般认知上的“立体视觉”,更正确的名称应该叫“被动双目”,有些附加了辅助照明光学系统的双目,也还是被动双目,除了避障和ADAS这两类应用,几乎没有更多的其他适用场景;

(2)目前大家一般所言的结构光,是指苹果Face-ID采用的“单目结构光”,即一收一发的架构,这种方案在体感消费娱乐、近场人脸的活体检测等场景是经验证成熟可用的,产业链在苹果的带领下也相对成熟了,问题是技术方案本身存在的制约因素阻挡了产品性能向上演进的可能性,其主要适用范围在低成本的近场低精度场景,跟ToF有高度的重合,ToF模组量产成熟后将面临激烈竞争;

(3)ToF因为采用了特殊专用的传感器芯片,导致其技术规格和产业链成熟度大受制约,ToF模组的收发器件无需基线隔离的特点能够帮助把模组尺寸做到最小,加工工艺也简单,有助于成本降低,因此在近场低精度应用上可能可以超越单目结构光,但同样地限于分辨率和技术特点本身限制,其测量精度受限,远距离所需付出的功耗代价太大,难以成为工业3D测量需求的选择;

(4)上述三种消费类3D产品中的常见技术路线,在工业领域基本没有大的应用空间。在工业高端检测和测量应用中,目前常见的是两种产品,一是激光线扫描相机、二是双目动态结构光。这两种方案在原理上能够实现最高精度的视觉测量,常见精度范围为0.1~0.01mm甚至更高,但是量程通常很小(几厘米到几十厘米)、体积功耗非常大、对工况条件要求比较高、价格奇高,目前在工业检测和自动分拣中有局部应用,平均价格超过1万美金,全球的年出货在千台(K)数量级,因此是一个极细分的专门市场,国外机器视觉大厂和国内进口替代产品市面上都有。

我们图漾科技采用的技术方案属于双目结构光路线,但是我们在结构光设计和物理实现方法上面做了很多创新,针对不同产品规格,我们采用了静态散斑结构光、多模态组合结构光、动态结构光等,以实现多种不同规格和价格的完整产品线。不同的结构光组合方式配合不同的双目算法,结合我们的算法优化和算法的硬化实现,在低成本、小尺寸和低功耗约束条件下实现了超高性价比的工业级3D相机产品线,售价范围在1000到20000人民币之间,满足绝大多数工业和行业应用的需求。我们的目标愿景是行业普及,而不是简单几个点或者某些进口产品的替代而已。

图漾科技的部分产品及规格指标

麦姆斯咨询:请您再谈谈动态结构光和静态结构光之间的差异,谢谢。

费浙平:动态结构光和静态结构光是指结构光投射器投射的图形(pattern)是否可以变换,显然动态结构光有条件得到更多的信息并生成更高精度的3D数据,但是适用场景会受到一些限制并显然需要付出更高的成本。两者的主要差别在于:

(1)动态结构光因为一次拍摄需要动态变换多帧pattern,只能进行静止拍摄,而静态结构光只需投射一副pattern,只要成像时间快就可以支持动态拍摄,动态拍摄能力主要取决于面阵图像传感器芯片的曝光速度,如图漾科技目前的量产型号中有可支持1.5m/s带速的运动拍摄产品;

(2)动态结构光的设计目的是为了更高的精度,一般单帧测量精度能到0.1mm甚至更高,静态结构光的单帧测量精度多数为mm级别,优化好的相机能到0.5mm,两者在精度上碰巧可以形成一种衔接关系,可自然形成产品规格的补充,各有所用;

(3)量程方面,动态结构光的量程受制于投影设备因素一般偏小,静态结构光的量程只要付出光功率的代价范围可以很广;

(4)价格方面,成熟的动态结构光相机成本目前都在数万元以上,静态结构光相机产品,不同规格从数百元到上万元的不同性价比产品选择面很广;

(5)动态结构光的尺寸和功耗通常比较大,静态结构光则可以做到非常紧凑、超低功耗。

从发展和应用角度来看,在工业检测领域,尤其是需要0.1mm以下的超高精度场景里,动态结构光的静态拍摄方法目前是合理选项,而在大量的普及化应用场景中,静态结构光产品将是不二之选。

另外多补充一点,双目加伪随机编码静态结构光的基础方法是图漾科技早在5年前就申请的发明专利,且已经获得授权,这是一条非常重要的核心专利。

动态结构光和静态结构光特性比较

麦姆斯咨询:当前iPhone X人脸识别带火了3D视觉技术在消费领域的应用。请您为大家讲一讲,3D视觉在消费类和工业类应用中,软硬件方面主要有何差异?

费浙平:消费类产品和工业产品几乎就是两个不同的世界,2D机器视觉就是一个现成的好例子,消费类相机和手机的品牌大家都耳熟能详,但在工业相机中几乎是零存在,工业相机中的传统大厂是康耐视、基恩士、巴斯勒这些,这些都是行业中的巨头,但在消费市场可能就默默无闻。

无论2D还是3D,消费和工业产品之间的玩家和产业链都大不一样。从具体硬件来看,经常会发生消费类的规格参数看起来比工业产品还高的情况,这里面存在一些非常误导的因素,比如图像质量和测量精度,消费类产品几乎都存在过度美化和拔高的情况,或者可以说,大家习惯于标称“best case”条件下的参数,而工业类产品需要比较严格标称“worst case”数据,另外工业产品需要保证不同工况条件和大规模工作负载下的高度一致、稳定和可靠性,这在光学、电学和结构设计上有很多一般规格参数所不能体现的极高门槛,当然工业相机可以在相机体积和功耗层面稍微做出一些折衷以满足工作稳定性和可靠性的挑战。

另外一个巨大的差别是软件和服务,消费类产品的功能软件和算法种类相对比较少,通用和标准化程度极高,所以基本上是由一些专业软件公司甚至互联网和云服务公司提供,琳琅满目的各种常见滤镜、图像识别等炫酷功能,底层的图像算法和软件公司数量其实并不多,而工业和行业应用是需要切切实实解决某个具体问题的,不同问题通常需要差异化程度很高的不同成像参数、算法和软件来实现,因此工业视觉产业链里面存在一个为数众多的集成商和二次开发商环节,需要针对某些具体问题进行针对性的算法研发,或者参数调整等落地工程开发和优化问题。综合来看,工业用机器视觉的实现代价要远远高于消费类产品,而且标准化程度相对较低,导致门槛和价格都要高出一大截。

我喜欢用一个大家天天都能碰到的例子来说明消费和工业视觉的差别:扫二维码。饭店和咖啡店里面的二维码POS机,其扫码方案软硬件加起来可能只有200块钱的成本,而物流行业里面的扫码相机,迄今都还是进口方案为主,最便宜的产品也要大几千、贵的大几万也很常见,都是完成扫二维码的单一功能,但是不同的工况条件,比如扫码距离、条码质量、扫描速度、单次扫描正确率、工作负荷等这些因素,导致了成本和价格几十、几百倍的差异。这个例子还可以很生动地说明一个问题,今天很多人,尤其是刚起步的创业者,容易把工业机器视觉的难度低估,机器视觉实现70、80分的程度的确可能很不难,但是要做到90分以上就超级难了,而客户往往要到95分以上才愿意实际部署使用,过程中所需要付出的工程技术投入和时间成本都是非常高的。所以国外的机器视觉公司通常都有70%以上的毛利、30%以上的净利,人家还是凭技术和积累吃饭的,我们国内公司需要在机器视觉行业取得成功,完全没有捷径,必须要从这条荆棘之路突围。以我们自己的例子来看,在公司成立的第一年就能够获得行业里面最优质标杆客户的小单子、进入客户现场进行测试,但一直经过了近2年时间的市场真刀实枪锤炼后,才真正得到客户的完全认可,并且客户自己也完成了他们的系统集成和流程改造工作,才开始大规模上线。

麦姆斯咨询:机器视觉在工业自动化系统的应用由来已久,但比起3D摄像头在智能手机等消费领域的爆发式发展,3D工业相机的产业化进度似乎并不快,请您谈谈其中的原因以及影响3D机器视觉在工业领域普及的关键障碍是什么?

费浙平:我觉得机器视觉和消费市场两个不同阵营之间无论产业链、产品型态还是行业玩家的差异还是非常大的。比如从我的个人角度看来,3D工业视觉目前的行业产值和产出,可能是远远大于消费类3D视觉的!比如从我们自己的一手数据和经验、以及诸多工业相机公司如康耐视、基恩士他们的公开年报,不完全统计可以得到3D工业相机当前的单点年产值应该已经有几亿美金规模,而3D机器视觉的设备和配套软件,一般都在相机价格的10~20倍左右,3D机器视觉有清晰的专有3D“相机+设备+软件”产品型态,目前的产值至少在20亿美元之上。如果排除苹果的iPhone Face-ID,我觉得目前消费类3D的真实市场规模可能要比工业要少一个数量级?这当然有消费类产品和产业链的特征原因,以手机为例,只有3D模组可以纳入到3D产业链,手机上的3D算法和软件、APP,如刷脸、建模等等,都没法成为新的增值点,还是由极少数的平台软件公司和互联网公司给吞噬了,3D之于消费类影像市场的增量,我只看到了上游器件和中游模组环节。当然消费类产品在数量上永远有人手n个的想象空间,这个想象超越了我的认知能力,不作评论。

但是从另外一个角度看,机器视觉目前的行业渗透率的确是很低的,一定程度上也可以说发展进度是不够快的,大家比较公认的一个观点是,2D机器视觉的当前渗透率只有5%,应该用但还没有用上机器视觉的比例还有95%,而3D视觉的数字还要更加小很多。所以这里就有了两个数字:

(1)当前3D工业相机的规模在几亿美金区间,设备和软件在20亿美金水平;

(2)行业市场有50倍以上的渗透率增长空间。

这就是百亿美金狭义3D机器视觉、千亿美金广义3D机器视觉市场规模数字的来源所在。但是这个50倍增量市场的实现,一定是困难重重的,我看到的主要挑战有以下三点:真实需求落地时间、产品能力、使用成本。

工业和行业市场的源头都来自于终端用户的技术升级和技术改造,终端用户包含制造、物流、厂矿、商超等等传统行业,行业终端客户的需求、这些需求的重要性和价值、行业和客户的买单能力,这些制约因素都会在相当长的时间里把需求出现的节奏拉到很慢,事实上目前能够落地的都是盈利能力强、信息化和自动化程度高、客户投入带来的降本增效价值明显的行业。其他产品能力和使用成本两个因素,似乎是不言自明的,就不多说了。

麦姆斯咨询:价格是影响3D机器视觉应用的关键障碍之一,能不能对这个问题稍微再展开一下?

费浙平:没错,价格的确是一个极端重要的条件,即使需求成熟了,一个产品的价格没达到一个合适的“甜蜜点”的话,应用普及的速度也上不来,尤其在国内市场。

以工业自动化领域为例,有一个传统的说法是一个机器换人的自动化系统,价格如果不能做到2年的人工成本,业主方就会缺乏采用的动力。我的观点更加激进,2年的投入回报周期太长了,“甜蜜点”应该是1年,必须要让最终用户看到后有两眼发光、拍脑袋就上的冲动。在“手+眼+脑”的三大件当中,我们能够做好的,就是要把3D视觉机器之眼做到前所未有的性价比,具体来说,根据不同的场景需求和产品规格,我认为产品价格要控制在2000~20000人民币之间,包含3D工业相机和软件算法的完整方案、软硬价都满足工业级成熟稳定可靠性要求,且软件要做到极致优化,能在普通工控机上运行,不能动辄就用到GPU,计算单元也是成本大头。当然这里不包括差异化的非标定制和服务。

极致的成本优化一定是来自于技术创新的,而非简单的压榨供应链和牺牲毛利这类手段。同时,作为上游的核心视觉零部件供应商,我们一定要做到产品的标准化,提高合作客户数量和行业应用渗透率。

麦姆斯咨询:这些产品已经有哪些典型客户和应用案例?

费浙平:我们每年已经有几十K的出货量了,在3D机器视觉的工业应用方面应该能够说已经走在了全球的最前沿。这除了我们在产品上的领先原因之外,关键外因是行业客户的降本增效和技术升级需求时间窗口的到来。目前我们已经在物流科技、工业测量、工业安全等多个领域成功落地,客户都是物流、机器人、食品饮料、钢铁煤炭、商业零售等行业最大的龙头企业,这些大行业大客户都是在经过近2年的技术导入和小批量运营之后才正式上线规模部署的,产品和方案的成熟稳定可靠性验证过程非常苛刻。在这些大客户场景完全落地之后,我们现在才有充分的信心来说,公司已经完成了从0到1的跨越,后面就是从1到10的商业化复制和推广的新挑战。

图漾科技一些落地的应用场景案例

麦姆斯咨询:3D视觉产业链很长,需要上下游厂商通力合作,可以分享一下图漾科技的产业合作情况吗?

费浙平:跟很多人想象的不一样,我们7、8年前就开始研发和实现3D相机产品,所有的核心技术和技术诀窍(know-how),包括光学设计及光学设计的物理实现、算法和算法的硬件实现,都是我们自己掌握并有长期的积累的,供应链方面一直不是问题,这方面跟大家熟知的手机3D供应链完全不同,我们使用的光学器件、生产和标定工艺都跟手机不一样。产业链方面我们更关注的其实是3D视觉的开发者社区规模和开源软件资源这两点,开发工程师数量和软件资源这两个因素事关下游客户的使用门槛、事关能否在更多的地方把3D视觉用起来,是我们业务能否快速增长的重要外部因素,也是3D视觉行业规模的直接体现。手机的3D软件资源限于有限的人脸和建模相关,由极少数几家手机软件公司掌控就跑通了,而行业应用面临的常见和所需的算法无穷多样,需要庞大的开发者和生态系统支撑才能蓬勃发展。

麦姆斯咨询:请您畅谈一下图漾科技未来五年产品发展路线图以及企业愿景。

费浙平:我们的梦想和愿景是3D机器视觉无处不在,增强生产效率、改善人们生活。为此目的,我们需要解决产品先进性、产品的普适性和产品的价格三大问题,而产品的内涵包括了硬件和软件,早期的难点在于硬件,而随着应用范围的扩大、硬件逐步收敛到位成为标品后,更多的价值会转向软件。从发展阶段来看,我把目前的3D机器视觉发展阶段概括为“高成本的样板工程”阶段,图漾科技可能思考和行动得稍微前面一点,已经在某些垂直行业应用中实现了“标准化的特定行业应用标准方案”,在同一应用市场内的复制推广已经可以实现,但跨行业或不同应用需求下的研发和工程落地依旧代价很高,我们的下一步目标就是提炼和实现二次开发平台的标准化和工具化,希望在2~3年的时间内能够实现突破,帮助我们的客户和合作伙伴开发新的应用场景时降低门槛,在此之上我们就有机会来构建我们的生态系统了。

麦姆斯咨询:图漾科技最近是否有融资计划?如果有,请您介绍下融资需求吧。

费浙平:迄今为止我们公司的发展都是依赖于外部融资的,去年开始我们有了千万以上的主营业务收入,财务亏损已经收窄到很少,今年全年预计能够开始盈利。我们近期会披露一次财务融资消息,这可能是我们最后一次财务融资了,后续在自身业务增长和盈利能力保障的前提下,在资本层面我们应该会更多地转向同产业资本合作。