文 | 张一弛
(资料图片)
编辑 | 苏建勋
2022年人工智能大会上,合合信息使用智能文字识别技术挑战钟鼎文识别。在没有人工干预的状态下,钟鼎文从内凹状态被拉平,并被转译成简体字,“克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒”等原本连在一起的复杂语句,也经过“AI断句”功能自动处理后被区分开来。
2010年合合信息正式上线扫描全能王,后者是最早将AI、OCR等技术综合运用的APP之一。通过技术迭代,扫描全能王目前印刷体文档字符平均识别率能达到99.77%,手写体文档字符平均识别率达到97.00%。
本次识别钟鼎文,是合合信息继去年在人工智能大会挑战识别甲骨文后追求的新挑战。合合信息扫描全能王事业部负责人曹超阳向36氪表示,古文的识别会涉及到OCR行业两大典型难点——图像优化处理与文字准确识别。
图像优化处理方面,古文字的载体与常规平面差异较大。甲骨文与钟鼎文对应的载体是龟壳和青铜器,表面存在不同程度弯曲、反光、凹凸不平的情况。进行文字识别前,首先需将拍摄到的图片素材进行智能图像处理,进行“拉平”等矫正工作,并排除掉阴影、噪点的干扰,达成增强图像质量的目的。
文字准确识别方面,以《桃花源记》古籍识别为例,古书的纸张比常规印刷用纸更薄,会有“毛边”、“透字”现象,对文字识别产生干扰,这时AI就需要去区分哪些是使用者需要的文字内容,遇到个别显示不清晰的文字,还要通过智能算法去理解判断这个文字是什么。
来源:采访供图,扫描全能王识别《桃花源记》
曹超阳认为,解决古文识别中面对的挑战,实质上是解决文档图像质量退化(页面不清晰)、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等行业性难题,这些技术迭代带来的服务体验优化将更广泛地服务日常用户。
对于用户日常需求的挖掘,曹超阳表示公司十分重视用户反馈以发现产品迭代点,主要从类似场景下的用户规模以及需求底层逻辑两个方面考量。2019年起开始,扫描全能王发布一系列核心功能,包括“老照片修复”,“书籍扫描”,“拍PPT”等,切中了学习、生活、工作场景中被忽视的隐形需求,为公司产品商业化做好铺垫。
更多功能的迭代帮助扫描全能王在商业化道路上更进一步,扫描全能王在继续免费为用户提供内容扫描、识别解决方案的同时,将比较深入、精细的功能作为付费功能提供给用户。
近年来,因疫情影响,远程办公的需求量和需求种类迎来爆发式增长,文档数字化重新成为各界关注的议题。大环境利好人工智能技术发展的同时,文字识别商业化需求激增。提前布局细分需求功能,成就了扫描全能王在智能识别领域的“抢滩登陆”。
扫描全能王的母公司合合信息布局“人工智能+大数据”两大技术领域,在“B+C”端同时取得商业化落地成效。
C端方面,扫描全能王目前不仅发力于国内市场,产品推出后免费版曾在120个国家App Store效率类榜单上排名第一;B端方面,通过迭代智能文字识别技术,合合信息成功与世界 500 强公司中超过 80 家头部企业达成合作,这些头部公司为合合信息提供了重要的营收支持。
合合信息目前正在科创板拟上市阶段,为进一步了解合合信息“AI+OCR”产品的特征,36氪对扫描全能王事业部负责人曹超阳进行专访。以下为专访对话内容,经编辑:
36氪:目前OCR市场增长较快,您觉得扫描全能王从布局开始到现在有哪些关键时间节点?分别是什么?
曹超阳:第一个重要节点是2010年前后,扫描全能王正式上线。扫描全能王母公司合合信息为产品提供了“智能文字识别”技术支持,使得扫描全能王成为最早将AI、OCR等技术综合运用的APP之一。
第二个节点是海外业务的蓬勃发展,扫描全能王屡次在海外App Store效率类榜单上排名第一,让欧美厂商也做起了“国产替代”。
第三个节点是2019年起开始,扫描全能王发布的一些核心功能,比如“老照片修复”,还有后来发布的“书籍扫描”,“拍PPT”等,都切中了学习、生活、工作场景中被忽视的隐形需求。
现阶段也很关键,文档数字化已经迎来了的发展高峰期。19年底20年初的疫情催化和数字化转型大潮,让文档数字化重新成为各界关注的议题。近五年来政策在人工智能领域的利好和文字识别商业化需求的激增,也是公司“抢滩”市场的可贵机会。 目前,C端APP的月活全球已经过亿,其中有疫情催化的原因,例如公司的技术为远程办公和生活场景中的各种识别、扫描提供了支持。究其根本,企业及政府的数字化转型大潮已至,文档的数字化对于业务沉淀、效率提升十分重要,智能文字识别技术正在不断创造着市场的新增量。
36氪:使用场景方面,您发现OCR方面各个功能哪几项是特别受欢迎的,一般是吻合了哪些痛点?
曹超阳:在扫描全能王产品迭代中,我们观察到有如下功能点很受欢迎:
比如“拍PPT”功能。该功能用到了智能图像处理模块中的自动切边技术,使图像更清晰。拍完后跟原始PPT保持一致的阅读与体验。主要是通过去除多余的背景和阴影干扰,为用户提供更直观的文档阅读体验。“拍PPT”不仅能对拍摄到的PPT做图像处理,让其以完整的、被优化过的图像形式被保存,如果有文字识别需求,还能精准地把PPT图像里的内容提取出来。
还有“书籍拍摄”功能。用到了智能图像处理中的弯曲矫正和抗干扰技术,可以把不平整的书页拍成扫描仪扫出来一样平整的页面,把书上的手指、阴影去掉,尽可能还原平面阅读体验。
“手写擦除”功能现在也很受关注,我们用“字迹擦除”技术帮助广大家长、学术“解放双手,在家庭作业等场景里很受欢迎。扫描全能王用神经网络技术将待处理图像划分为手写“擦除区域”和印刷题干等“非擦除区域”,对噪点、阴影、背景杂乱等复杂场景进行处理,同时运用切边矫正、图像增强等滤镜技术,让旧的卷子像刚发下来一样,为用户呈现清晰美观试卷图像。
36氪:商业化方向,扫描全能王20年开始盈利营收增长迅速,原因是什么?
曹超阳:通过产品的不断打磨,在日常办公、生活领域,扫描全能王为公众提供“口袋里”的便利。比如从2019年开始推出拍摄证件照,只需在相对清晰干净背景下拍摄人像,即可自动生成不同尺寸,适用于各类报名、签证等场景的证件照,还能根据需求切换背景底色。除此之外,扫描全能王还上线了包括PDF加密、一键添加水印等功能,满足了用户在不同场景里的需求。这些都成为拉动营收增长的关键。
扫描全能王的母公司合合信息是行业中少见的在“人工智能+大数据”两大技术同时布局,“B+C”两大领域同时取得商业化落地成效的企业。所以,除了在C端场景的应用,智能文字识别技术做得越来越好,为也企业客户带来更好的体验感,已经获得了超过30个行业的客户的认可;世界 500 强公司名单中有超过 80 家与合合信息达成合作,这些头部客户为公司提供了重要的营收支持。
36氪:扫描全能王梳理用户场景的方法论有哪些?
曹超阳:从来源上,扫描全能王特别重视用户反馈,会实时跟进分析,每周也会分门别类做汇总,帮助我们发现产品机会的迭代点。用户的反馈实质上是他们在使用过程中想到的,能对我们产品精进有帮助的点。我们会从这些点里去分析:有类似场景的用户多不多?他究竟需要什么?以此去提炼用户的痛点来迭代产品。
比如拍PPT这个功能,就来自于用户反馈。之前课堂上授课多用黑板,现在会用电子屏、投影来展示PPT。拍PPT的人时候通常离显示屏比较远,而且照片拍出来会有水波样的底纹,也就是常说的“摩尔纹”。我们就在尝试:如何让用户拍摄时去掉底纹,以及在相对比较远的距离上拍出比较好的效果。
接下来我们也将继续为免费用户提供高价值的功能,去解决他们在日常生活和工作中遇到的内容扫描、识别问题;有些用户的需求比较深入、也更精细,我们会作为付费功能来对待。比如用户拍完之后要发给同事,扫描、发送本身是免费的。更进一步,发送时要对PDF加密,这个加密就是一个付费功能。
36氪:扫描全能王此前展示了很多利用AI将古文原文转文字的案例,会涉及到识别率的问题,这当中需要解决的难点有哪些?
曹超阳:智能文字识别技术主要包含了智能图像处理、基于深度学习的复杂场景文字识别、自然语言处理三个核心技术层。就古文的识别而言,通常会涉及到行业存在两大典型难点,一个是图像的优化处理,再者是古文字的识别,具体要解决的问题有下面几种:
先说古文字多种多样的载体带来的识别挑战。公司曾在世界人工智能大会上展示过对甲骨文、钟鼎文的识别,无论是龟壳,还是青铜器,它们的表面都会不同程度地存在弯曲、反光、凹凸不平的情况。在进行文字识别之前,首先要将拍摄到的图片素材在技术上进行“拉平”等矫正处理,并做好对于阴影、噪点的处理,这部分就是智能图像处理,也就是增强图像的“质量”。
除了硬质的表面外,纸质载体的识别也存在难点。比如在大会展出的《桃花源记》古籍识别项目中,古书的纸张比常规印刷用纸更薄,而且会有“毛边”、“透字”现象,都会对文字识别产生干扰,这时AI就需要去区分哪些是使用者需要的文字内容,遇到个别显示不清晰的文字,还要通过智能算法去“理解”去判断这个文字是什么。
36氪:古文识别率的难点是日常使用场景的难点的升级版吗?AI技术还可以怎样赋能我们的生活生产?
曹超阳:古文的研究是扫描全能王用技术促进文化传承和文物保护的社会责任体现,也是产学研研究中的一个方向,古文识别中面对的样本量小、非常规载体识别干扰因素多,是全行业面对的挑战。
解决古文识别中面对的挑战,实质上是解决文档图像质量退化,比如页面不清晰的情况,文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等全球性的难题。这些问题的解决将为更广泛的受众带来服务体验的优化。
AI技术还帮助我们实现了多语言识别。实际上,针对古文的识别仅是智能文字识别应用场景之一,扫描全能王还可识别中、英、俄等56种语言文字,被应用于全球不同国家、不同行业的票据、证件、定制识别等多个场景。
通过挑战并解决技术难点,我们在行业中也落地了很多创新功能,比如已经在扫描全能王中上线的“去屏幕纹”、“老照片修复”,以及上述提到的“手写擦除”功能,都是通过解决一个个“小众”场景里的难题,最终服务于大众;
还有一些功能已经研发出来,进入许多大型企业的评估过程中了,比如“PS篡改检测”,运用了一种直接针对图像特征信息的篡改检测方法,在行业中属于创新应用,可称得上是“像素级”反诈工具。“PS篡改检测”技术能对身份证、护照、驾驶证、港澳通行证等证照类别,以及增值税发票、普通发票、小票、合同等多种文档类别进行检测,在金融等很多行业都有广泛的需求。
36氪:扫描全能王的技术应用与行业相比有什么突出的地方?
曹超阳:母公司合合信息对AI底层技术的重视为扫描全能王承载亿级别用户的高频使用提供了支持。目前,经权威机构检测,合合信息的印刷体文档字符平均识别率为99.77%。在产品做小做轻的同时,公司技术的识别精度仍然稳居第一梯队。这些都是对底层AI技术重视带来的。
目前我们产品在全球范围内被广泛使用,支持超过五十多种语言的识别。同时我们特别贴近用户的场景需求,比如我们推出的高级文件夹,教资文件夹、考研文件夹,可以帮助用户在扫描之外,一键实现文档收纳。
36氪:用户使用便捷性方面,扫描全能王是怎么去优化使用体验?
曹超阳:扫描全能王十分关注用户痛点,并针对性地进行产品优化。扫描全能王积累了庞大的用户基数,覆盖各个职业和群体,帮助我们一起打磨产品,比如:
团队非常重视用户反馈,每一条用户反馈都会由客服、技术人员、产品经理等实时跟进和分析;在改善用户体验的同时,也会进一步发现产品的机会和迭代点。
我们还升级了千元机功能体验,直面画质与像素的挑战。有不少老人、学生群体在使用千元机,摄像头、CPU和内存等硬件条件比较差,因为CPU限制,这些相机拍摄出来的图片质量不够清晰,处理速度也比一般手机慢很多。技术团队为此特别成立了攻坚项目组,针对千元机用户的使用问题进行了一系列优化,保障不同设备条件的用户在使用扫描全能王时都能得到流畅的体验。从中也发现了很多迭代产品的机会。