【it168应用】“扫一扫”已经成为手机的必备功能,它正推动着人们迈向更便捷的智能生活。“扫一扫”能付款、查询、上网、下载、加好友……但你的手机“扫一扫”能识字吗?
近日,百度输入法发布ios7.5版本,在基于语音识别的基础上,推出“文字扫描”识别的功能,它支持直接拍照或者选择相册中的图片进行文字识别,免去输入过程,成段内容直接上屏。此外,百度手机输入法对实时的翻译功能进行了全线突破,新版本结合沟通平台与翻译功能,为用户提供文字翻译、语音翻译、文字扫描翻译、快捷翻译等多种智能翻译方式。其中文字扫描翻译支持西班牙语、希腊语、韩语等近十种语言的直接扫描翻译。“扫一扫”排除语音障碍,即使在国外,也能轻松享受旅游时光。
据悉,百度输入法ios7.5版本的文字扫描功能是基于百度图像文字识别(ocr)技术。百度ocr技术是目前全球最准确的中文通用识别技术,它是基于百度领先的深度学习技术,拥有整图文字检测和识别、整图文字识别、整图文字行定位和单字图像识别等能力,并成功的应用于多个应用场景。如文档图片录入和检索、自然场景输入和翻译、拍照读卡、网图推荐和反作弊等。目前,百度ocr支持中、英、日、韩、葡、德、法、意、西、俄等十国语言,线上集群每天满足着公司数十条产品线的数千万pv的流量请求。
百度ocr技术不仅在国内远超竞争者,在海外也一直倍受关注。截止到7月13日,百度ocr技术在国际文档分类与识别大会(icdar)最具挑战性的自然场景类文字识别任务中斩获三项冠军,比赛结果均远超第二名,此外百度凭借ocr技术在该比赛中已经连续两年获得多项世界第一。icdar是ocr领域最权威的学术会议。该会议组织的robustreading竞赛是当前ocr技术领域全球最具影响力的比赛。该竞赛吸引了face++,sensetime等国内视觉ai创业新秀,以及谷歌、微软等国际顶级互联网公司厉兵秣马,各展头角。
icdar竞赛中最具挑战的ocr竞赛任务:challenge4:“incidentalscenetext”(自然场景随拍文字识别)。这个任务中的图片都来源于用户拍摄的自然场景图像,例如真实的街道和商场场景,由于待检测和识别的文字处于复杂的自然场景中,且待识别的文字往往有各种各样字体格式,文字的检测和识别具有较大的挑战性。随拍文字识别(challenge4)任务的难度很大,图片拍摄并不是专门针对文字区域进行的,存在噪声、模糊以及角度倾斜等不利因素。idlocr的算法在这个场景上,多项指标取得世界第一!结果地址:http://rrc.cvc.uab.es/?ch=2&com=evaluation。
在2017年百度ai开发者大会(baiducreate2017)上,ai技术与开放平台分论坛,吸引了众多开发者关注。此次,百度多年打造的完整ai技术平台将对开发者全面开放,开放的技术能力总共有60个,是最全面的ai技术开放平台。作为重要开放技术之一的图像文字识别(ocr),在通用文字、网络图片文字、二代居民身份证、银行卡识别的基础上还发布了表格文字识别、驾驶证识别和行驶证识别等三项新功能。
此次百度核心技术的全面开放是从根本上打破封闭的研发生态,为开发者和合作伙伴赋能,积极推动技术和产品结合,应用于更多场景。开发者陶新乐就是百度技术开放的受益者之一,其研发的白描app通过百度ocr开放平台接口搭载了百度ocr技术,并广受好评。据陶新乐介绍,白描app通过百度ocr技术可轻松将图片转换成文字,准确率非常高的百度ocr文字识别技术简化了用户输入步骤,力求为用户提供最智能的文字识别服务。目前,白描app已成为applestore工具类付费下载榜的前几名,并被网友称为“准确率高到没有朋友的文字识别ocrapp”。
百度ai技术在行业内具有先发优势,完整布局和深厚技术积累。此前百度已经通过api向开发者提供了多项百度研发的前沿技术,未来随着百度ai基础能力的进一步开放,开发者、创业者、行业伙伴将如虎添翼,让人工智能技术赋能更多场景,创造更多价值。