图像识别技术的前世今生及多领域应用
【中国传动网 行业动态】 图像识别技术是用电脑对图像进行加工、解析和认知,目的是找出各种不一样的事物和物体。通俗地讲,就是让机器通过处理感知到的信息,能像人一样明白图片里的东西,而不仅仅看到点阵。现在社交网络越来越发达,产生了大量图片和视频资料,目前人类所有的信息里,有百分之七十是这些视觉内容。图像成为当前社会核心的信息媒介后,新的挑战产生了。这种媒介方便了信息的快速记录和传播,但在检索方面却存在不足。因此,人工智能领域的图像识别技术获得了高度关注。本文将首先阐述图像识别技术的运作机制,然后回顾其发展历程,并探讨它在不同领域的实际应用潜力。
1、图像识别技术原理
图像识别技术主要功能是依据所见图像,对其中物体加以区分,进而完成带有意义的判定,具体执行方式是借助当代信息处理手段,以及计算机方法,来模仿人类的认知流程。一个图像识别系统一般包含三个主要环节,分别是图像区域划分、特征信息获取以及类别判断,图像区域划分环节负责将整个画面分割成不同部分,特征信息获取环节会对各部分画面进行分析并提取关键数据,类别判断环节则根据提取出的特征信息进行归类处理。图像分割在某种程度上就是图像识别的过程。
利用视觉辨识方法,我们能够借助图像检索迅速获得资讯,同时开创一种崭新的与外界沟通途径,甚至有助于外部环境更高效运作。随着视觉辨识技术的持续发展,众多科技企业纷纷投身该领域,这表明图像主导的时代已经开启,并将指引我们迈向更智慧的时代。
2、图像识别技术的前世今生
图像识别的初级阶段——娱乐化、工具化
现阶段,人们主要利用视觉识别技术来达成部分消遣目的。百度魔图的“名人匹配”功能能协助用户寻找到容貌最为相似的演艺人员,百度的影像检索能够搜寻到类似的影像资料;Facebook推出了能依据照片进行人脸比对的技术DeepFace;雅虎购入的影像辨识企业IQEngine所设计的Glow,能够透过影像辨识自动为照片贴上标记,用以帮助用户整理手机里的照片;国内从事影像辨识的初创企业旷视科技设立了VisionHacker游戏工作室,利用图形辨识技术开发手机适用的体感游戏。
这一时期存在一个至关重要的分支领域——OCR(光学字符识别),它借助光学装置辨识纸张上的文字,依据明暗变化模式判定字形,再运用字符分辨技术将字形转译为电脑文档,此即电脑对文本的解读。人类通过语言和文字来获取资讯,这是最基础且核心的方式。在虚拟空间里,我们能借助网络和机器轻易地读取和加工字符。然而,一旦字符以图像形态呈现,就会给我们的读取和加工带来诸多不便。一方面,数字领域里因某些因素被保存为图像格式的字符;另一方面,现实生活当中我们遇到的所有实体形态的字符。因此,我们必须运用文字识别技术来提取这些字符和信息。在此领域kaiyun官方网站登录入口,国内产品涵盖百度的涂书笔记以及百度翻译等;谷歌则运用DistBelief训练的大型分布式神经网络,在Google街景图库中识别上千万门牌号的成功率高达90%,并且每天能够处理百万门牌号的识别工作。
现阶段,图像识别仅是辅助手段,它有力地补充并强化了我们人类自身的视觉能力,开创了与外部世界全新互动的途径。能借助检索获取图像里的核心内容,能够随时拍下陌生物件并快速查到它的各类资料,能够拍下潜在交谈者提前查看她的社交平台信息,也能将人脸辨认当作主要的身份验证手段……这些用途虽然看似寻常,一旦图像识别技术融入我们日常活动的各个角落,就等于把部分视觉功能委托给了设备,就像我们已经把部分记忆功能交给网络搜索工具一样。
这将显著优化我们对外部环境的沟通途径,过去借助科技手段探索外部环境的步骤是:人的视觉器官获取目标信息,思维器官对信息进行解析,将其转化为设备能够识别的指令,再通过设备交互获取反馈。随着图像识别技术赋予机器视觉能力,这个流程得以简化为人眼借助机器收集目标信息,机器与网络直接对信息进行处理并输出答案。图像识别让摄像头变成了开启信息的锁钥,我们只要将摄像头对准某个陌生的物件开元棋官方正版下载,便可以获取期望的结果。正如百度科学家余凯所言,摄像头成为了连通人与世界知识的关键通道之一。
图像识别的高级阶段——拥有视觉的机器
当前视觉辨识方法仅作为辅助手段,协助我们感知环境,但实际操作仍需人类主导,所有行为必须由我们亲自执行。一旦机器真正实现视觉功能,它们便极有可能独立承担这些任务,无需人类参与。当下的图像识别功能如同为视障人士领路的助手犬,在行动中为其明确路径;往后图像识别技术将联合其他智能科技,转变为视障人士的全方位服务者,无需视障人士主动操作,由服务者代为处理所有事务。以驾驶汽车为例,假如图像识别仅是辅助手段,好比驾车时佩戴谷歌眼镜,它会解析周边环境数据,再反馈给驾驶者,驾驶者根据这些数据决定如何行驶;倘若图像识别用于机器视觉和人工智能领域,就类似谷歌的无人驾驶汽车,机器不仅能感知并处理外界信息,还独立掌控全部驾驶操作kaiyun全站网页版登录,让人彻底摆脱驾驶负担。
《人工智能:一种现代方法》提及,人工智能领域的感知功能,在于解析传感器反馈信息,从而向机器传递其所处环境的相关资讯,这些感知方式与人类有共通之处,涵盖视觉、听觉以及触觉,其中视觉占据核心地位,原因是视觉是所有行为的基础依据,在论坛活动上,百度IDL的余凯院长向与会者提问,认为哪种感官最为关键没有人能立刻回应,接着余凯院长变换了提问角度,假如必须舍弃一种感受,你们最不想舍弃的是哪一种?此时所有人答复说是视觉。ChrisFrith在其著作《心智的构建》中指出,人们认识外界并非直接感知,而是通过“无意识推理”完成,也就是说,在人们能够识别物体之前,大脑必须根据传达到感觉器官的信息来推测这个物体可能是什么,这种机制形成了人类最重要的预测和处理紧急情况的能力。视觉是获取信息最迅速可靠的途径,人类感知内容中百分之八十源于视觉。机器视觉在人工智能领域的重要性,与视觉对人类的价值相当,而图像识别技术则是机器视觉的关键所在。
在特定情境下,机器的图像识别能力要强于人的自然视觉,它更为精准、中立且不易出错。人的眼睛存在固有缺陷,虽然感觉能瞬间毫不费力地洞察万物,仿佛还能细致入微地观察整个画面,其实这只是个假象,唯有聚焦在眼球正中的图像核心区域,才能清晰且色彩饱满地看清细节。在中心点左右偏移十度左右,神经元分布更为稀疏,并且对光线和暗影有更强的探测能力。换言之,我们视觉世界的周边地带通常是色彩单一且轮廓不清的。正因如此,我们才会出现“变化忽视”的现象,当周围环境出现多种变化时,我们往往只注意到其中一种,而忽略了其他变化的发生,并且对那些被忽略的变化毫无察觉。而机器在此领域具备更突出的长处,它们可以捕捉并存档视野所覆盖范围内出现的任何状况。以普及率最高的视频监视为例,常规监控依赖人工在监控中心持续专注,并依据对视频内容的分析来形成判断,然而这种方式常因人员困倦、观察范围受限以及注意力不集中等问题,导致监控效能下降。不过,随着图像识别技术日趋完善,再融合人工智能技术,计算机便能自主对视频内容进行解析和评估,察觉到异常状况时会立刻发出警报,从而显著提升工作效率和判断精准度;在反恐工作中,机器运用人脸识别技术所产生的效果,远非人类凭借主观意识进行判断能够比拟。
一些大型互联网公司也着手于视觉感知和智能技术的拓展,Facebook聘请的人工智能研究者YannLeCun最突出的贡献在于视觉感知方面,他倡导的LeNet作为卷积神经网络的典型,在处理各类视觉感知任务时都获得了良好表现,被视为通用视觉感知方案之一;Google利用模仿神经网络“DistBelief”经由分析数百万段YouTube录像,自主识别出猫的核心特征,这标志着机器无需人工干预即可理解猫的抽象概念。值得注意,AndrewNG目前任职于百度研究院,由百度方面领导,他此前负责的项目现在由他人接手,AndrewNG的研究重点在于人工智能和图像识别领域,这反映出国内科技企业对人工智能技术以及图像识别技术的高度关注,表明了这些技术在行业中的重要地位。
3、图像识别技术的行业应用
虽然尚未实现真正的人工智能,不过图像识别技术正逐步完善,并开始在各行各业展开实践。现阶段,这项技术已经成功应用于工业机器人、无人驾驶、医疗检查、安全监控以及工业检验等多个方面。在这些应用中,图像识别在工业领域的应用最为普遍,而在工业领域里,电子制造业的应用占比最大,大约占到四成到五成之间。科技行业不断涌现新发明,图像识别的用途范围即将拓宽,今后这种技术会普及到日常用品、便携设备、车辆智能辅助驾驶、智能安防监控等与民众生活关系更紧密的方面,同时也会覆盖现在备受关注的新兴产业。
(1)图像识别技术在安防行业大显身手
人工智能的助力下,视觉辨识技术于安全防护行业大有裨益,成效显著。对于掌控众多影像资料的防护行业而言,深度分析与安全防护的结合具备相当强的适配性。公安机关运用智能视频技术,主要针对城市道路、公共广场以及各类要害区域的人流、车流和物品进行监测,能够获取人员性别、面部特征、全身影像等数据,同时也能提取车辆的品牌标识、号码牌、车身涂装等细节,这些信息都可以转化为机器可解析的标准化格式,传输至后台系统,用于执行专业的安全管控任务,具体涵盖即时预警、高风险个体核查、图像检索、交叉区域分析、内容理解查询等操作。
(2)图像识别技术助力农林业
农业和林业领域中,视觉检测方法已经投入使用。比如木材制造过程,原先这些步骤大多需要很多人力参与。现在,视觉检测技术已应用于多个步骤,比如山林资源清查,用飞行器获取影像资料,再借助图像解析软件对林区内植被分布比例、树木生长状态进行评估,进而能够制定更合理的采伐计划。在木材检测领域,借助图像识别技术,能够迅速判定树种的种类、品质的良劣以及规格的大小,无需许多人力介入其中。
(3)图像识别技术应用于金融领域
金融行业里,身份确认和智慧化交易能增强个人信息的可靠性,也能提升交易的速度和水平。举例来说,在常规金融活动中,个人申请银行信贷或证券账户登记,都必须亲自前往实际场所进行身份资料查验,并实施现场确认流程。现在借助人脸识别技术,用户只需开启手机镜头,自行拍摄一张图像,系统便会执行生物特征确认,继而开展多项核对、比对及评定工作,最终能够确认该图像是否确由本人拍摄,从而实现身份验证。
(4)图像识别技术应用于智能家居
智能家居行业里,借助监控设备采集影像,再运用视觉分析手段判断画面信息,进而触发相应动作。比如在入户处设置监控,一旦有物体闯入镜头监控范围,设备会立即捕捉画面并进行分析,倘若识别出有异常人员或物品,便能立刻向住户发出警报。倘若画面中的面孔与住户信息吻合,系统会自动开启门禁。
家里也有智能机器人,它借助图像识别功能,能够辨认物件,也能进行人的跟踪,结合人工智能,可以分辨出你是它的哪位主人,并且与你进行简单交流,比如发现家里有老人,它可能会帮你量血压,如果是小孩,它也许会给你讲个故事。
(5)图像识别技术促进电商发展,帮你寻找喜欢的衣服鞋子
网络购物时,用户借助“类似商品(图像比对/条码扫描)查找”功能,该功能运用了图像识别技术;当鼠标指向心仪商品时,用户可选择浏览相近款式;此外,通过优化计算方法,系统能更准确地洞察用户倾向;搜索结果即便找不到完全一致的物品,也会推荐最契合的选择,力求满足用户的购物期望。这能帮助商家吸引外部客流,同时也能增强手机用户对平台的依赖程度。
(6)图像识别技术助力医学影像智能识别
医疗行业面临专业人员不足的问题,这会推动人工智能在医学影像分析领域的实际应用。将视觉检测方法引入诊疗环节,能够更准确更迅速地判别X光片、核磁共振成像和计算机断层扫描的图像资料,从癌症的早期诊断和风险规避,到新型药物的研发和推广都有重要意义。放射科从业人员毕生可能接触不到一万张检查图像,而一台机器却能够处理数以百万计的数据。智能影像识别领域范围极广,人工智能技术常用于医学图像的诸多处理环节,包括医学图像的划分、图像间的对齐、图像的合并、图像的缩小以及图像的复原等方面。
(7)图像识别技术助力智慧交通
具备分析感知功能的智能摄像机,借助视频识别分析技术,能够对每辆车实施全面的违法行为检测、确认、拍摄和记录,完整记载车辆违法的每一个环节,接着将每条记录转化为非结构化的影像资料、图像信息以及结构化的文字资料,并传输给后端智能管理与分析系统,由该系统执行智能化的交通违法行为处置。运用高级视频识别方法,交通监控系统可统计各类车辆品牌分布情况,测算车辆通行集中时段,分析车辆出入城区主要时段,以及明确车辆行驶主要路径,这些多元的交通信息,能够为城市交通负荷调控、道路建设布局等,给予可靠的数据依据。
总而言之,图像识别技术,是机器通往未知领域的一座桥梁,让它们逐步认识周遭环境,并最终能够接手更多人类的工作。