翻译:审稿人:心
在最近的年度开发者大会上,扎克伯格将公司社交网络的 AI 雄心概括为“构建优于人类认知的系统”。 随后他展示了令人印象深刻的图像识别技术,盲人可以通过这种技术“看到”图片的内容并大声描述出来。
我们都见过帮助视障人士重见光明的程序、检测大型生物体的汽车安全功能,以及在社交媒体上分享的照片中检测商业机会的未标记照片的自组织集合。 图像识别,或者计算机视觉技术的作用。 它们给人类带来的好处才刚刚开始,人们应用这项技术的频率和深度都在不断增加。
即将召开的LDV 已经举办了三年,热闹非凡。 这个年度会议致力于所有视觉技术,包括 VR、医学成像相机、内容分析等。 “多年来计算机视觉的进步为图像分析领域创造了巨大的机遇。 它正在以指数级的速度影响每个垂直行业,包括机器人技术、广告、增强现实等。” LDV的Evan说,她也是此次峰会的主办方。
越来越多的开源领域、深度学习技术、人性化的编程工具、更快更实惠的计算性能,让计算机视觉领域,以及AI的其他技术形式,如语言处理、生物信息学、游戏等都受益匪浅很多。
许多头条新闻将深度学习和人工智能描述为下一件大事,但这些不同的工具如何工作,公司如何使用它们向世界提供图像? 谷歌和微软的牛津工程是一回事吗? 那是不准确的。 下面的分析简要描述了当前的信息技术工具以及企业使用它们的方式。
培训材料:开源数据
因为有了深度学习技术,机器学习技术可以松散地模拟人脑,计算机可以更快地准确识别图片的内容——但是,这些功能需要大量数据的支持。
看下和VOC。 这项技术已经投入使用多年,拥有大量免费数据库,其中包含数以百万计的图像,这些图像标有描述图像内容的关键字——猫、山脉、比萨饼、运动等等。 这些开源数据集是机器学习处理图片的基础(计算机准确识别图片中的猫的唯一方法是分析了数百张带有“猫”字样标签的图片,并了解了猫的样子) .
最著名的是一年一度的视觉识别挑战赛。 2009 年,斯坦福大学和普林斯顿大学的计算机科学家从 80,000 张带标签的图像开始。 现在,标注图片数量已超过1400万张,随时随地为机器学习任务服务。
VOC在英国有很多大学支持,包含的图片较少,但是每张图片都有比较详细的注释。 这提高了机器学习的精度和通用性,并且对于某些应用程序,它可以加快整个过程,因为可以省略繁琐的计算机子任务。
现在,谷歌,一些初创公司,大学,每个人都在使用这些开源图像集合来训练他们的机器学习产品,但是大公司有一个优势,因为他们可以从 app 图片中获取无数用户标记的图像。 你有没有想过为什么谷歌和谷歌让你免费上传这么多图片? 那是因为这些图片会被他们用来训练更准确的深度学习网络。
构建块:开源软件库和框架
获得数据后,就该构建一个可以从数据中学习的系统了。 开源软件库是免费提供的,在开始构建服务于不同类型的计算机视觉功能时,这些框架可以发挥作用。 这些功能包括人脸和情绪识别、医疗筛查、车内大型障碍物检测等。 然后,来自软件的图像、专有图像(即)或来自其他来源(例如可检索的匿名医疗记录)的图像将被反馈到这些机器学习系统中。
谷歌的库覆盖面广,在同类库中表现较好,部分组件去年开源。 某些组件仍然是谷歌独有的,并被用于开发谷歌的许多 AI 项目,例如自动驾驶汽车、翻译、Now 等。
但它不是第一个或唯一的开源框架。 的 CAFFE 大约从 2009 年开始运营,一直因其可定制性和庞大的 maker 社区而广受欢迎,也多次与 Yahoo!/ 一起使用 CAFFE 的产品。 还与 CAFFE 就某些项目进行合作,例如。
Torch成立于2002年,因为2015年初作为开源模块一部分的AI(FAIR)使用了它的服务,所以Torch在业界也很受欢迎。 一些工具经过优化可在一个或多个图形处理器或计算机上运行,以提高性能并加快深度学习过程。 同样,cDNN 是一个开源软件库,旨在优化计算机图形处理单元 (GPU) 的性能以加速机器学习。
尽管这些工具灵活而强大,但它们仍然需要计算机视觉工程师团队进行操作,并且需要硬件协同工作,而这正是公司想要将计算机视觉作为其产品战略的重要组成部分所需要的。
便携式:托管 API
并非每家公司都拥有或可以投资组建计算机视觉工程师团队的资源。 即使您的团队这样做了,还有很多其他工作要做,而这需要托管 API 服务。 相关解决方案在云端进行,可以提供图像识别服务菜单,可以很容易地集成到现有的应用程序上,也可以用于构建特定功能或整个程序。
比如旅游频道需要在网页上显示特定路标的相关图片,所以需要“路标检测功能”,或者想过滤客户上传的“不安全头像”。 这些公司都不想开发深度学习图像识别技术,但仍然可以从中受益。
例如,Cloud提供了一系列的图像检测服务,包括人脸识别、光学字符识别、道路标志和清晰内容识别等,并根据照片数量收费。 (牛津工程)提供了一系列事件图像识别API,包括情感、名人、人脸识别等,然后按处理千次收费。 同时,谷歌等初创公司也提供计算机视觉API,帮助企业组织内容,过滤不安全的用户生成的图片或视频,并根据观察到的图片进行购物推荐。
用户计算机视觉技术
当然,计算机视觉工程师的团队并不需要都像谷歌的那些巨头那么大,不想建立自己的人工智能系统的大大小小的公司也需要强大的技术图像识别技术解决方案。 如果一家美容或化妆品公司想要找到头发浓密的人的照片以放入洗发水广告中,仍然需要创建自定义算法来查找头发浓密的人的照片,因为此功能不是提供的商业解决方案可用立即地。
徽标、汽车品牌、模型等也是如此。这些东西在开源世界中基本上仍未触及。 不能提供封闭数据集也没关系,因为有很多图片在社交媒体上分享,可供公众使用,所以很多图片可以更好地训练机器学习产品。
对于一些公司来说,如果计算机视觉不是他们整个业务的重中之重,如果他们有一个工程师团队,或者只是使用一个托管的API,它可以结合开放数据和开源框架,为他们提供计算机视觉研发服务。
对于有许多特定需求的企业,可以使用定制解决方案。 图像识别功能不是单独存在的。 如果能提供更多的图片和实时大数据,可以使用特定的应用程序,处理速度会更快,图像识别功能也会更强大。 能够在很多方面做到极致的企业,就会拥有最强大的图像识别功能。
人工智能科学家
人工智能科学家是权威的前沿科技媒体和研究机构。 2016年2月,人工智能与互联网演化实验室(AIE Lab)成立,重点研究互联网、人工智能、脑科学、虚拟现实、机器人、移动互联网等领域未来发展趋势和重大科学问题。
編輯:碩谷新聞聚合
發表評論 取消回复