首页 网站首页 行业资讯 互联网 人工智能 查看内容

企业新闻网 2022-5-22 14:27 6331 0

吴恩达:未来十年,人工智能将向以数据为中心转变

吴恩达:未来十年,野生智能将向以数据为中心改变

本文最初公布于 IEEE Spectrum


吴恩达在野生智能范畴可谓申明显赫。2000 年末,他与斯坦福大学的门生一路开创了利用图形处置单元(GPU)练习深度进修模子的先河,并在 2011 年配合创建了谷歌大脑,然后在百度担任了三年的首席科学家,帮助这家科技巨头创建了野生智能小组。是以,很多人都相信他所说的,野生智能将迎来下一个严重改变。本文是他某次接管 IEEE Spectrum 独家采访的内容整理。


今朝,他的首要精神都放在其公司Landing AI上。该公司构建了一个名为 LandingLens 的平台,帮助制造商操纵计较机视觉改良视觉检测。他还成为了他所谓的以数据为中心的野生智能活动的传教者,他说这可以为野生智能范畴的大题目供给“小数据”处理计划,触及模子效力、正确性和偏见。


本文首要内容包括:


  • 实在的大模子将走向何方;
  • 他未听取的职业倡议;
  • 界说以数据为中心的野生智能活动;
  • 分解数据;
  • 为什么 Landing AI 要求客户做这项工作。


IEEE Spectrum:在曩昔十年左右的时候里,深度进修的巨猛进步是以越来越大的模子处置越来越多的数据为根本。有人以为,这类成长形式是不成延续的。您能否赞成这类说法,深度进修不能再以这类方式继续成长下去?


吴恩达:这个题目很大。我们已经看过了 NLP(自然说话处置)中的根本模子。我对 NLP 模子变得越来越大感应兴奋,同时也对在计较机视觉范畴构建根本模子的潜力感应兴奋。我以为,视频中仍有很多讯息可以操纵:受限于计较带宽和视频处置本钱,我们还没法为视频构建出不再依靠文天职词的根本模子。是以我以为,这个扩大深度进修算法的引擎,虽然已经运转了大约 15 年,但仍然有活力。话虽如此,那也只适用于某些题目,还有其他一系列题目需要小数据处理计划。


IEEE Spectrum:当您说您希望有一个计较机视觉的根本模子时,您指的是什么?


吴恩达:这是由Percy Liang和我在斯坦福的一些朋友们缔造的一个术语,指的是很是大的模子,在很是大的数据集上练习,可以针对特定的利用停止调优。例如,GPT-3就是一个根本模子[用于 NLP]的例子。根本模子作为开辟机械进修利用的一个新范式,有很大的利用远景,但同时也面临着应战,即若何确保它们公道、公允、没有偏见,出格是假如我们中的很多人将以它们为根本停止构建。


IEEE Spectrum:在什么情况下才会有人针对视频构建一个根本模子?


吴恩达:我以为有一个可扩大性题目。处置视频中的大量图片所需的计较才能很是大,我想这就是为什么根本模子会首先出现在 NLP 中。很多研讨职员正在研讨这个题目,我以为我们已经看到了在计较机视觉范畴开辟这类模子的早期迹象。我相信,倘使有一家半导体制造商给我们供给 10 倍的处置才能,那末我们就很轻易找到 10 倍的视频来构建这样的视觉模子。


话虽如此,在曩昔十年里,经常出现的情况是,深度进修发生在面向消耗者的公司。这些公司具有庞大的用户群,偶然是数十亿用户,他们也是以具有很是庞大的数据集。虽然这类机械进修范式为消耗类软件带来了庞大的经济代价,但我发现,适用于这类范围的方式对其他行业并不适用。


IEEE Spectrum:听您这么说很成心机,由于您早期就是在一家面向消耗者而且稀有百万用户的公司工作。


吴恩达:十多年前,当我发起启动谷歌大脑项目,操纵谷歌的计较根本设备来构建很是大的神经收集时,是有争议的。一个很是资深的人把我拉到一边,警告我说,启动谷歌大脑对我的职业生活晦气。我想,他是感觉行动不能只逗留在扩大范围上,而应当把重点放在架构创新上。


在很多行业中,巨型数据集底子不存在,所以我以为,关注点必须从大数据转向好数据。有 50 个经心设想的样本就足以向神经收集诠释你想让它进修什么。


我记得,在我和我的门生颁发第一篇NeurIPS钻研会论文,提倡利用CUDA(一种在 GPU 上停止处置的平台)停止深度进修时,一位与众分歧的 AI 资深人士对我说:“CUDA 编程真的很复杂。作为一种编程范式,这么做工作似乎太多。”我想法压服了他;但另一小我我却没能压服。


IEEE Spectrum:我希望他们现在都佩服了。


吴恩达:我以为是这样。


在曩昔一年里,当我与人们议论以数据为中心的野生智能活动时,我一向在回忆 10 或 15 年前在与人们议论深度进修和可扩大性时的情形。在这一年里,我一向听到一样的杂音:“这没有什么新工具”和“这似乎是一个毛病的偏向”。


IEEE Spectrum:您是怎样界说以数据为中心的 AI 的?为什么您将其视为一场活动?


吴恩达:以数据为中心的 AI 是一门系统地设想数据以促进野生智能系统构建的学科。野生智能系统必须在代码中实现一些算法,比如说神经收集,然后在数据集上练习它。曩昔十年的支流范式是下载数据集,并专注于改良代码。得益于这类范式,在曩昔十年中,深度进修收集有了明显的改良,以致于对于很多利用法式来说,代码——神经收集架构——根基上是一个已处理的题目。是以,对于很多现实利用来说,将神经收集架构牢固下来,转而寻觅改良数据的方式,会更有效果。


当我起头议论这个题目时,有很多从业者举手说,“是的,我们已经做了 20 年了”。现在,是时辰把一些人一向凭直觉在做的工作,酿成一门系统的工程学科了。


与一家公司或一群研讨职员相比,以数据为中心的野生智能活动的范围要大很多。我和我的合作者在 NeurIPS 上构造了一个以数据为中心的野生智能钻研会,前来加入的作者和演讲者的数目让我感应很是兴奋。


IEEE Spectrum:您经常谈到,有些公司或机构只要少许的数据可供操纵。以数据为中心的野生智能如作甚他们供给帮助?


吴恩达:你应当听说过,很多视觉系统的构建利用了数百万张图片,我已经用 3.5 亿张图片构建了一个面部识别系统。为数以亿计的图片构建的架构在只要 50 张图片时是行欠亨的。但究竟证实,倘使有 50 个很是好的样本,那末你便可以构建一些有代价的工具,比如缺点检测系统。在很多行业,底子不存在很是大的数据集,所以我以为,关注点必须从大数据转移到好数据。有 50 个经心设想的样本就足以向神经收集诠释你想让它进修什么。


IEEE Spectrum:您说用 50 张图片练习一个模子的意义是对一个现有的、在很是大的数据集上练习的模子停止微调,还是说一个全新的模子,只是它被设想成只从小数据集进修?


吴恩达:让我描写一下 Landing AI 的感化。在帮助制造商实现视觉检测时,我们经常利用我们自己的RetinaNet。它是一个预练习的模子。话虽如此,预练习只是全部拼图的一小部分。更大的困难是供给工具,使制造商可以挑选合适的图片集[用于调优],并用一样的方式标志它们。我们看到,有一个很是现实的题目,横跨视觉、NLP 和语音,即使是人类标注者也没法分歧地给出适当的标签。对于大数据利用,常见的反应是:假如数据喧闹,我们就获得大量的数据,然后由算法来均化处置。可是,假如你能开辟一些工具来标志数据纷歧致的地方,并给出一个很是有针对性的方式来改良数据的分歧性,那末这将是构建一个高性能的系统更有用的方式。


收集更多的数据常常是有帮助的,但假如你什么时辰都想法收集更多的数据,那能够是一项很是高贵的活动。


例如,假如你有 1 万张图片,其中 30 张属于一个种别,而这 30 张图片的标签纷歧致,我们所做的其中一件事就是构建工具,帮助你发现纷歧致的数据子集。那样,你便可以很是敏捷地重新标注这些图片,提升图片分歧性,进而提升性能。


IEEE Spectrum:这类对高质量数据的关注能否能帮助处理数据集偏见,假如能在练习前更多地挑选数据?


吴恩达:帮助很是大。已经有很多研讨职员指出,数据偏见是致使系统偏见的众多身分之一。人们在数据设想方面已经支出了很多尽力。在 NeurIPS 钻研会上,Olga Russakovsky就这个题目做了一个很是好的演讲。我也很是喜好 NeurIPS 大会上Mary Gray的演讲,她提到,以数据为中心的野生智能只是处理计划的一部分,但不是全数处理计划。像Datasheets for Datasets这样的新工具似乎也是拼图的重要组成部分。


以数据为中心的野生智能为我们供给的其中一个强大的工具是设想数据子集的才能。设想一下,练习一个机械进修系统,发现它在大部分数据集上的表示都还可以,但只是对数据的一个子集有偏见。假如你为了进步在阿谁数据子集上的性能,试图改变全部神经收集的架构,这相当困难。可是,假如你能对数据的一个子集停止设想,你就能以更有针对性的方式处理这个题目。


IEEE Spectrum:正确地说,您所说的数据设想是指什么?


吴恩达:在野生智能范畴,数据清算很重要,但数据清算的方式常常需要大量的手开工作。在计较机视觉中,有人能够经过Jupyter笔记本将图片可视化,也许会发现题目,也许会修复它。但对于那些让我们可以具有一个很是大的数据集的工具,那些可以快速有用地定位存在标签噪声的数据子集的工具,我感应很是兴奋。大概是快速将你的留意力吸引到 100 个类中的某一类,从中收集更多的数据会让你受益。收集更多的数据常常是有帮助的,可是假如你什么时辰都想法收集更多的数据,那能够是一项很是高贵的活动。


例如,我已经指出,当布景中有汽车乐音时,语音识别系统的表示很差。领会了这一点,我便可以在有汽车乐音时收集更多的数据,而不是什么时辰都想法收集更多的数据,那样本钱又高又耗时。


IEEE Spectrum:利用分解数据怎样样,凡是这是一个好的处理计划吗?


吴恩达:我以为,分解数据是以数据为中心的野生智能工具箱中的一个重要工具。在 NeurIPS 钻研会上,Anima Anandkumar做了一个关于分解数据的出色演讲。我以为,分解数据的重要用处不但仅是作为一个预处置步调来增加进修算法的数据集。我希望看到更多的工具,让开辟者可以把分解数据天生作为机械进修迭代开辟闭环的一部分。


IEEE Spectrum:您是说分解数据可以让我们在更多的数据集上实验模子吗?


吴恩达:不是这样。举个例子。例如说,你试图检测智能手机外壳的缺点。智妙手机上有很多分歧范例的缺点。那能够是划痕、凹痕、坑痕、材料变色或其他范例的瑕疵。假如你练习了模子,然后经过误差分析发现它整体上表示很好,但在坑痕上表示很差,那末分解数据天生让你可以更有针对性地处理这个题目。你可以只针对坑痕种别天生更多的数据。


在消耗类软件互联网中,我们可以练习少数几种机械进修模子来办事 10 亿用户。但在制造业,你能够要为 1 万个制造商构建 1 万个定制化的野生智能模子。


分解数据天生是一个很是强大的工具,但也有很多简单一些的工具,我经常会先试一下。比如说数据增强,改良标签分歧性,大概只是要求工场收集更多的数据。


IEEE Spectrum:为了使这些题目加倍具体化,您能经过一个例子来更具体地说明下这些题目吗?当一家公司找到Landing AI并说它在视觉检测方面存在题目时,您若何让他们介入进来并尽力实现摆设?


吴恩达:当客户找到我们时,我们凡是会就他们在检测方面碰到的题目停止扳谈,并检察一些图片,以考证该题目能否可以经过计较机视觉来处理。假如可以,我们会要求他们将数据上传到LandingLens平台。我们经常基于以数据为中心的野生智能方式论向他们供给倡议,并帮助他们对数据停止标注。


Landing AI 的其中一个重要方针是让制造企业可以自己完成机械进修工作。我们的很多工作都是为了确保软件快速且易于利用。我们经过机械进修开辟的迭代进程为客户供给倡议,比如若何在平台上练习模子,何时以及若何改良数据的标注,从而进步模子的性能。我们会一向供给培训和软件支持,直到他们将练习好的模子摆设到工场的边沿装备上。


IEEE Spectrum:你们若何处置不竭变化的需求?假如产物发生变化或工场的照明条件发生变化,模子能跟得上吗?


吴恩达:这和制造商有关系。在很多情况下城市稀有据漂移。但也有一些制造商,一条生产线运转了 20 年,几近没有什么变化,所以他们不感觉未来 5 年内会有什么变化。稳定的情况使工作变得相对简单。对于其他制造商,我们供给工具,在发生严重数据漂移题目时停止标志。我发现,赋予制造业客户改正数据、重新练习和更新模子的才能真的很重要。由于倘使有什么变化,而且现在是美国时候清晨 3 点,我希望他们可以立即调剂他们的进修算法,以保证运营


在消耗类软件互联网中,我们可以练习少数几个机械进修模子来办事 10 亿用户。但在制造业,你能够要为 1 万个制造商构建 1 万个定制化的野生智能模子。这里的应战是,假如没有 Landing AI ,你若何做到这一点,是招聘 10000 名机械进修专家吗?


IEEE Spectrum:所以您是说,为了使其可扩大,您必须赋能客户来做大量的练习及其他工作。


吴恩达:是的,完全正确!这是触及全行业的野生智能题目,不但仅是在制造业。看看卫生保健范畴。每家医院的电子健康记录格式都稍微分歧。每家医院该若何练习自己定制化的野生智能模子?期望每家医院的 IT 职员发现新的神经收集架构是不现实的。摆脱这类窘境的唯一方式是构建工具赋能客户,为他们供给工具来设想数据和暗树模畴常识,使他们可以构建自己的模子。这就是 Landing AI 希望在计较机视觉范畴告竣的方针,野生智能范畴需要其他团队在其他范畴完成类似的方针。


IEEE Spectrum:关于您所做的工作或以数据为中心的野生智能活动,您以为还有什么需要人们领会的吗?


吴恩达:在曩昔十年中,野生智能最大的改变是向深度进修改变。我以为,在这个十年里,最大的改变很有能够是向以数据为中心的野生智能改变。随着现现在神经收集架构的成熟,我以为,对于很多现实的利用来说,瓶颈将是我们能否有用地获得我们所需的数据,开辟出结果杰出的系统。以数据为中心的野生智能活动在全部社区有着庞大的活力和动力。我希望有更多的研讨职员和开辟职员可以加入进来,为之尽力。

下一篇:人工智能概述

最新评论(0)

© 2022-2024 企业新闻网 Powered by Discuz! X3.4

本站内容由网友分享或转载自互联网公开内容,如有侵权请反馈到邮箱 1415941@qq.com,我们会在3个工作日内删除,加急删除请添加站长微信:15314649589

微信扫描,加站长微信

企业新闻网