云机器学习仍然悬而未决

  • 来源:TechTarget中国
  •  2018-01-15
  •   浏览 462 次

在IT圈中,云机器学习仍然是一个热点话题,因为供应商们正试图让这项技术更适合地为主流企业所用。

谷歌公司的母公司Alphabet的主席Eric Schmidt在一年前召开的首届谷歌云大会上曾预测说,机器学习将在五年内成为每一家主流IPO的基本功能。

这是一个比较大胆的预言,因为缺乏数据科学家的企业基本不会考虑实施这项技术。它也表明了,谷歌公司是如何计划使用人工智能技术来硬生生挤入公共云市场的。

一年时光转瞬飞逝,云机器学习和“AI大众化”已成为了同期会议上最受关注的话题之一——无论是台上台下皆是如此。

“毫无疑问,机器学习是一个我非常感兴趣的主题,”API管理公司Mashery的产品经理Jeremy Pollock说。“每一个小玩意,或者说大多数演示都包含了机器学习的某些方面。”

与本月早些时候在旧金山参加谷歌下一代云大会的万余名与会者一样,Pollock也对云机器学习服务的潜力产生了浓厚的兴趣,但是仍然无法确定他的业务部门可以如何来使用它们,或者说他们的注意力只是简单地在于IT专业人士是否对最新炒作感到震惊。

“我还不确定,现在的人工智能是平民大众的AI,”Pollack说。“我怀疑在实际应用中使用者要花好多功夫来思考他需要回答何种类型的问题、需要解决什么样问题以及那种机器学习算法更适合具体问题等。”

而在这方面,继续在机器学习技术上投大注的公共云供应商们则直接面对着一些障碍。亚马逊网络服务(AWS)、谷歌以及微软Azure都急于让客户能够更容易地使用那些能够有可能将大量数据投放到他们平台上的服务,但是问题仍然是企业用户如何才能够轻松地使用这些方法,以及公共云是否是执行这些功能最合适的所在。

企业来吧

公共云供应商们从多个角度在试水人工智能。其中一些得到了希望开发复杂系统的企业的认可,而另一些则旨在通过打包软件来让企业的发展之路变得更为通畅。近来,后者已经通过机器学习算法、建模工具包、以及诸如语音与视觉识别的应用API成为了焦点。

数据驱动的机器学习是非常复杂的,在整个过程中也是很容易出错的,纽约数据科学研究院的创始人兼CTO Vivian Zhang说。随着企业用户逐渐深入使用这些原本由云供应商承担的技术,他们可能会感受到难以置信的巨大压力。

“交叉验证,他们如何做建模,如何做到模型自动调试以达到最佳性能——这些都是具有最高优先级的任务,”Zhang说。“这就是为什么我看到AWS、Azure和谷歌正在为企业用户提供机器学习工具包的原因所在。”

在某些方面,公共云供应商们非常适合干需要花上数百小时用于模型训练的基础性工作。三家主要供应商都拥有着多年的机器学习应用经验,无论是亚马逊的零售业务、或者谷歌的搜索引擎或者微软的Office套件和Xbox都是他们各自具有突出成绩的业务领域。

“这种机器学习,鉴于其规模与复杂性,总是会成为某个大公司能够交付的一个服务,”总部位于伦敦主营Ubuntu开发的Canonical公司执行副总裁兼云总经理Anand Krishnan说。

推动机器学习服务也是云供应商们在超越商品基础设施即服务竞赛中胜出的一部分,他们需要提供尽可能多的服务,美国总部设在纽约的全球性企业Capgemini的首席云负责人Charlie Li说。

“这样做能够鼓励更多的企业把他们的工作负载迁移至公共云,”Li说。“无论是机器学习还是物联网,这些都恰好是人们所需要的最新服务,而这些越来越多的服务也成为了业内竞争者们在明面上的竞争筹码。”

现在说某一家供应商已经在这个市场上遥遥领先还为时尚早,而且很多创新点还没有真正落地。但是,毋庸置疑的是机器学习已经有了较大发展,特别是在依赖分析技术来获得竞争优势的媒体业和零售行业更是如此, Krishnan说。

“这绝对是一大热门,但在未来三到六个月内还不会形成大面积生产规模,”他说。“需要花费时间来深入发展,在两年前机器学习还属于学术界的话题,而今天它已成为了产业界的关注焦点。”

机器学习,现状是怎样?

当这些供应商们推动机器学习服务时,他们所面临挑战的一部分是他们可能会回答企业还没有提出的问题。熟悉程度已有所提高,厂商纷纷推出更多的现实应用案例,但是显然用户还需要更多的专项培训。

“对于那些新手或刚入门的用户,应当让他们弄清楚如何使用机器学习服务来解决现实问题,或者更重要的是如何区分出哪些是可以用这项技术来找到答案的问题?”总部设在英格兰Richmond的初创企业Skipjaq公司的 CEO Rob Harrop这样问道,这家公司主要是在AWS的机器学习服务基础上开发一个性能优化服务。“在知道与不知道之间,存在着一个巨大的差距。”

Skipjaq公司使用机器学习作为其服务的一部分,但是由于客户已经有了认知疲劳,该企业低估了其产品所能发挥的作用,Harrop说。

与IBM Watson相关的一些机器学习产品的设计目的是旨在解决具体问题,但是在大多数情况下公共云供应商们所作出的努力仍然处于初期阶段。

Capgemini的客户已经开始测试简单的功能,主要是使用机器学习来实现某些任务的自动执行,例如当关闭服务器时,或将亚马逊的Alexa整合至运营中,Li说。

公共云的复杂性与问题

公共云供应商们一直都在追逐更高级的用户,即使那些企业用户都是业内新兵。他们已经增加了为深度学习量身定做使用GPU的虚拟机,并采用了诸如TensorFlow和MXNet之类的开源项目。还有越来越多的初创企业基于公共云及其内置机器学习功能来开发相关服务。

Qubit是一家总部设在英国伦敦的营销分析公司,该企业就将其部分工作负载从AWS迁往谷歌以便使用Dataflow、Pub/Sub和BigQuery来开发企业自己的机器学习平台。在云中大规模整合机器学习模型的最困难部分在于获得正确的数据流水线,这意味着要利用到更高级的服务。对于仍然使用传统系统的企业来说,使用这些高级别服务是一个巨大的飞跃,Qubit公司产品经理Alex Olivier说。

“如果你关注过拥有传统系统的大型企业,那么你就会发现当他们谈及云时他们会担忧扩张和迁移,”Olivier说。“我们的目标是如同我们自身这样的小微企业,他们将会愿意使用云所提供他们使用的原生API设计方式。”

但是,根据客户使用的不同服务类型,他们可能会将一些预包装服务视为非启动机器。这些工具可以轻松地帮助用户将API指向数据,或者将一些人工智能代码加入到入门者的已有代码中,但是对于那些真正想要通过机器学习来改变其业务模式的企业来说,这些工具是无法帮助他们走得更远的,Li说。

“为了做到这一点 ,用户可能需要建立一支数据科学团队,这个团队可能需要拥有自行开发算法的能力,以便根据实际应用情况进行调整和自定义,而目前的公共云供应商们仍然没有实现用户所需的足够强大功能和完全自定义,”Li说。

另一个主要的问题就是成本,至少对于那些在内部拥有足够多工作负载的用户来说是这样。机器学习在公共云的成本要比现有的内部运行方式高出四至五倍,尤其是在数据存储在云中的情况更是如此,Zhang说。这是因为模型训练所需的计算水平所致,因为模型训练通常可能需要历经数百小时的时间才能收敛。

Nuance通讯公司是一家总部位于马萨诸塞州Burlington从事Dragon语音识别软件产品开发的企业,该公司在机器学习和深度学习方面投入了巨资。公司已将其四分之一的工作负载迁移至Azure,并计划在项目完成时将至少完成一半工作负载的迁移。

Nuance使用Azure来提供一些依赖于机器学习的服务,但它仍然在它的自有数据中心保留了实际处理。如何进行工作负载的部署(是在本地还是在云)取决于存储需求,Nuance公司工程高级副总裁Joe Petro说。

“如果用户正试图存储和处理TB级的数据信息,那么这些数据的膨胀速度是非常惊人的,很快就会让你的工作不得不暂停下来,”Petro说。“但是,如果用户在那里运行一个算法,并通过它来进行循环训练,这些都是与网络、计算以及合适的存储资源相关的,那才是有意义的。”安全性也是一个问题,特别是缺乏传统的防火墙来确保其他企业不会使用相同的数据集合算法而出现竞争对手。

当公司询问他们需如何将数据提供给云平台进行处理时,对机器学习的大部分幻想就会随之产生了,Skipjaq的Harrop说。所以,在谷歌大会上与会人员非常重视数据传输的安全性并不是没有原因的,例如用于数据准备和集成的新工具,以及一个用于对敏感数据进行分类和修改的防数据丢失API。

“一众企业都感到非常兴奋,但是为了工作用户需要大量数据以正确的容量出现在正确的位置,如果用户确实有大量的数据,那么这就会成为安全漏洞的目标,”他说。

虽然有缺点,但是供应商们还是会让他们的产品继续成熟起来,因为他们试图让云机器学习服务更能为广大用户接受,并成为他们的新的卖点。大多数企业仍然会进行基准计算,但是一旦这些服务变得更加稳定和可预测,客户们就很可能向云迁入更多的工作负载,Zhang说。

“有趣的是,我们一方面看到诸如谷歌和Facebook这样的企业正在领导着云发展趋势并真正地致力于推动高水平的机器学习人工智能技术,而市场的另一面还显得如同婴儿般稚嫩,”她说。“他们不知道如何更容易地汇集数据,他们仍然在很大程度上依赖着微软的Excel电子表格。

“展望未来一到两年,他们将从开始学步发展到开始奔跑,”Zhang说。

To Top