莱斯大学的科学家们取得了深度学习的突破

在之前的一篇深度学习文章中，我们讨论了推理的工作方式——使用已经训练好的神经网络来分析数据——可以在相当便宜的硬件上运行，但是运行神经网络“学习”的训练工作量要昂贵几个数量级。

特别是，算法的潜在输入越多，在分析其问题空间时，缩放问题就越失控。这就是为什么莱斯大学的Tharun Medini和Anshumali Shrivastava进行了MACH的研究项目。MACH是通过哈希法合并的平均分类器的首字母缩写。内存占用比以前的大规模深度学习技术要小2-4倍。

在描述极端分类问题的规模时，Medini提到了网上购物搜索查询，并指出“网上有超过1亿件商品”。如果有什么不同的话，沐鸣开户测速这是保守的——一家数据公司声称，仅亚马逊美国就销售了6.06亿种不同的产品，而整个公司在全球提供了超过30亿种产品。另一家公司估计，美国的产品数量为3.53亿。Medini继续说，“一个神经网络接受搜索输入并从1亿个输出(或产品)中进行预测，通常每个产品会有2000个参数。你把它们相乘，神经网络的最后一层是2000亿个参数…我说的是一个非常非常简单的神经网络模型。”

在这种规模下，一台超级计算机可能需要tb级的工作内存来存储模型。当您使用gpu时，内存问题会变得更糟。GPU处理神经网络工作负载的速度比一般用途的cpu快几个数量级，但每个GPU的RAM相对较少——即使是最昂贵的Nvidia Tesla GPU也只有32GB的RAM。Medini说:“由于大规模的gpu间通信，训练这样的模型是禁止的。”

在这个例子中，mach并没有对全部1亿个结果(产品购买)进行培训，而是将它们分成三个“桶”，沐鸣开户测速每个桶包含3330万个随机选择的结果。现在，MACH创造了另一个“世界”，在这个世界里，1亿种结果再次被随机地分成三个部分。至关重要的是，随机排序在世界一和世界二中是分开的——它们都有相同的1亿个结果，但是它们随机分布在不同的桶中的结果是不同的。

在实例化每个世界之后，搜索被同时提供给“世界一”分类器和“世界二”分类器，每个分类器只有三个可能的结果。“这个人在想什么?”斯里瓦斯塔瓦问道。“最有可能的类是这两个桶之间的公共类。”

此时，有9种可能的结果——世界一中的3个桶乘以世界二中的3个桶。但是MACH只需要创建6个类——世界一的3个桶加上世界二的3个桶——来模拟9个结果的搜索空间。随着更多的“世界”被创造出来，这种优势会得到改善;一个三世界的方法只产生9个类的27个结果，一个四世界的设置产生12个类的81个结果，以此类推。“我付出的成本是线性的，而且我得到了指数级的改善，”Shrivastava说。

更好的是，MACH使自己更适合在较小的个体实例上进行分布式计算。世界“甚至不需要彼此交谈，”Medini说。“原则上，你可以在一个单独的GPU上训练每个(世界)，这是用非独立的方法永远做不到的。”在现实世界中，研究人员将MACH应用到一个4900万件产品的亚马逊培训数据库中，在32个不同的世界中随机将其分成1万个桶。这将模型中所需的参数减少了一个数量级以上，而且根据Medini的说法，训练模型所需要的时间和内存都比一些有可比参数的模型的最佳训练时间要少。

当然，如果我们不以一个关于意外后果的愤世嫉俗的提醒来结束这篇文章，它就不会是一篇关于深度学习的文章。不言而喻的事实是，神经网络实际上并没有学会向购物者展示他们想要的东西。相反，它正在学习如何将查询转化为购买。神经网络不知道或不关心人类实际上在搜索什么;它只是知道那个人最可能买什么——如果没有足够的监督，经过训练以这种方式增加结果概率的系统，最终可能会向流产或更糟的妇女推荐婴儿产品。

相关推荐：