学霸的模拟器系统第315节

　　她没想到，这位刚刚在主会场享受完掌声的当红炸子鸡，会跑到这个冷清的角落来。

　　“林先生。”

　　李飞飞礼貌地笑了笑，笑容里带着一丝疲惫，“刚才的演讲很精彩。虽然我也没完全听懂那个同调群。”

　　“数学只是工具。”

　　林允宁站在海报前，认真地看着上面的架构图，“我在意的是地基。我了解过你的ImageNet项目，请问现在的进展如何？”

　　“不太好。”

　　李飞飞是个很坦诚的人，她苦笑了一声，“我们雇佣了来自167个国家的近5万名亚马逊Mechanical Turk工人来打标签。数据量是上来了，但是……误差率居高不下。

　　“现有的SVM和浅层神经网络，在这么大的数据量面前，就像是小马拉大车，根本跑不动。

　　“没想到你对这个感兴趣，现在大家都在讨论你的几何流和核方法，没人关心数据。他们觉得只要算法足够精妙，小样本也能学出花来。

　　“大家都说我在做无用功，说与其花钱搞数据，不如多优化一下算子。”

　　“那是他们错了。”

　　林允宁转过头，看着李飞飞的眼睛，语气出人意料地笃定，“数据是新时代的石油。在这个算力即将爆炸的前夜，谁掌握了最大的数据集，谁就掌握了定义下一代智能的权力。

　　“李教授，你现在的问题不是石油太多，而是提炼石油的引擎——也就是神经网络的架构，还不够强，我说的对么？”

　　李飞飞愣了一下。

　　她没想到这个搞理论物理出身的天才，竟然比很多计算机同行更懂数据的价值。

　　“你说得对。”

　　这位普林斯顿的助理教授叹了口气，“这也是我最头疼的。数据量上去了，可是模型跟不上。无论是SVM还是浅层神经网络，一旦喂进去海量数据，误差率不仅不降，反而居高不下。我在想是不是哪里出了问题。”

　　“找个地方聊聊？”

　　林允宁指了指旁边的咖啡座，“我最近有些新想法，也许你会感兴趣。”

　　……

　　咖啡座里，人声嘈杂。

　　两人找了个角落坐下。

　　“现在的网络有个悖论。”

　　李飞飞拿出一张图表，上面画着两条曲线，“理论上，网络层数越深，表达能力越强。但实际上，当我们把层数从20层增加到50层时，训练误差反而变大了。这不科学，这叫‘退化问题’（Degradation Problem）。”

　　“因为信息在传递过程中失真了，我最近有一个新的想法，我称之为‘残差神经网络’，正好想听听你的意见。”

　　林允宁手指轻轻敲击着桌面，淡淡说道。

　　他没带电脑，于是随手从桌上的纸巾盒里抽出一张餐巾纸，掏出随身带的圆珠笔，在纸上画了一个示意图：

　　“李教授，想象一下传话游戏。如果你想把一句话传给第100个人，中间每过一个人，信息就会因为‘非线性’的理解而扭曲一点。到了最后，话全变了。”

　　他在纸上画了一个方框，代表卷积层。

　　“现在的做法是强迫网络去学习从X到Y的完整映射 F(x)。这很难。”

　　林允宁在方框旁边，画了一条弯曲的弧线，直接把输入X连到了输出端。

　　在那条弧线上，他重重地画了一个加号：+。

　　H(x)= F(x)+ x

　　“我们给它修一条‘直通车’。”

　　林允宁指着那个简单的公式，“这就是‘残差块’（Residual Block）。

　　“我们不再让网络去学习完整的输出H(x)，而是让它只学习‘变化量’——也就是残差 F(x)= H(x)- x。

　　“如果这一层不需要做什么改变，网络只需要把 F(x)置为0，那么输出就自动等于输入 x（恒等映射）。

　　“这样一来，梯度就可以顺着这条高速公路，毫无损耗地传回前面的层。别说50层，就是100层、1000层，也能训练。”

　　李飞飞盯着那张餐巾纸。

　　那个结构简单得像是一个大一学生的作业。

　　但正是这种极致的简洁，让她感到一阵头皮发麻。

　　困扰了AI界几十年的深度瓶颈，竟然被一条简单的“跳线”给破解了？

　　“这……这太天才了！”

　　李飞飞猛地抬起头，眼神里全是震撼，“Identity Mapping……恒等映射！就这么简单？为什么没人想到？”

　　“因为大家都在想怎么把网络变得更复杂，却忘了有时候‘什么都不做’也是一种智慧。”

　　林允宁笑了笑。

　　“但是……”

　　李飞飞忽然想到了什么，眼神中的兴奋稍稍褪去，“算力……普林斯顿的经费有限，训练这种深层网络需要的GPU算力是天文数字。我现在连ImageNet的存储服务器费用都快付不起了。”

　　2007年，NVIDIA刚刚发布第一代Tesla C870计算卡，CUDA生态还是一片荒芜。

　　训练一个几十层的网络，简直是在往无底洞里面扔钱。

　　“算力不是问题。”

　　林允宁等的就是李飞飞这句话。

　　他靠在椅背上，端起咖啡抿了一口，露出了商人的微笑。

　　他语气轻松，仿佛他背后站着整个谷歌的数据中心，“以太动力虽然是家小公司，但在高性能计算上的投入从不吝啬。

　　“李教授，我们做个交易吧。

　　“以太动力可以为你提供基于‘残差网络’（ResNet）的全套算法支持，并且在不远的未来，在我们的服务器上帮你训练第一版ImageNet分类模型。”

　　李飞飞震惊地看着这个年轻人。

　　她知道以太动力刚赚了辉瑞的钱，但没想到他们竟然富到可以烧钱训练大模型。

　　“条件呢？”她问道。

　　李飞飞是聪明人，知道天下没有免费的午餐。

　　“我要ImageNet完整数据集的永久商业使用权。”

　　林允宁图穷匕见，声音不大，却透着不容置疑的坚决，“以及未来所有版本更新和衍生数据的优先共享权。”

　　李飞飞愣住了。

　　她原本以为林允宁会要论文署名，或者是专利共享。

　　没想到他要的竟然是……数据？

　　那个现在被所有人嫌弃、却又大得吓人的数据集？

　　“就这些？”

　　李飞飞有些不敢相信，“你确定？这些图片现在除了占硬盘，还没人知道怎么用它们赚钱。”

　　“我很确定。”

　　林允宁笑了。

　　没人比他更清楚，再过几年，这堆“占硬盘的图片”，将成为点燃深度学习大爆炸的燃料。

　　那是AGI（通用人工智能）时代的入场券。

　　虽然训练这个ResNet可能会烧掉他账上刚趴热乎的几百万美金，甚至可能会被方雪若骂得狗血淋头。

　　但这笔买卖，太值了。

　　“成交。”

　　李飞飞伸出手，眼中满是感激，“林，谢谢你。你不仅救了ImageNet，你可能救了整个深度学习。”

　　……

　　深夜，温哥华费尔蒙酒店。

　　窗外的雨又开始下了，淅淅沥沥地敲打着玻璃。

　　林允宁回到房间，把那张画着ResNet草图的餐巾纸夹进了笔记本里。

　　虽然刚刚在咖啡馆里表现得豪气干云，但他心里清楚，回去之后怎么跟方雪若解释这笔巨额算力开销，是个大问题。

　　“算了，那是明天的事。”

　　他打开电脑，准备查看一下邮件。

　　屏幕右下角，一个红色的加密邮件图标正在闪烁。

　　发件人：赵振华。

　　林允宁神色一凛，迅速点开。

　　没有寒暄，直接是干货。

　　【允宁：

　　首先恭喜你最近发表的有关‘暗流体’和‘复规范流’的轰动性论文，相当了不起的工作！

　　回到我们的课题。

首节上一节 315/566下一节尾节目录 txt下载

上一篇：影视：开局从同过窗开始进步！

下一篇：返回列表

学霸的模拟器系统 第315节

推荐阅读

学霸的模拟器系统第315节