学霸的模拟器系统 第207节
ZINC数据库。
这是加州大学旧金山分校维护的一个免费数据库,里面包含了超过七亿种可以商业购买的小分子化合物结构。
对于之前的他来说,这是一个无用的仓库。
因为这些数据都没有“标签”——没人知道这些分子能不能治病,也没人知道它们能结合什么蛋白。
对于传统的监督学习算法来说,没有标签的数据,就是垃圾。
但现在,在林允宁眼里,这是一座金矿。
这是一本包含了七亿个词汇的“化学字典”。
他不需要知道这些分子能不能治病。
他只需要让AI看着这些分子,去学习化学的“语法”。
哪怕它不知道这个分子有什么用,但只要它看多了,它就会知道:
苯环通常是平的,碳原子通常连着四个键,氮原子旁边经常会有氢键受体……
这叫“自监督学习”。
在2006年,这还是一个只存在于顶级计算机科学家脑子里的模糊概念,连谷歌都还没开始大规模应用。
但林允宁在学习机器学习时,在一些文献中读到过。
他决定赌一把。
他打开终端,敲下了一行下载命令。
(命令违规,此处省略……)
很快,硬盘指示灯开始疯狂闪烁,进度条像蜗牛一样缓慢爬行。
为了让AI学会“识字”,他需要设计一个特殊的训练任务。
林允宁新建了一个代码文件,手指在键盘上飞快地敲击。
他设计了一个类似“完形填空”的游戏。
他编写了一个预处理程序,随机地把ZINC数据库里那些分子结构的一部分“遮住”(Masking)。
比如,把一个苯环上的碳原子挖掉,或者把侧链上的氨基抹去。
然后,他要求AI根据剩下的部分,去“猜”被遮住的是什么。
如果猜对了,说明AI理解了分子的结构规律;如果猜错了,就通过反向传播算法调整参数,直到猜对为止。
这是一个不需要人工标注、不需要昂贵实验数据的过程。
只要有足够多的分子,AI就可以在这个无人监管的“图书馆”里,通过无数次的自我博弈,从一个对化学一无所知的“文盲”,变成一个精通分子语言的“大师”。
等到它读完了这一亿本书,学会了所有的“词根”和“语法”。
再把它拉回到那三千个真实的药物数据面前。
那就是降维打击。
屏幕上,ZINC数据库的压缩包正在一个接一个地下载完成。
100MB……500MB……1GB……
数亿条沉睡的分子数据,如同一条条看不见的河流,顺着网线涌入服务器的硬盘。
半个小时后,数据下载成功。
林允宁的训练程序也编写完成。
他敲下了最后一行代码,按下回车。
【Pre-training Task: Masked Molecular Modeling (MMM)】
【Status: Initializing...】
屏幕上的光标闪烁了一下,然后变成了一个旋转的进度条。
这是一场漫长的、寂静的蜕变。
在这个寒冷的冬夜,在没有人注意的角落里,一个刚刚面世的AI,如同初生的婴儿。
它连话都不会说,却正抱着一本厚厚的字典,开始像那晚的沈知夏一样,一个字、一个字地啃读起来。
……
第168章 撕裂与重组(求订阅求月票)
服务器的风扇在深夜里发出一阵阵低沉的咆哮,像是一头不知疲倦的钢铁巨兽。
屏幕上,那个没有任何标注的预训练模型正在疯狂地进行着“完形填空”。
它不知疲倦地将ZINC数据库里那些数以亿计的分子结构拆散,挖掉其中的碳原子、氮原子、氧原子或者某个苯环,然后再根据剩下的残缺部分,试图把被挖掉的东西填回去。
这是一个枯燥的自我学习过程。
没有老师,没有答案,它只能在数亿次的试错中,一点点摸索出化学键连接的概率,学习原子之间那种看不见的引力。
……
漫长的圣诞节假期,一直延续到2007年的新年。
芝加哥大学校园空荡荡的,盖了厚厚一层雪,连松鼠都懒得出来觅食。
戈登综合科学中心的会议室里,气氛却有些焦灼。
埃米特·卡特对着白板上那个为了兼容熵增原理而变得臃肿不堪的“弗兰肯斯坦方程”,眉头皱得能夹死一只苍蝇。
“恕我直言,这太丑陋了,宁。”
埃米特用手指关节敲着白板,发出笃笃的脆响,“你看这个耗散项,它就像是给一辆法拉利装上了拖拉机的轮子。我们在数学上做了太多妥协,这会让数值模拟的精度大打折扣。”
“但只有这样,才有做实验的意义。”
玛利亚在一旁小声辩解,“如果不加耗散,黑洞视界附近的能量密度会无限发散。”
“发散是因为我们的截断做得不够好!”埃米特坚持己见。
林允宁坐在椅子上,手里转着笔,听着两人的争论,眼神却有些发直。
他已经盯着屏幕超过十二个小时了,即便有【深度专注LV.1】天赋的加持,脑子也已经像是一团浆糊。
就在这时,放在桌上的黑莓手机震动起来。
林允宁看了一眼,是沈知夏。
“喂?”
他的声音沙哑得像吞了把沙子。
“下楼。”
电话那头,沈知夏的声音干脆利落,“我在Gordon中心一楼大厅。给你带了点剩下的饺子,还有我妈熬的汤。”
这段时间,沈知夏所在的伊利诺伊州立大学正在和芝加哥大学搞一个田径的联合训练项目,因此她经常来海德公园这边训练。
不忙的时候,她会顺路给林允宁送一些孟筱兰做的家常饭。
林允宁挂了电话,揉了揉僵硬的脖子:“你们先讨论,我下去拿点吃的。”
他拖着沉重的步子走出实验室,按了电梯。
电梯门在一楼打开。
透过大厅的玻璃门,林允宁一眼就看到了沈知夏。
她并没有穿平时的便装,而是裹着一件长款羽绒服,背后背着那个硕大的专业运动包,脚上是一双亮色的跑鞋。
林允宁刷卡走出闸机。
“给。”沈知夏把手里的保温桶递过来,“还是热的。”
林允宁伸手去接,手腕却因为长时间敲代码有些不受控制地抖了一下,差点没拿稳。
沈知夏的眉头立刻皱了起来。
她上下打量着林允宁——
头发乱得像鸡窝,眼窝深陷,脸色苍白得像吸血鬼,整个人散发着一种快要猝死的颓废气息。
“你几天没睡觉了?”她问。
“两天……或者三天?”林允宁反应迟钝地想了想,“模型在跑预训练,我得盯着。”
“那就是说,现在机器在干活,你没事干?”
“可以这么说,但是……”
“别但是了。”
沈知夏一把夺回保温桶,放在大厅的前台桌子上,然后反手抓住了林允宁的手腕。
“跟我走。”
“去哪?上面还有人等着……”
“去Ratner体育中心。”沈知夏指了指自己背后的包,“我正好要去训练,既然你现在是待机状态,那就跟我一起去。你看看你现在这副德行,跟医学院的大体老师唯一的区别就是你还会喘气。”
上一篇:影视:开局从同过窗开始进步!
下一篇:返回列表
