首富从AI浪潮开始 第196节
他现在非常想让那个前同事过来现场看看。
第一百八十四章 处理过了,干净
周一上午十点,鼎盛大厦三十二层。
张弛的办公室朝南,晴天的时候能看到陆家嘴的轮廓。今天有雾,窗外是一片均匀的灰白。
刘亚光进来的时候,张弛正在看一份周报,头没抬:“说。”
“源码那边对接上了。”刘亚光在沙发上坐下来,声音压得很低,“他们往算力集群里送的数据,我们这边实时能拿到副本。”
张弛放下手机,看了他一眼:“现在进来的是什么?”
“预训练的数据。”刘亚光说,“就是洗过的语料。”
张弛皱了一下眉:“洗过的语料是什么意思?他们模型意图理解很强,是用的这个数据吗?”
刘亚光正了正身子,同时摇摇头:“训练大模型不是一步到位的。”
他停顿了一下,思考该怎么说:“我给您解释一下,这分几个阶段。第一步叫预训练。这个阶段喂给模型的是海量的原始文本——网页、书籍、论文、论坛帖子,来源越杂越好,量越大越好,好一点的模型这个阶段要喂几万亿个词。模型在这个阶段做的事很简单,就是反复猜下一个词是什么。给它看「今天天气」,它猜「很好」;给它看「深度学习的本质是」,它猜「优化」。猜对了往前走,猜错了调参数,反复几千亿次,模型就慢慢学会了语言的规律,学会了世界上大量的知识和常识。”
张弛点点头。
刘亚光继续说道:“这个阶段的数据不需要人工标注,有什么文本就喂什么,但要先洗——把乱码、重复内容、低质量的垃圾过滤掉,不然模型学了一堆噪声,反而有害。洗数据这个活听起来简单,但洗得好不好,直接影响预训练出来的模型底子有多扎实。”
“那第二步呢?”
“第二步才是让模型真正聪明起来。”刘亚光说,“要让它理解人的意图,知道同样一句话背后用户真正想要什么,这需要另一批数据,那些专门标注过的,一条一条告诉模型「这个场景下正确答案是这个」。这批数据量小很多,但每一条都要人工判断,很难批量生产。按照您之前告诉我的,源码的模型之所以意图理解强,核心就是这批标注数据。”
张弛听完总结道:“他们现在进来的是第一步的数据,但我们真正想要的是第二步的那批。”
“对。”刘亚光肯定道。
张弛看向窗外思考了几秒,又问:“技术上能确认,他们往云上送的数据,我们全都能拿到?”
“应该能的。”刘亚光说,“只要数据进了他们用的算力节点,我们这边就有完整副本,他们那边看不出来。”
张弛靠回椅背,语气平稳:“那先把这批预训练的语料导出来用。”
刘亚光有些惊讶:“这批数据没有标注,价值有限,我们自己也有语料——”
“我知道。”张弛说,“我不是为了这批数据。主要是看看这条通道稳不稳,能不能安全导出。先跑一遍,如果他们那边没有动静,路径没问题,后面就好办了。”
他似笑非笑一下,补充道:“反正不用白不用,给坤元那边送过去,用不用看他们了。”
刘亚光点了点头,说:“明白了,张总。”
从张弛办公室出来,刘亚光一路出了鼎盛大厦,坐上了去鼎盛云园区的公交车。
刘亚光的工位在云园区,他今天是特意来给张弛当面汇报的。
下午两点,刘亚光在工位上给张弛发了条消息:“张总,数据弄好了。”
张弛过了几分钟才回复:“干净吗?”
刘亚光:“处理过了,干净。”
张弛:“给数据组发过去吧。”
刘亚光放下手机,在电脑上打开内部通讯,给吴英豪发了个消息:“在吗?”
然后他拿起手机,给吴英豪的微信发了一条:“有新数据。”
不一会,吴英豪发了个戴绿头盔的表情包回来。
刘亚光把一个加密压缩包的链接从内部通讯发了过去。
然后他在微信里给吴英豪有发了一句话:“密码老样子,走数据入库流程,来源写外部采购,批次号我生成好了,你们填进去就行。”
吴英豪的微信消息回复很快:“质量怎么样?”
“洗过的,能用。”
“好。”
吴英豪不是第一次从刘亚光这拿数据了,这事不干净,两人有固定的默契。
数据组每隔一段时间就会有这种批次进来,来源五花八门,有的是爬的,有的是买的,有的是“合作方共享”的。填外部采购是最干净的写法,因为采购来源很杂,审计不容易查到。
这种事不是第一次,也不会是最后一次。
三天后,坤元项目组。
刘大海盯着屏幕上的一条曲线,看了大概三分钟没动。
这是坤元这一轮预训练的Loss曲线。
Loss是损失值——可以理解成模型犯错的程度,数字越低说明模型学得越好。训练的过程就是让这条曲线一路往下走。
这条曲线确实在往下走,但走得比他预期的快。
刘大海把时间轴拉长,把上一轮的曲线叠进来对比。差异很明显,不像是误差范围内的波动,应该是系统性的提升。
他在心里排除了几个可能的原因:学习率没改,模型架构没动,算力配置没变。难道这批数据有特殊?
刘大海立刻站起来,动身去了数据组。
数据组的负责人叫吴英豪,三十出头,戴眼镜。数据组主要的工作就是收集和清洗数据。
这是个脏活,累活,在大模型开发的产业链里比较底层。
刘大海过去的时候他正在核对一份入库日志。
“英豪,这轮训练咱用了什么新数据没有?”刘大海拍了下他的椅背。
吴英豪转过来,打了个招呼。又翻了翻日志:“最近的新入库的,我看看……几天前外部采购的了一批,放进去用了。”
刘大海点点头,说:“这批数据质量贼拉好了,Loss下来了,还比上一轮快不少,应该少不了这批数据的功劳。”
吴英豪愣了一下,随即起身往刘刘大海耳边凑了凑,语气里带了点小心翼翼的热切:“大海老师,这批数据进来的时候噪音很多的,是我们自己花时间处理的,好几个同事加班跑的清洗流程,您觉得效果好?”
吴英豪笃定了刘大海不会追问数据的具体来源,因为他从不过问,这也不是他的职责范围。
“洗得好啊!”刘大海说,语气很认真,“这批比之前做的都好,你们继续保持。”
吴英豪笑着应下,连连点头,快速地扫了下周围确认没有往这里留意他们谈话的同事。
刘大海回到工位,打开本周的训练周报,在进展一栏里加了几行:
「预训练本轮数据质量较上轮明显提升,Loss收敛速度加快约9%。初步判断与新入库语料质量相关,数据组本轮清洗工作到位。坤元预训练阶段进展顺利,按计划推进。」
他看了一遍,改了两个字,提交。
周报发出去,进了林绍峰的收件箱。林绍峰是负责算法和AI的副总裁,每周五下午会把各组的周报汇总,转给需要知道的人。这是固定流程,四五页纸,今天的内容不少,坤元这段藏在第三页中间,不长,没有标红,没有加粗。
当天晚上,张弛在手机上收到林绍峰转发过来的汇总周报。
他快速往下划,找和算力相关的部分。坤元的进展在第三页,他划过去,眼神在上面停了不到两秒,继续往下看。没什么特别的,预训练在跑,Loss在降,一切正常。
每个人都在站在自己的那块拼图上,看见的都是真的,拼成什么却没人知道。
……
与此同时,坐在办公室里标数据的韩路一疑惑地看了看视界:最近经验值是不是涨的更快了?
第一百八十五章 侦探小姜的第二个案件
早上八点四十五分,姜亦心把路上买的煎饼果子和豆浆放在工位上,然后去茶水间拿了一包薯片,坐进自己的格子间,美美的开始了她的“高效早起流程”。
她一边吃着早饭,一边打开飞书的未读消息。
满满的一屏幕。
这不是哪个卷王同事连夜发来的夺命连环call,而是她自己写的飞书机器人。
机器人的名字叫“早八摘要”。
这是姜亦心上个星期用智能体自己“氛围编程”出来的小工具。
虽然她现在已经转成了产品负责人,不再往公司主仓库里提交业务代码了,但她毕竟是计算机专业毕业的学霸,毕竟是开发转的产品,技术上可没手生。
从她和钱晓乐把编程智能体做出来之后,她自己就先成了一个重度用户。
以前上大学的时候姜亦心也会时不时给自己写一个效率小工具。
像她上大学的时候就给自己写过一个抢课脚本。
那时候学校的教务系统每到抢课日就像春运售票大厅,提前半小时页面就开始卡,到了放课那一秒,宿舍楼里此起彼伏全是刷新声。热门通识课更是重灾区,电影鉴赏、心理学导论、葡萄酒文化这种课,名额刚放出来,页面还没刷开,就已经显示余量为零。
姜亦心一开始也老老实实跟大家一起刷。开着三个浏览器,手机电脑一起上,眼睛盯着倒计时,手指按在F5上,结果连着两学期都只抢到一堆周五晚上和周一早八的课。
第三次抢课前,她终于忍不了了。
学计算机之前我老老实实抢课,学了计算机我还老老实实抢课,这计算机我不是白学了?
正好当时她们专业课学到网络安全,姜亦心把课上新学的知识全用上了。
她先是花了一个周末研究学校教务系统,抓包看请求,再分析登录态和验证码刷新逻辑。又一点一点把选课接口、课程 ID、提交参数和失败返回码扒出来。
最麻烦的是教务系统写得很烂,同一个操作有时候返回 JSON,有时候返回一段 HTML,错误提示还藏在页面脚本里,她连着好几天调到凌晨三点,才把整个流程跑通。
抢课那天,她没再疯狂刷新网页,只是提前把课程 ID填进配置文件,时间一到,脚本自动登录、轮询余量、提交选课。三秒钟后,屏幕上跳出一句“选课成功”。
后来这个脚本传到了同学手里——先是给大刘用,然后是其他同寝的室友们也用,后来整个计算机系都在用。
