首富从AI浪潮开始 第130节
然后他想到了BugKiller。
BugKiller为什么成功?
表面看是产品做得好、引擎牛、第一个打进了氛围编程的市场,这些当然都重要,但最底层的原因是什么?
是他用视界看到了别人看不到的Bug模式。
其他公司也在做代码检测工具,有算法团队,有百万级代码库的积累,开源社区有几十年的检测规则。但他们的检测规则是基于过去经验的总结,从“出过的错”反推“可能的错”。
他们在猜。
韩路一在看。
他看到了别人猜不到的东西,然后把看到的规律提取出来,写成检测规则,让BugKiller去替代他的眼睛。
BugKiller的本质——
是把视界“看漏洞”的能力,复制给了一个软件。
韩路一坐直了身子。
这个逻辑能不能用在模型训练上?
通用模型想成为入口,真正的难题是理解用户到底想要什么。
大模型越来越大,跑分越刷越高,但用户体验的提升越来越慢,为什么?
因为模型不理解人。
“做一个Q4季度业绩汇报PPT。”
十个人说这句话,背后可能有十种完全不同的真实需求。
陈玖玖想要的是一份独立提案,有人可能想要用来邀功,也有人可能什么要求也没有,只想早点下班。
这个问题怎么解决?普通公司是怎么做的?找标注团队来猜。经理写标注指南,标注员按指南标,最多猜对六七成,剩下全是噪声。模型学到的是平均水平,永远像一个在揣摩你心思的实习生。
韩路一能怎么做?
他能看到每个人说这句话时真正想要的是什么。
同样的逻辑。
视界看到语料,能看到后面的意图,提取偏差规律,转化为高质量标注数据,让模型替代视界。
BugKiller复制了视界“看Bug”的能力。
新模型要复制视界“看意图”的能力。
金手指的真正用法,不是直接用它做事。
是把它变成产品。
韩路一靠回椅背。
路径很清楚。
回海城后,用视界观察真实用户场景,记录“表面指令”和“真实意图”之间的偏差,积累足够多的用例,找到意图偏差的规律,然后用这批数据在开源基座上跑一版微调,看效果。
如果微调后的模型在意图理解方面表现出了明显提升——
这就是他找鼎盛谈的筹码。
视界看到的意图,是别人拿不到的数据质量。
这就是他的壁垒!
也是大模型领域的下一个突破点!
窗外的云层在下沉,远处的地面开始露出轮廓,那些建筑和道路从模糊的色块变成清晰的线条,像对焦的过程。
飞机落地正在滑行,广播响了。
“请您保持安全带不要打开,停留在自己的座位上,直到飞机停稳,安全带指示灯熄灭……”
韩路一拿出手机,给赵文渊发了一条消息:“文渊,在办公室吗?我还有一个小时到,对一下细节。”
张彪转过头问他:“韩总,到了先吃个饭?”
“不了,回公司。”
BugKiller从想法到发布,用了两个月。
这次要更快。
第一百二十八章 算我借你的
赵文渊早早就在等着了。
韩路一推开办公室门的时候,赵文渊已经坐在沙发上了,面前茶几上摆着两杯瑞幸的生椰拿铁。
不愧是你,生椰拿铁的代言人。
“贺总那边怎么说?”赵文渊开口问道。
韩路一没回答,他把背包放下,掏出笔记本电脑,翻开屏幕,往赵文渊面前一转。
这是他回来的车上手动标注的数据。
“先看个东西。”
赵文渊看了韩路一一眼。
这人一脸兴奋是怎么回事。
屏幕上是一个表格软件,四列。数据来源是开物后台导出的脱敏用户记录,前三列赵文渊一眼就认出来了:用户输入、AI生成结果、用户实际行为。这些字段开物的数据中台本身就在记录。
第四列是新加的。
列名:真实意图。
赵文渊的目光停在了第一行。
用户输入:帮我做一个客户管理系统。
AI生成结果:标准CRUD客户管理页面,列表、新增、编辑、删除,四个功能模块齐全。
用户实际行为:删掉了增删改功能,只保留备注字段。随后手动将备注栏扩展为一个带时间线的客户跟进记录页面,前后修改了三次,重新生成两次。
标准标注应该怎么写?赵文渊问自己。
“需求理解偏差,用户对生成结果不满意,部分采纳。”如果是他会这么写。
第四列写的是:用户是销售岗,公司已有CRM系统但备注栏过于简陋,她需要的不是一套客户管理系统,是一个补充现有CRM的客户跟进日志工具。
这么详细?赵文渊的手指在触控板上滑了一下,往下翻。
第二条。
用户输入:做一个排班表。
AI生成:标准排班日历,拖拽功能加班次模板。
用户实际行为:删掉整个排班UI,只保留数据导出功能,手动添加法定节假日高亮和加班时长自动累计,修改五次。
第四列:用户是HR,正在做年终结算。她要的不是排班工具,是加班费合规计算器,需要用实际出勤数据交叉法定假日定义来计算加班倍率。
赵文渊停了一下。
他重新看了看第三列,修改五次、删掉整个UI,这些是系统日志里白纸黑字记下来的行为数据。第四列的标注是在解释这些行为背后的“为什么”。
他随手又翻了几条。
一个用户输入“做一个会议纪要模板”,实际行为是把生成的模板删到只剩一个表格框架,然后手动加了“待办跟进人”和“下次检查日期”两个字段。第四列标注:用户不是要做会议纪要,是要做项目进度追踪看板,因为公司没有项目管理工具,她在用会议纪要当替代品。
赵文渊挑了这条做验证。用户删掉模板只留表格,行为数据对得上。手动加跟进人和检查日期,操作记录里有。标注的结论:用会议纪要替代项目管理工具。
他想了想,觉得说得通。甚至不只是说得通,如果真的是在做项目管理,那用户接下来的需求大概率是甘特图或者看板视图,而不是更好的会议纪要模板。
这个标注精度已经不是“标得准”了。
是标注者理解了用户的工作场景。
赵文渊抬起头看韩路一。
“这是深加工标注?”赵文渊问,“用来继续提升天工的?”
“不是用来做天工的,算是示例。”
赵文渊皱了下眉,不是做天工,那做什么?天工是代码专项模型,这些开物数据的标注跟天工很贴合啊——
“如果用户行为的公开数据集也能有这个精度的标注呢?”韩路一说。
赵文渊直接摇头。
“不可能,你这个精度是因为有开物的行为闭环,用户怎么改的、重新生成了几次、最终保留了什么,这些全是客观信号。公开数据集没有这些,光靠人工标注就是在纯猜。”
韩路一没争辩。
他做不到,视界能做到。
他转了个方向:“做一个原型要多少数据?”
赵文渊愣了一下,反应过来韩路一在说的是什么,不是提升天工,是在开源的通用基座上跑意图理解方向的微调。
“通过微调,验证意图理解能力的变化?”赵文渊想了想,“五千到八千条这个质量的就够有很明显的提升了。”
