首富从AI浪潮开始 第131节
顿了一下,他又补了一句:“但做出来也没意义,小模型微调的再好,拿去跟GPT-4一比,性能上不是一个量级。”
韩路一说:“我拿它去见投资人。”
赵文渊明白了。
原型不是产品,是Proof of Concept,证明可行性。到时候就这么说:你看我几千条数据在一个7B模型上就能做到这个效果,如果有了大算力和大数据呢?
“两到三周能给到吗?”赵文渊问。
“可以。”
赵文渊的目光又扫了一遍表格,两百八十七条,每条的标注质量都超过他见过的最顶级的标注团队的水准。
如果能用这种数据做训练……赵文渊自嘲的一笑,别痴心妄想了。
韩路一出差的时候一直在干标注?这看起来得有几十个小时的工作量。
赵文渊没问他怎么做到的,开物的行为数据闭环是最合理的解释,有用户操作日志在手,一个足够了解产品的人,再花足够的时间,确实可以做到高精度标注。
况且韩路一就是开物的设计者。
唯一的问题是这样拿到的数据太贵了,不划算。
这时,门被敲了两下。
苏念念推门进来,手里拎着一个便利店袋子。
“彪哥说你没吃午饭。”
她把袋子放在茶几上。一个三明治、一个饭团、一杯咖啡。
赵文渊肉眼可见地僵硬了。
他下意识看了韩路一一眼,嘴边的话咽回去了。他们正在聊的是新公司的核心数据策略,苏念念是源码的联合创始人,如果她不知道韩路一的计划——
“念念知道。”韩路一拆三明治的手没停。
赵文渊:“……知道什么?”
韩路一看了他一眼,没拆穿他蹩脚的掩饰:“都知道。”
苏念念在旁边的椅子上坐下来,扫了一眼屏幕上的表格,没细看。
“聊到哪了?”
赵文渊这才松了口气。
“聊数据。”韩路一咬着三明治含糊地说,“做模型原型要高精度标注的八千条数据,两周之内搞定。”
赵文渊以为是数据两周之内搞定,韩路一说的是模型两周之内搞定。但没人意识到差别。
苏念念点了下头,没追问细节,换了话题。
“贺总那边怎么样?”
“没谈下来,他不看好。”
苏念念没意外的样子。
短暂的安静,赵文渊看看韩路一又看看苏念念,气氛有点沉。
融资没成这件事,放在任何一家创业公司都是坏消息中的坏消息,还没成立的公司?那就是毁灭性的打击了。
“我这有两千万。”苏念念说,“先借给你,不要股份。”
赵文渊愣住了。
韩路一嘴里的三明治也停了一拍。
“上次卖老股的钱,我一直没动。”苏念念语气平淡,听不出波动,“你要做新公司,最缺的是启动资金,这笔钱算我个人借给新公司的,我也不想要股份。”
韩路一看着她。
苏念念笑着说:“利息别给太低啊,我还指望这笔钱养老呢。”
赵文渊在一旁安静坐着,他不太了解苏念念和韩路一之间具体的合作细节,但两千万这个数字,大概是苏念念能拿出的全部身家了。
不要股份,就要个借条,公司做成了她赚几个点的利息,做不成……一家还没注册的公司能有什么资产拿来还债。
“别急,我也有点钱。”韩路一说,“况且,融资的事我有办法。”
“什么办法?”
韩路一没正面回答,他还没想好怎么说找鼎盛要算力这件事——苏念念和赵文渊跟鼎盛打交道的经历都不算愉快。
苏念念看他不说,也没追问。
她了解韩路一的节奏,想好了会说,没说就是还在想。
“真到了需要的时候不会跟你客气。”韩路一说。
苏念念站起来。
“对了,Nexus那边约好了,和Ryan视频会议排在下周三,早晨八点,别迟到了。”
韩路一点头,这个会他必须参加,探探对方到底走到哪了。
“议程我发飞书给你了。”苏念念说完出了门。
赵文渊目送她出去,转过头。
“你和苏总……”
韩路一抬眼:“嗯?”
赵文渊没继续说。
韩路一解释了一句:“我们是老同学。”
赵文渊看了他一眼,没拆穿他蹩脚的掩饰。
韩路一继续吃三明治,吃完擦了手,把屏幕拉回表格页面。
质量足够,那还说啥?
视哥,靠你了。
第一百二十九章 鼎支付
“训练不用开物的数据。”韩路一说。
赵文渊放下手里的咖啡:“刚才那两百多条——”
“专门给你看质量的,既然质量达标,就按这个标准来。”韩路一说,“既然我们要做的是通用对话模型,得让它理解各行各业的人在说什么。天工积累的这些代码相关的数据就不太用的上了,我们需要更多元的数据。”
“你以前在谷歌的时候有经验,他们是怎么做的?”韩路一问道。
赵文渊想了想:“大模型出来这几年,流程已经摸索的差不多了。大厂做对话模型,数据管线一般分三步:先是海量采集,爬虫加授权数据源,数据PB级起步,恨不得把整个互联网都存下来;然后清洗,去重、去噪,砍掉百分之八九十的垃圾;最后是标注,上千人的团队按标注规范一条一条标,光标注成本一年就能烧几千万。”
他看了韩路一一眼:“我们没那个资源,但做原型到也不需要那么大的量,开源语料库里有现成的公开数据集、社区问答、百科、论坛,采集和基础清洗别人已经做过一轮了,剩下的是精洗和标注。五千条高质量标注,就算找外包,也得十几万加两三周,但是质量——”
赵文渊的话没说完,开源语料,找外包标注,和韩路一刚才给他看的标注质量比,那是一个地下一个天上。他技术再自信,也不敢说这种方法做出来的东西可以出去拉投资。
“我也是这个想法。你放心,数据交给我,保证都是刚才的那个质量。”韩路一保证道。
赵文渊狐疑的看了他一眼,你知道自己在说什么吗?
开物的数据能标是你有数据源,有用户场景,有深度理解——开源语料有什么?
赵文渊尽量让自己的语气听起来没那么冒犯:“开源数据谁都能拿到,标注出来都大差不差,能有什么区别?”
好问题,我自有办法。
韩路一看出他不信,也不纠缠:“总之交给我,你先搭训练管线就行。”
两人聊完,赵文渊回十三楼继续工作去了。
韩路一靠在椅背上,想着接下来的事。
赵文渊说得没错,开源语料谁都能拿到,标注出来都大差不差,但那是对普通标注员而言。
数据标注是什么?说白了,数据标注就是做阅读理解,给你一篇文章,问“这个人到底想干什么”,标注员写一个标准答案。现在业内的做法是流水线作业:清洗管线负责去重、去噪、统一格式,标注员拿到干净的文本,按规范提取核心意图,一篇三千字的博客,最终变成一句话的意图标签。
但标注员忽略的那些细节,恰恰是韩路一最想要的。
一个用户在论坛发帖,问怎么跟父母开口说自己不想回老家工作,正文两百多字,中间有一句“我爸上个月刚退休”。标注员提取的意图标签是“如何说服父母接受个人职业选择”。
但那句“上个月刚退休”在视界下被高亮了。
父亲刚退休,儿子这时候提不回去,这其实不是职业选择的问题,是父亲突然空出来的时间和情感需求撞上了儿子的边界。
这个用户真正需要的不是说服技巧,是怎么在不伤感情的前提下,拒绝一个刚刚开始变得孤独的人。
“如何说服父母接受个人职业选择”这个标注,连问题的门都没摸到。
语料越精简,视界反而越难用,信号都在那些被忽略的细节里,原始数据才是金矿。
韩路一要做的,就是使用视界,把那些别人以为是噪声、其实是真正相关的上下文,捞出来,再配上准确的意图标注。
同样一条数据,别人标出来是一句话,他标出来是一整张需求地图。
点石成金。
和赵文渊聊完,韩路一又去了司衡律师事务所。
顾司玥已经在等了,桌上文件收得干净,桌上摆了两杯英式红茶。
