首页 > 都市言情> 首富从AI浪潮开始

首富从AI浪潮开始 第131节

  顿了一下,他又补了一句:“但做出来也没意义,小模型微调的再好,拿去跟GPT-4一比,性能上不是一个量级。”

  韩路一说:“我拿它去见投资人。”

  赵文渊明白了。

  原型不是产品,是Proof of Concept,证明可行性。到时候就这么说:你看我几千条数据在一个7B模型上就能做到这个效果,如果有了大算力和大数据呢?

  “两到三周能给到吗?”赵文渊问。

  “可以。”

  赵文渊的目光又扫了一遍表格,两百八十七条,每条的标注质量都超过他见过的最顶级的标注团队的水准。

  如果能用这种数据做训练……赵文渊自嘲的一笑,别痴心妄想了。

  韩路一出差的时候一直在干标注?这看起来得有几十个小时的工作量。

  赵文渊没问他怎么做到的,开物的行为数据闭环是最合理的解释,有用户操作日志在手,一个足够了解产品的人,再花足够的时间,确实可以做到高精度标注。

  况且韩路一就是开物的设计者。

  唯一的问题是这样拿到的数据太贵了,不划算。

  这时,门被敲了两下。

  苏念念推门进来,手里拎着一个便利店袋子。

  “彪哥说你没吃午饭。”

  她把袋子放在茶几上。一个三明治、一个饭团、一杯咖啡。

  赵文渊肉眼可见地僵硬了。

  他下意识看了韩路一一眼,嘴边的话咽回去了。他们正在聊的是新公司的核心数据策略,苏念念是源码的联合创始人,如果她不知道韩路一的计划——

  “念念知道。”韩路一拆三明治的手没停。

  赵文渊:“……知道什么?”

  韩路一看了他一眼,没拆穿他蹩脚的掩饰:“都知道。”

  苏念念在旁边的椅子上坐下来,扫了一眼屏幕上的表格,没细看。

  “聊到哪了?”

  赵文渊这才松了口气。

  “聊数据。”韩路一咬着三明治含糊地说,“做模型原型要高精度标注的八千条数据,两周之内搞定。”

  赵文渊以为是数据两周之内搞定,韩路一说的是模型两周之内搞定。但没人意识到差别。

  苏念念点了下头,没追问细节,换了话题。

  “贺总那边怎么样?”

  “没谈下来,他不看好。”

  苏念念没意外的样子。

  短暂的安静,赵文渊看看韩路一又看看苏念念,气氛有点沉。

  融资没成这件事,放在任何一家创业公司都是坏消息中的坏消息,还没成立的公司?那就是毁灭性的打击了。

  “我这有两千万。”苏念念说,“先借给你,不要股份。”

  赵文渊愣住了。

  韩路一嘴里的三明治也停了一拍。

  “上次卖老股的钱,我一直没动。”苏念念语气平淡,听不出波动,“你要做新公司,最缺的是启动资金,这笔钱算我个人借给新公司的,我也不想要股份。”

  韩路一看着她。

  苏念念笑着说:“利息别给太低啊,我还指望这笔钱养老呢。”

  赵文渊在一旁安静坐着,他不太了解苏念念和韩路一之间具体的合作细节,但两千万这个数字,大概是苏念念能拿出的全部身家了。

  不要股份,就要个借条,公司做成了她赚几个点的利息,做不成……一家还没注册的公司能有什么资产拿来还债。

  “别急,我也有点钱。”韩路一说,“况且,融资的事我有办法。”

  “什么办法?”

  韩路一没正面回答,他还没想好怎么说找鼎盛要算力这件事——苏念念和赵文渊跟鼎盛打交道的经历都不算愉快。

  苏念念看他不说,也没追问。

  她了解韩路一的节奏,想好了会说,没说就是还在想。

  “真到了需要的时候不会跟你客气。”韩路一说。

  苏念念站起来。

  “对了,Nexus那边约好了,和Ryan视频会议排在下周三,早晨八点,别迟到了。”

  韩路一点头,这个会他必须参加,探探对方到底走到哪了。

  “议程我发飞书给你了。”苏念念说完出了门。

  赵文渊目送她出去,转过头。

  “你和苏总……”

  韩路一抬眼:“嗯?”

  赵文渊没继续说。

  韩路一解释了一句:“我们是老同学。”

  赵文渊看了他一眼,没拆穿他蹩脚的掩饰。

  韩路一继续吃三明治,吃完擦了手,把屏幕拉回表格页面。

  质量足够,那还说啥?

  视哥,靠你了。

第一百二十九章 鼎支付

  “训练不用开物的数据。”韩路一说。

  赵文渊放下手里的咖啡:“刚才那两百多条——”

  “专门给你看质量的,既然质量达标,就按这个标准来。”韩路一说,“既然我们要做的是通用对话模型,得让它理解各行各业的人在说什么。天工积累的这些代码相关的数据就不太用的上了,我们需要更多元的数据。”

  “你以前在谷歌的时候有经验,他们是怎么做的?”韩路一问道。

  赵文渊想了想:“大模型出来这几年,流程已经摸索的差不多了。大厂做对话模型,数据管线一般分三步:先是海量采集,爬虫加授权数据源,数据PB级起步,恨不得把整个互联网都存下来;然后清洗,去重、去噪,砍掉百分之八九十的垃圾;最后是标注,上千人的团队按标注规范一条一条标,光标注成本一年就能烧几千万。”

  他看了韩路一一眼:“我们没那个资源,但做原型到也不需要那么大的量,开源语料库里有现成的公开数据集、社区问答、百科、论坛,采集和基础清洗别人已经做过一轮了,剩下的是精洗和标注。五千条高质量标注,就算找外包,也得十几万加两三周,但是质量——”

  赵文渊的话没说完,开源语料,找外包标注,和韩路一刚才给他看的标注质量比,那是一个地下一个天上。他技术再自信,也不敢说这种方法做出来的东西可以出去拉投资。

  “我也是这个想法。你放心,数据交给我,保证都是刚才的那个质量。”韩路一保证道。

  赵文渊狐疑的看了他一眼,你知道自己在说什么吗?

  开物的数据能标是你有数据源,有用户场景,有深度理解——开源语料有什么?

  赵文渊尽量让自己的语气听起来没那么冒犯:“开源数据谁都能拿到,标注出来都大差不差,能有什么区别?”

  好问题,我自有办法。

  韩路一看出他不信,也不纠缠:“总之交给我,你先搭训练管线就行。”

  两人聊完,赵文渊回十三楼继续工作去了。

  韩路一靠在椅背上,想着接下来的事。

  赵文渊说得没错,开源语料谁都能拿到,标注出来都大差不差,但那是对普通标注员而言。

  数据标注是什么?说白了,数据标注就是做阅读理解,给你一篇文章,问“这个人到底想干什么”,标注员写一个标准答案。现在业内的做法是流水线作业:清洗管线负责去重、去噪、统一格式,标注员拿到干净的文本,按规范提取核心意图,一篇三千字的博客,最终变成一句话的意图标签。

  但标注员忽略的那些细节,恰恰是韩路一最想要的。

  一个用户在论坛发帖,问怎么跟父母开口说自己不想回老家工作,正文两百多字,中间有一句“我爸上个月刚退休”。标注员提取的意图标签是“如何说服父母接受个人职业选择”。

  但那句“上个月刚退休”在视界下被高亮了。

  父亲刚退休,儿子这时候提不回去,这其实不是职业选择的问题,是父亲突然空出来的时间和情感需求撞上了儿子的边界。

  这个用户真正需要的不是说服技巧,是怎么在不伤感情的前提下,拒绝一个刚刚开始变得孤独的人。

  “如何说服父母接受个人职业选择”这个标注,连问题的门都没摸到。

  语料越精简,视界反而越难用,信号都在那些被忽略的细节里,原始数据才是金矿。

  韩路一要做的,就是使用视界,把那些别人以为是噪声、其实是真正相关的上下文,捞出来,再配上准确的意图标注。

  同样一条数据,别人标出来是一句话,他标出来是一整张需求地图。

  点石成金。

  和赵文渊聊完,韩路一又去了司衡律师事务所。

  顾司玥已经在等了,桌上文件收得干净,桌上摆了两杯英式红茶。

首节 上一节 131/298下一节 尾节 目录txt下载

上一篇:这个导演不讲规矩

下一篇:返回列表

推荐阅读