火星链 火星链
Ctrl+D收藏火星链
首页 > 狗狗币 > 正文

AGI:巨瓜来临!GPT-4模型构架等信息疑似泄露,给大家讲讲来龙去脉!

作者:

时间:1900/1/1 0:00:00

引子

今天上午正在日常搬砖,突然各路信息席卷而来:“赶紧的,GPT-4模型构架泄露啦,国产大模型要再次超越啦!”。打开社媒一看,好么,都不用会英语,国内的人翻机翻都已经上线了,这速度,我是真的服气。但是,等我去追根溯源,看看信息道理有几分靠谱的时候,我突然就有把科技圈逛出了娱乐圈的感觉。我觉得这事儿最有意思的可能还不是爆的料,反而是爆料的这不到24小时发生的这些事。如果再结合前面OpenAI搞得几个大新闻,还确实有点意思。

鉴于目前“FakeNews”满天飞的互联网现状,我看到这个消息后,干的第一件事就是追本溯源。爆料谁都可以,前面打车的时候司机师傅还给我爆料ChatGPT是外星科技了,我就一点都没信。现在所谓的“外媒”一爆料我就直接信了,那未免还是对司机师傅有点不尊重了。

来龙去脉

我信息挖掘的起点是HackerNews上发表的这篇文章《GPT-4'sdetailsareleaked.Itisover.》。我点进去发现并非原文,而是一个ThreadReader。所以我就又顺藤摸瓜,找到了这些Twitter的发布人—YamPeleg。

其实我Twitter上知道的人并不多,但是这老哥我还真看过他以前的文章。他是以色列一个创业公司的CEO,本人工程经历丰富,很懂LLM。曾经尝试反向破解过GPT-4和ChatGPT代码解释器。六月OpenAI访问以色列的时候,他还去参加座谈沟通了,并且还和SamAltman合影了。读这老哥的文章,我就禁不住想起来当面在以色列时候的当地的学生联络员Tom,随便说点啥都能给你搞得热血沸腾的。这老哥一直在研究OpenAI,也认识OpenAI内部很多人,所以他如果得到了点啥内部消息,我觉得可信度其实还挺高的。

Web3初创公司nealthy完成130万美元pre-seed轮融资:3月7日消息,Web3初创公司nealthy宣布完成130万美元pre-seed轮融资,“DonGeraldo”等天使投资人参投。Nealthy 的创始人将利用这些资金来发展核心团队、聘请人才并促进销售和发展。

nealthy通过区块链技术处理交易并提供指数代币,使投资者能够快速、无忧地进入Web3市场,该指数代币通过存储多种虚拟资产“复制”了传统ETF结构。此外,nealthy还推出了首个动态蓝筹NFT代币“NFTS” ,预计在2023年夏季发布。[2023/3/7 12:47:46]

但是!等我晚上准备去仔细研读下他发的东西的时候,突然发现,他把前面发的都删了。说是因为版权问题,本来我以为是被OpenAI捂嘴了,还庆幸自己留了档。后面仔细一看,发现不是因为OpenAI的版权,而是因为另外一个付费专栏的版权。

原来Yam老哥并不是原创,而是看了SemiAnalysis的付费专栏文章《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》,然后把里面的一些核心信息加上自己的理解共享出来了。所以其实真正的信息源是SemiAnalysis。所以我又收集了下SemiAnalysis的信息。

英国央行副行长:英国将把数字英镑的持有量限制在2万英镑以内:金色财经报道,英国央行副行长坎利夫表示,我们可能需要数字化货币,英国将把数字英镑的持有量限制在2万英镑以内,我们建议每个人持有数字英镑的限额在1万到2万英镑之间。我们还没有决定数字英镑是否会使用数字账本技术。[2023/2/8 11:53:06]

SemiAnalysis是一个精品半导体研究和咨询公司,专注于从化学原料到晶圆厂到设计IP和战略的半导体供应链。它由DylanPatel创办,他是一位有着多年半导体行业经验的分析师和工程师。他曾在英特尔、AMD、高通等公司担任过不同的角色,从设计工程师到市场营销经理。SemiAnalysis的团队还包括GeorgeCozma,GeraldWong,MyronXie,AfzalAhmad,AleksandarKostovic,SophiaWisdom等多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域,如AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计IP和战略的全方位的半导体供应链分析和咨询服务。

前面那篇著名的谷歌内部泄密文章《Google"WeHaveNoMoat,AndNeitherDoesOpenAI"》就是他们爆出来的,这篇文章后面被证实为真。这样看来,DylanPatel老哥可能确实有些内线,他们给出的信息可信度应该还是可以的。当然,我也发现了他们为啥这么急着让Yam老哥删推,因为这些“内部信息”确实价值不菲,订阅SemiAnalysis的付费文章,一年要500美刀。Yam老哥订阅的精英版更是要1000美刀。

Aptos钱包Martian获得300万美元融资 Race Capital领投:金色财经报道,Web3钱包Martian已经完成了由Race Capital领投的300万美元的种子前期融资,其他投资者包括FTX Ventures和Jump Capital。

Martian帮助用户在Aptos生态系统中管理他们的加密资产。这家初创公司是在今年早些时候首届Aptos黑客马拉松的基础上成立的。(the block)[2022/10/28 11:50:38]

爆料分析

讲清楚了来龙去脉,我们可以得到一个基础结论,就是这个爆料还是有一定的可信性的。然后,我又根据爆料的内容以及前面获得的其他爆料信息,综合分析了下。这里还是先给大家说结论:

爆料可信度较高。本次爆料的来源有一定可信度,爆料的内容和前期已经披露的内容也基本都能吻合。所以我倾向于爆料的大部分内容都是来自OpenAI的泄漏,有真实的事实基础,但是给出的数据未必一定准确。毕竟,也不是所有人都能够获得详细准确的内部数据,但是应该不会偏差太多。爆料对于私有模型有一定意义,对于开源模型意义有限。这次爆料的主要亮点对开源社区的影响可能并不会太大。影响最大的MoE其实已经被爆料过了,目前应该已经有相关的开源模型在路上。除此之外其他的爆料亮点都主要是利好其他私有模型竞争对手,例如比较准确的模型大小、并行策略、模型构架以及多模态构架等。具体我们后面具体分析。个人的奇怪推论。说实话,这个时间点的爆料不得不让我觉得有点奇怪,感觉DylanPatel老哥有一种在帮openAI官方爆料的感觉。结合我这篇文章更是觉得事有蹊跷。要知道,如果这篇爆料文章早一个礼拜发,大家甚至是可以通过ChatGPT的搜索模式直接白嫖文章内容的。咋给我一种,为了让他们能够安心的爆料自己,OpenAI特意把ChatGPT的搜索模式都关闭了的感觉。当然,我这个猜测是毫无根据的,这样做确实也对OpenAI没有任何好处。所以,获取是我多想了,就是赶巧了而已。对于爆料原文感兴趣的可以看我最前面贴的HackerNews的文章,少了些逻辑和修辞,和付费的原文的核心内容是一样的。没耐心一点点钻原文的,我这边直接给大家总结几条要点。

Otherside开发公司Improbable将以33.6亿美元估值进行1.11亿美元新一轮融资:10月3日消息,Yuga Labs元宇宙Otherside背后的开发公司Improbable将进行1.11亿美元(1亿英镑)新一轮融资,致力于为Bored Ape Yacht Club的创建者Yuga Labs等热门Web3公司创建虚拟世界。Improbable首席执行官Herman Narula透露,该公司的新技术已经能支持成千上万的玩家同时进行互动。Improbable最新一轮的估值为33.6亿美元(30亿英镑),高于2018年的28亿美元(25亿英镑)估值。此前报道,区块链游戏公司Improbable于4月宣布旗下新项目M2完成1.5亿美元独立融资,a16z和软银愿景基金领投,M2投后估值为10亿美元。(Decrypt)[2022/10/3 18:38:35]

爆料参数整理

这次爆料的一个亮点就是给出了GPT-4的部分明确参数,这些参数前面有过很多猜测,但是官方一直都没有披露,提到的时候都说的很模糊。这些参数包括:

模型参数量:1.8兆,比GPT-3.5大10倍左右。模型层深:120层。模型构架:混合专家模型,一共16个专家,每个专家1110亿参数量。每次向前传递选择两个专家。训练数据:共13兆数据。文本数据被重复训练了2次,代码数据被重复训练了4次。这个数据其实挺重要的,后续具体分析。并行策略:8路张量并行+15路管道并行。预训练上下文:8K。32K版本是在8K基础上微调的。我的推论1:GPT-5会是一个全新构架的多模态LLM

CryptoQuant CEO:比特币链上数据安静,说明市场不会受到卖方流动性影响:金色财经报道,链上分析服务公司CryptoQuant CEO Young Ju发推称,在过去的7天里,我没有看到任何重要的Bitcoin链上活动。他认为,目前只要链上安静,比特币市场就不会受到卖方流动性的影响。[2022/7/7 1:57:53]

GPT-4是一个由16个专家模型组成的MoE。每个专家1110亿参数量。每次向前传递选两个专家。然后注意力机制共享550亿参数。所以,每次推理的时候,事实上耗费的参数量约为2800亿。这个数字也和前期很多学者预测的类似。

训练数据上面写了,我就不复述了。这里强调下,文本和代码数据都是被重复训练了的。再结合MoE构架,我个人猜测:要么目前可以比较方便获取的高质量文本数据已经接近枯竭要么无限制得增大数据量对LLM性能得提升已经非常有限了。但是,无论是哪一种,我们都可以推断,下一步的GPT-5一定会是基于多模态数据的。GPT-5想要有大的性能突破,就必须能够充分利用现存的大量视频、图片以及音频数据。

但是,根据这次的爆料,OpenAI目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器,与文本编码器分开,但存在交叉注意力。它就是在文本预训练后,进行了约2万亿个Token的微调。这种模式明显无法充分利用已有的视频、图片以及音频数据。

所以,前面OpenAI一直强调的没有在训练GPT-5大概率是真话。因为他们在训练GPT-5之前找到一个更好的多模态模型构架,让模型可以充分的利用音视频数据。只有能够利用这些优质的训练数据,GPT-5才有可能获得足够的能力提升。同时,如果GPT-5真的能够充分利用这些音视频数据的话,那不管是AGI还是OpenAI最近提出的超智体,似乎确实也没那么遥远了。

我的推论2:私有模型的竞争将集中在并行能力上

根据此次爆料,目前如果要训练一个GPT-4竞品,按照使用约8,192个H100芯片来估算,以每小时2美元的价格,在约55天内可以完成预训练,成本约为2150万美元。这个成本对于目前波涛汹涌的LLM市场来说,真的不算大。国内目前的主要玩家都可以比较轻松的承担数次训练。所以,这次说真的,再过半年模型能力对标GPT-4可能真的不是吹牛逼。

如果训练成本不是问题,那么训练数据会不会成为问题呢?目前看来也不会。GPT-4的训练数据共13兆。这个规模并不是特别夸张,且它的很多数据来源国内也可以获取,再加上国内本身也积累了很多中文资源,所以训练数据也应该问题不大。

其他的类似预训练、微调以及中文编解码等问题,其实也不存在太多的技术秘密,方法还是比较公开的。给足够的资源,半年时间应该都可以解决。

所以,最后剩下的就是并行能力了。其实这次爆料里面用了极大的篇幅去介绍相关的内容,专业程度还是比较高的。这里我就不具体展开说了,总体来说,就是你有了大模型,如何以最低的成本让最多的人同时使用。这里面涉及到很多专业的设计问题,在运算资源固定的情况下,应该如何分配不同环节的运算资源?如何处理并发?如何管理内存?

当大家的模型能力都大差不差的时候,那个模型好用,不就取决于用户体验了么!并行处理的能力,就直接决定了用户体验。目前GPT3.5已经做到了无论是ChatGPT还是API都非常丝滑了,这是非常厉害的。这里大家可能会说,我体验的其他国产LLM或者Claude都比GPT3.5还快啊。但是,大家没有考虑使用的量级问题,GPT3.5在这么高的并发下有这样的性能,其他的厂商如果匹配不了OpenAI的这个能力,也就没能力来抢OpenAI的市场。

所以,并行能力可能会成为各路OpenAI竞争对手的角逐重点之一。

我的推论3:OpenAI可能是有意放出的本次爆料

这个推论就完全是个人的瞎猜了。事实根据不足,大家看看就好。

OpenAI很清楚GPT-4的护城河并不高,即使现在OpenAI已经不open了,但是在这种热潮中,竞争对手迎头赶上也并不困难。并且,他们现在的多模态大模型构架应该还没有搞定,这个时候如果有新的玩家上来就从多模态开始搞,OpenAI被弯道超车的概率也是很大的。所以这可能是OpenAI的缓兵之计,我就给你们透露一些GPT-4的信息,让头部的玩家都先去做GPT-4的复刻工作,把OpenAI已经走过的路也再走一遍。

如果在这个过程中,OpenAI给GPT-5的训练打好了基础,完成了多模态大模型的前期攻关,即使GPT-4已经被其他的大语言模型超越,OpenAI也有恃无恐了。个人认为,多模态很可能就是人卷人的最后一代了。后面的模型开发和演进说不定就以AGI为主力了,也就是说,这次赢了,可能就赢到最后了。

结语

本次的爆料绝对是GPT-4发布以来最大的瓜。但是,我并不是很推荐大家去研究这次的爆料内容,大家看看别人的总结就好了。爆料的很多内容看起来还是比较费劲的,并且费半天劲看懂了也没用,懂了你也没法实践,白懂。

不知不觉又码了这么多字,能看到这里的都是真爱,看完留个记号再走吧,您的支持就是对我最大的鼓励~

博览AI的奥秘,博学AI的知识,博交AI的朋友,我是博而不士,欢迎加入我的AI探索之旅。关注我,一起玩转AI。

推荐阅读:

Claude:无需魔法、完全免费、GPT3.5的最佳国内替代「一文说清」

标签:GPTAGICEOGPT价格GPT币AGI价格AGI币CEO币CEO价格

狗狗币热门资讯
数字人:无电无网也能支付 数字人民币上线SIM卡硬钱包

《经济参考报》7月12日刊发文章《无电无网也能支付 数字人民币上线SIM卡硬钱包》。文章称,7月11日,中国移动联合中国工商银行,中国电信、中国联通联合中国银行在数字人民币App上线SIM卡硬钱.

1900/1/1 0:00:00
AIC:人民币汇率反弹,后市有望稳中有升

近日,人民币汇率走势有所反弹。Wind数据显示,7月11日盘中,在岸、离岸人民币对美元汇率均收复7.20元关口。截至16时30分,在岸、离岸人民币对美元汇率分别上涨逾300基点、200基点.

1900/1/1 0:00:00
区块链:比特币到底是什么呢?

在以前为什么他们常说如果全部的钱拿去买比特币的话,现在已经是千万富翁了,那么比特币到底是什么呢?接下来我将为你们讲解一下。比特币是一种虚拟货币,也被称为加密货币或数字货币.

1900/1/1 0:00:00
数字人:手机没电也能支付!数字人民币SIM卡硬钱包来了

通过SIM卡,即使在手机关机的情况下市民也能顺利完成支付。11日,记者从三大运营商获悉,运营商联合中国银行推出的数字人民币SIM卡硬钱包,正式在数字人民币App上线,目前在北京已开始试点工作.

1900/1/1 0:00:00
人工智能:万达于珠海新设数字供应链公司,含AI软件开发业务

企查查APP显示,近日,万采数字供应链有限公司成立,法定代表人为赵继承,注册资本1000万元人民币.

1900/1/1 0:00:00
行动力:日出东方,何以致胜——从北方县级小城探中国信心

不再拘泥于大城市,潮流的走向似乎正转向县域。继江苏昆山、浙江义乌等一批千亿县城在经济上大放异彩后,旅游大军、音乐节、咖啡馆圣地先后涌入县城,甚至体育圈的超级联赛都在向四五线城市下沉.

1900/1/1 0:00:00