它颠覆了你对AI的认知,ChatGPT-4来了,全世界科技大厂黯然失色(组图)
2023年3月14,圆周率日的一个平淡无奇的下午,Open AI发布了最新的大语言模型GPT-4。初看起来这次更新没有ChatGPT那么酷炫:文本输入长度(token)拓展到3万以上,支持多模态模型输入(但没有之前期待的图像和视频输出),更强的数理推理能力(终于学会高考数学了)。
所以,更大,更快,更强,但这意味着什么呢?
任何指数增长的曲线初期,拉近了看都不过是一个平淡的缓坡。但只有回顾整个历史的时候,我们才会知道这条曲线最终会加速到怎样的高度。正在凑近了看GPT-4的人类,并不知道接下来将要面对的,是何种惊涛骇浪。
把“努力”交给GPT,拼天赋的时代到来
有一句曾经很有道理的说法:“以大多数人的努力程度之低,根本轮不到拼天赋”,这确实是事实。很多人也被这句话刺痛而奋发图强,想努力一把,摸到拼天赋的门槛线上。
但现在似乎没必要了,因为大多数人努力一辈子也不会比GPT-4的知识储备和执行能力更强。
GPT-4是天生的做题家,可以自己读题自己分析然后组织文字输出。在OpenAI展现的第一个案例中,GPT-4对一道包含图像的物理题进行了解答,它理解了PDF格式下的图像和文字,一步步推理并得到正确答案。顺便提一嘴,这道题来自著名的巴黎综合理工大学,后者以其变态的数理难度而闻名。
GPT-4在美国律师资格考试(BAR)上达到了前10%,在美国高考语文(SAT Reading and Writing)上达到了前7%,而在生物学奥赛试题上更是达到了前1%,可以拿国际金牌。不客气地说,这个水平已经远远超过了大部分人智力巅峰——高考前一天的水平,轻轻松松上985。
但是,对于能接入GPT-4的人群而言,事情并没有因此变得更轻松。因为不好意思,从现在起你们就只能拼天赋啦!
而以大多数人的平均天赋水平,从第一天开始就连努力的机会都没了。在那个让全世界前端程序员虎躯一震的展示里,OpenAI员工随手画了一个网站样式的草稿和文字描述,手机拍照发给GPT-4,然后马上就生成了网站的HTML代码,效果立刻可以预览。
这一刻,产品经理露出了灿烂的笑容,想着明天就把“这个需求做不了”的“程序猿”给开了?
身在咨询业的我则悲喜交加,在上一篇文章里(
风声|美国人的这款机器无所不知,但会让下一代从大脑开始垮掉?
)我还为实习生的未来感到担忧,现在已经快进到初级顾问灭绝计划了。是不是以后只需要合伙人在外面承揽业务,然后一股脑丢给我一个人承做就可以了?
我可以用GPT列提纲,打印出来手绘草稿,拍照丢给GPT画PPT;不知道的信息让New Bing帮我找,没看过的文章让ChatGPT读了并总结,分析的模型用ChatExcel帮我搭,一手调研也可以让GPT做问卷,甚至配合Whisper AI(语音理解模型)和讯飞配音,让他替我访谈专家并整理洞见。
实现上述的前提有两个:
第一,我知道为了完成项目要实现的目标;
第二,我要问出正确的问题。
“问正确的问题”才是最难的事情,这需要经验,灵感,理性和直觉的终极组合,而如果GPT把实习生和初级顾问都干掉了,我确实有点担心咨询这门手艺后继无人。
但肯定的一点是,在同样拥有GPT的情况下,人和人之间能力的差别可以被拉大到匪夷所思的地步。对于最聪明最大胆、富有激情,脑子转得比手快几百倍的那种人,他们的生产力会迅速爆棚。从前那些被“有限时间”和“低效沟通”所限制的产品、服务,如今可以快速成为现实。
不过,供给端爆炸也同样意味着,只需要寥寥数个工作狂就可以满足许多许多需求,其他人做的所谓“工作”只能算自娱自乐。
而如果那时我还没有被干掉,大概率是因为老板们想每天多睡几个小时。不然他更愿意直接指挥GPT模型,而不是常常“不解人意”的真人。
这不仅仅是平均的终结,这实际上是99%的终结。所以你觉得自己能成为1%,还是99%呢?
在GPT面前,科技大厂已黯然失色
这次GPT-4发布还有个令人担忧的点,就是只出了一个技术文档(Technical Report),但没有公开论文,也没有任何的技术细节。只告诉你我有多强大,但对如何实现的know how只字不提。
OpenAI,已经且必然会变成CloseAI,毕竟没人和钱过不去。
而这次提到的专属Azure训练集群,则意味着CloseAI已经和微软实现了深度融合,同时在模型规模和硬件算力上建立起深不可测的护城河。
对于今天发布的文心一言,我感到由衷地同情,类似于看到波兰骑兵冲锋德国坦克时的那种同情。但不只是百度,在GPT-4面前,无论是Google、 Meta,还是任何一家大厂目前都黯淡无光。尤其当你发现GPT-4的训练时间居然是去年的8月——那么显然,此刻跑在1万张NVIDIA A100芯片上的只会是尚未发布的GPT-5了。
而下一代的GPT-5会有多强大,没人知道。
很赞同作家和菜头说的这段比喻:“就像是在学校留堂,做完作业才能回家。那个最好的学生想出了办法,解决了最后一道题,然后不发一言起身回家。教室里剩下的学生,就都留在了一道看不见的障壁之后,他们知道能够穿越,他们看到有人穿越,但是他们不知道自己如何才能穿越。”
OpenAI至少领先了半年,在指数增长的情景下,即便路径完全一样,先发者和追赶者的距离也会变得越来越大。甚至可能因为先发者对硬件算力,数据生成和用户反馈三位一体的循环虹吸,追赶者最终被彻底拉爆。
99%的终结,对个人如此,对AI赛道的企业则更为残酷。
需要人的场景越来越少,AI也可以做消费者
很多人都对GPT-4的多模态模型感到惊奇,因为这并不是一个简单的OCR,实际上GPT-4是对整个图像的像素序列进行了理解、并进行了深度推理,能够发现不合理之处,甚至看懂梗图。
看起来这没有Stable diffusion这样的图片生成功能酷炫,但这是目前GPT-4对我产生的最大的震撼。
| GPT-4可以看懂上图的幽默之处 (来源:OpenAI官网)
GPT-4对该图分析如下:
图片展示了一个“闪电线”适配器包装,包括三个面板。
面板1:一部智能手机,其充电口连接了一个VGA接口(通常用于计算机显示器的大型、蓝色、15针接口)。
面板2:带有VGA接口图片的“闪电线”适配器包装。
面板3:VGA接口的特写,末端带有一个小型的闪电接口(用于为iPhone和其他Apple设备充电)。
这幅图片中的幽默来自于将大型、过时的VGA接口插入小型、现代智能手机充电口的荒谬之处。
这种多模态理解能力的影响是极为深刻的。
我曾设想过“无人电影”的模式,主题要素是通过流媒体的播放大数据生成的,剧本是GPT模型自己根据主题要素写的,画面是根据剧本自动生成的视频流,后期是通过stable diffusion合成的,配音是照着剧本里的台词合成的语音,宣发海报也是stable diffusion画的,通过SNS机器人自动投放,机器人水军照着剧本情节写豆瓣评论。
质量糟糕没关系,同时生成1000部定向投放,A/B test,每天进行迭代,必能产出神作。
但这个循环里还是有人的,那就是观众。人被投食内容、人来理解内容、表达欣赏以及做出反馈。这种反馈,一定是人才能做吗?GPT-4提醒我,观众也可以是AI。
AI模型也可以看懂电影,也可以理解微妙之处,表达欣赏,并很清楚地反馈出来。而消费的本质,是对外界信号刺激的理解和欣赏。无论这个信号是视觉信号,还是语音频率,或是舌头和皮肤的神经传感电信号。
对于GPT,它们都不过是多模态输入的某种类型。那么AI其实也是能够消费内容的,甚至可能是比任何人类都更好,更具品位的消费者。
AI对供给端的极大提升,最终可能要靠AI自己去消费,而不是靠着渐失生殖欲望的人类。
正如AI导师Geoffrey Hinton的推特所说,人类用千年的语言编码了整个世界,凝聚成GPT-4破茧成蝶。而在完成引导程序的使命后,我们也将卸下这副碳基的躯壳。
所以,这是人类的落日吗?
我相信,明天太阳还会升起。