大语言模型 LLM 之死

Stack Overflow 是一个全球软件程序员社区,在获得美国顶级投资机构 A16z 与 USV 等超过 1.3 亿美金的融资后,于 2021 年被全球最大技术投资者 Prosus 以 18 亿美金收购。

不过,自今年 3 月 OpenAI 推出 GPT-4 以来,该网站流量就明显下降了——4 月的流量,较去年同期下降了约 13%。

核心原因是:软件工程师们不再来到该网站提问并从其他程序员那里获取技巧,而是转向了 GPT-4、ChatGPT、Codex 或者 GitHub Copilot 寻求帮助。

讽刺的是:一些 AI 模型本就是根据该网站的数据训练而成,并且数据全部是被免费抓取。

这一事件,也揭示出了 AI 革命核心中一个迫在眉睫的问题,那就是:

随着人类不需要与其他人打交道就可以获得信息,以及人们上网回答问题的动力减弱,AI 训练所需要的丰富的人类数据将会枯竭,模型质量可能会下降。最近,伊隆.马斯克称这种现象为是——“LLM 的死亡”。

事实上,所有的 AI 模型都需要稳定的高质量的人类数据流,否则,将不得不依赖于机器自己生成的内容进行训练。

但根据研究人员的说法:机器再“吞食”机器自己产生的内容,将导致性能下降,也就是导致发生可怕的“模型崩溃”。

令人恐惧的是,根据欧洲刑警组织的一份报告:预计未来几年,90% 的互联网内容,都将由人工智能生成。互联网,将越来越让人感觉到它是为机器而设计并由机器设计的。

那么,有什么办法可以解决这个问题吗?……

本文剩余内容的主要摘要如下

美国互联网界是如何解决这个问题的?目前为止,AI 公司中做出最好表率的可能是 OpenAI,具体 OpenAI 在内容/数据获取方面已经做出了哪些可以借鉴的动作?


我平时主要在知识星球写美国科技界的内容,关心美国创投圈的专业读者,请移步到我的知识星球。如下扫码登录(老星球用户续费请见底下那个二维码)

老星球用户续费请用这个二维码:

发表评论

邮箱地址不会被公开。 必填项已用*标注