GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改「羊驼宝宝」，GitHub一日千星

QbitAI量子位

最新更新时间：2023-07-24 17:19

阅读数：

梦晨发自凹非寺
量子位 | 公众号 QbitAI

大神仅花一个周末训练微型 LLaMA 2 ，并移植到 C语言 。

推理代码只有500行，在苹果 M1笔记本 上做到 每秒输出98个token 。

作者是OpenAI创始成员 Andrej Karpathy ，他把这个项目叫做 Baby LLaMA 2 （羊驼宝宝）。

虽然它只有 1500万参数 ，下载下来也只有 58MB ，但是已经能流畅讲故事。

所有推理代码可以放在 C语言单文件 上， 没有任何依赖 ，除了能在笔记本CPU上跑，还迅速被网友接力开发出了各种玩法。

llama.cpp的作者 Georgi Gerganov 搞出了 直接在浏览器里运行 的版本。

提示工程师 Alex Volkov 甚至做到了 在GPT-4代码解释器里跑 Baby LLaMA 2。

大模型套娃小模型，成了。

羊驼宝宝诞生记

据Karpathy分享，做这个项目的灵感正是来自llama.cpp。

训练代码 来自之前他自己开发的nanoGPT，并修改成LLaMA 2架构。

推理代码 直接开源在GitHub上了，不到24小时就狂揽1500+星。

训练数据集 TinyStories则来自微软前一阵的研究。

2023新视野数学奖得主Ronen Eldan、2023斯隆研究奖得主李远志联手， 验证了 1000万参数以下的小模型，在垂直数据上训练也可以学会正确的语法、生成流畅的故事、甚至获得推理能力。

此外，开发过程中还有一个插曲。

Karpathy很久不写C语言已经生疏了，但是在GPT-4的帮助下，还是只用一个周末就完成了全部工作。

对此，英伟达科学家Jim Fan评价为： 现象级 。

最初，在CPU单线程运行、fp32推理精度下，Baby LLaMA 2每秒只能生成18个token。

在编译上使用一些优化技巧以后，直接提升到每秒98个token。

优化之路还未停止。

有人提出，可以通过GCC编译器的-funsafe-math-optimizations模式再次 提速6倍 。

除了编译方面外，也有人提议下一步增加LoRA、Flash Attention等模型层面流行的优化方法。

Baby LLaMA 2一路火到Hacker News社区，也引发了更多的讨论。

有人提出，现在虽然只是一个概念验证，但本地运行的语言模型真的很令人兴奋。

虽然无法达到在云端GPU集群上托管的大模型的相同功能，但可以实现的玩法太多了。

在各种优化方法加持下，karpathy也透露已经开始尝试训练更大的模型，并表示：

70亿参数 也许触手可及。

GitHub：
https://github.com/karpathy/llama2.c

在浏览器运行Baby LLaMA 2：
https://ggerganov.com/llama2.c

参考链接：
[1] https://twitter.com/karpathy/status/1683143097604243456
[2] https://twitter.com/ggerganov/status/1683174252990660610
[3] https://twitter.com/altryne/status/1683222517719384065
[4] https://news.ycombinator.com/item?id=36838051

— 完 —

「AIGC算力全景与趋势报告 · 量子位智库」 下载

AIGC时代，算力成为「硬通货」。当前大模型的发展对算力产生新的需求，算力行业迎来变革机会。机遇当前，量子位智库发布《AIGC算力全景与趋势报告》，扫描下方二维码即可查看完整报告。

8月上旬，我们将举办「量子位AIGC行业沙龙——AIGC时代的算力基石」，欢迎感兴趣的企业联系～

点这里 ???? 关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

推荐帖子

QbitAI量子位

最新精华更多

GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改「羊驼宝宝」，GitHub一日千星

梦晨发自凹非寺
量子位 | 公众号 QbitAI

羊驼宝宝诞生记

最新有关QbitAI量子位的文章

QbitAI量子位

最新精华更多

GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改「羊驼宝宝」，GitHub一日千星

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI

羊驼宝宝诞生记

最新有关QbitAI量子位的文章

梦晨发自凹非寺
量子位 | 公众号 QbitAI