什么是1-bit LLM

Published: 29 Mar 2024 Category: llm

生成式AI领域正在飞速发展,最新加入这个快速演进领域的是一1比特LLMs。你可能不相信,但它可以改变很多事情,并有助于消除与LLMs相关的一些最大挑战,尤其是它们庞大尺寸问题。

通常情况下(不总是这样),无论是LLMs还是逻辑回归等机器学习模型,其权重都以32位浮点数或16位浮点数的形式存储。

这就是为什么我们无法在本地系统和生产环境中使用GPT等大型模型的原因。因为这些模型具有大量权重,由于权重的高精度值导致模型体积庞大。

假设我们有一个名为“MehulGPT”的LLM,它有70亿个参数(类似于Mistral或Llama-7B),使用32位精度(4字节)。该模型将占用的总内存为:

  • 总内存 = 单个权重的大小 * 权重数量
    总内存 = 4字节 * 7,000,000,000
    总内存 = 28,000,000,000字节

将其转换为GB,我们得到:
- 总内存 = 28,000,000,000字节 / 1024³ 字节每GB
总内存 ≈ 26.09 GB

这是一个巨大的体积,因此许多设备都无法使用它,包括手机,因为它们没有这么大的存储空间或硬件能力来运行这些模型。

那么,如何使LLMs适用于小型设备和手机呢?

1比特LLMs

在1比特LLMs中,仅使用1比特(即0或1)来存储权重参数,而传统LLMs使用32/16比特。这大大减少了总体积,从而使小型设备也能使用LLMs。假设是“MehulGPT”的1比特版本。这次占用的内存为:

  • 总内存 = 单个权重的大小 * 权重数量
    总内存 = 0.125字节 * 7,000,000,000
    总内存 = 875,000,000字节

将其转换为千兆字节(GB),我们得到:

  • 总内存 = 875,000,000字节 / 1024³ 字节每GB
    总内存 ≈ 0.815 GB
1比特 = 0.125字节

因此,节省了大量的计算和存储资源。

这是不是和量化类似?

有的读者可能不了解量化,它是一种通过降低权重的精度来减小模型大小的方法,例如从32位减少到8位,从而减小4倍的大小。使用的位数越低,模型的大小就越小,但性能也会受到影响。

1比特LLMs类似于量化思想,但有所不同。在量化中,我们降低了精度(所以如果一个权重值是2.34567890656373…,它可能会被减少到2.3456)。

在1比特LLM中,每个权重将仅由二进制运算符(0,1)表示,因此模型更为精简。进行了一些主要的架构更改,以确保与传统LLMs相比,性能不受影响。

BitNet b1.58

BitNet b1.58是首款1比特LLM,目前使用1.58比特/权重(因此并非严格的1比特LLM),其中权重可以有3个可能的值(-1,0,1)。

对于1.58比特: 1)权重只有-1,0,1的值。 2)由于值仅为-1,0,1,因此不需要乘法操作。

根据论文中所说:

BitNet b1.58在困惑度和终端任务性能方面与16位浮点数LLM基线相当。

它提供了更快的处理速度,并且比传统模型使用更少的GPU内存。

模型最小化矩阵乘法中的乘法操作,提高了优化和效率。

包括用于系统级优化的量化函数,并集成了类似于LLaMA的组件,如RMSNorm和SwiGLU。

注意:我暂时避开了上面提到的术语,因为解释它们需要另写一篇文章。

该模型目前尚未公开,因此还没有被公开测试。但是,这看起来非常有前景,如果它声称的优点属实,我们将迎来一场盛宴!