微软、清华和中国科学院大学共同推出专为大语言模型设计的 BitNet 架构
作者:网络 •更新时间:2023-10-19 22:39:45•阅读 0
据品玩 10 月 19 日报道,Arxiv 页面显示,微软研究院联手**科学院大学、清华大学共同发布论文,公布了一款可扩展且稳定的 1 位 Tran**ormer 架构 BitNet 架构。BitNet 专为大语言模型设计。研究团队表示,为了训练 1 位权重,团队引入了 BitLinear 作为 nn.Linear 层的替代品。实验结果显示,BitNet 在语言建模任务上实现了竞争力的性能,同时显著减少了内存占用和能源消耗。 此外,BitNet 呈现出与全精度 Tran**ormer 类似的扩展定律,表明它有潜力在保持效率和性能优势的同时,扩展到更大的语言模型。
