手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

  • A+
所属分类:虚拟现实

chatGPT账号

来源:AIGC开放社区

美东时间10月2日,著名开源平台Stability.ai在官网宣布,推出开源大语言模型StableLM-3B-4E1T。(开源地址:https://huggingface.co/stabilityai/stablelm-3b-4e1t)

据悉,Stable LM 3B是一款主要面向手机、笔记本等移动设备的基础大语言模型,在保证性能的前提下,极大降低了算力资源的要求。

Stable LM 3B支持生成文本/代码、总结摘要、数据微调、常识推理、解答数学题等功能,全局上下文长度为4096。(简称“Stable LM 3B”)

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

随着ChatGPT的火爆出圈,全球掀起了轰轰烈烈的“大模型开发热潮”。但多数模型皆需要耗费大量算力资源才能预训练、微调,同时对开发的生成式AI应用的运行环境也有很高的要求。高通更是发布了专门针对移动端的生成式AI芯片,以解决算力问题。

Stability.ai希望通过开源Stable LM 3B,帮助那些没有庞大算力资源的开发者,也能打造小巧精悍的生成式AI产品,可以安全、稳定地在移动端运行。

Stable LM 3B训练数据集

虽然该模型只有30亿参数,却使用了一个包含文本、代码、维基百科、ArXiv、图书、C4等多种数据的1万亿tokens庞大的训练数据集。

该数据集由多个开源的大规模数据集经过筛选混合而成,包括Falcon RefinedWeb、RedPajama-Data、The Pile以及 StarCoder等。

这使得Stable LM 3B以更少的资源,性能却超越同等规模模型,甚至比一些70亿、100亿参数的大模型更强。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

Stable LM 3B训练流程

Stable LM 3B以bfloat16精度训练972k起步,全局上下文长度为 4096,而不是像 StableLM-Alpha v2 那样从 2048 到 4096 进行多阶段提升。

Stability.ai使用了AdamW进行性能优化,并在前4800步使用线性预热,然后采用余弦衰减计划将学习率降至峰值的4%。

早期的不稳定性归因于在高学习率区域的长期停留。由于模型相对较小,没有采用dropout。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

在训练过程中,Stability.ai评估自然语言基准,并在学习率衰减计划的尾声阶段,观察到训练带来的稳步提升。基于这个原因,开发人员决定将学习率线性降低至0,类似于Zhai等人的做法,以期获得更好的性能。

此外,在预训练的初始阶段依赖于 flash-attention API及其开箱即用的三角因果屏蔽支持。这迫使模型以类似的方式处理打包序列中的不同文档。

在冷却阶段,Stability.ai在并发实验中凭经验观察到样本质量提高(即:减少重复)后,为所有打包序列重置 EOD 标记处的位置ID和注意掩码。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

硬件方面,StableLM-3B是在Stability AI的算力集群上训练的。该集群包含256个NVIDIA A100 40GB显卡。训练开始于2023年8月23日,大约消耗了30天完成。

性能测试方面,StableLM-3B在零样本的lm-evaluation-harness评估框架中,进行了性能测试。结果显示,性能完全不输70亿参数的模型,甚至比一些100亿参数的更强。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

本文素材来源Stability.ai官网,如有侵权请联系删除

免责声明

发文时比特币价格:$23249

当前比特币价格:[crypto coins=”BTC” type=”text” show=”price”]

当前比特币涨幅:[crypto coins=”BTC” type=”text” show=”percent”]

免责声明:

本文不代表路远网立场,且不构成投资建议,请谨慎对待。用户由此造成的损失由用户自行承担,与路远网没有任何关系;

路远网不对网站所发布内容的准确性,真实性等任何方面做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,路远网对项目的真实性,准确性等任何方面均不做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,路远网不对其构成任何投资建议,用户由此造成的损失由用户自行承担,与路远网没有任何关系;

路远区块链研究院声明:路远区块链研究院内容由路远网发布,部分来源于互联网和行业分析师投稿收录,内容为路远区块链研究院加盟专职分析师独立观点,不代表路远网立场。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的电报
  • 这是我的电报扫一扫
  • weinxin
chatGPT账号
路远

发表评论

您必须登录才能发表评论!