可训练类chatgpt模型，允许商业化！rp开源1.2万亿数据集！ -金沙娱场城app

作者：aigc开放社区发布时间：2023-04-19

4月17日，redpajama宣布开源1.2万亿token数据集，帮助开发者训练类chatgpt大语言模型。这也是目前类chatgpt领域，全球最大的开源训练数据集。（地址：https://huggingface.co/datasets/togethercomputer/redpajama-data-1t）

据悉，redpajama完美复制了llama模型上的1.2万亿训练数据集，由维基百科、github、普通抓取、c4、图书、arxiv（知名论文网站）、stack exchange七部分组成。完整数据集容量约5t，根据数据使用条例已经允许商业化。

最近的类chatgpt开源项目实在是太卷了，不仅开源了基础模型，就连核心训练数据集也陆续开源，生怕开发者缺衣少粮服务真是周到位啊。但一次性开源如此庞大的数据集还真是少见。

chatgpt的出现加快了生成式ai的商业化落地，并引领了全球新一轮ai技术变革。由于open ai没有开源chatgpt，llama、alpaca、guanaco、luotuo、vicuna、koala等一大批优秀的开源项目如雨后春笋般快速增长。

其中，由meta ai发布的llama是公认最佳的chatgpt平替产品，其中，70亿参数模型经过1.2万亿数据训练单个cpu就能跑，比较适合中小型企业和普通开发者。但llama只能用于学术研究不允许商业化。所以，redpajama复制了llama1.2万亿训练数据，帮助开发者加速大语言模型训练进程。

其实redpajama本身就是一个类chatgpt大语言模型由together、 ontocord.ai、eth ds3lab、stanford crfm和hazy research一起合作开发。预计5月份，redpajama会将大语言模型进行开源。

本次开源的数据集，redpajama受llama 70亿参数模型启发，按照其论文的数据模式从维基百科、github、普通抓取、c4、图书、arxiv、stack exchange抓取了1.2万亿训练数据，并进行了数据优化、过滤。

其中，普通抓取渠道获取了8780亿数据，并通过多个质量过滤器进行过滤，包括选择类似维基百科页面的线性分类器。c4获取1750亿，基于标准 c4 数据集。github获取590亿，按许可证和质量过滤；图书获取260亿，包括开放书籍的语料库，并根据内容相似性进行去重。

arxiv获取280亿，去除了样板文件的科学文章。维基百科获取240亿，基于子集数据删除了样板内容。stackexchange获取200亿，基于子集数据删除了样板内容。总体来说，redpajama完美复制了llama的训练数据集。

redpajama还开源了所有数据预处理和质量过滤器，使得任何人都可以按照数据准备方法复制 redpajama-data-1t。（地址：https://github.com/togethercomputer/redpajama-data）

redpajama表示，正在积极训练类chatgpt大语言模型，并进行深度优化。根据alpaca模型的展示，仅需5万条高质量、多样化的指令，就能显着改善对话功能。

目前，redpajama已经收集了10万条高质量指令，将用于发布redpyjama模型的指令优化版本。

本文素材来源redpajama，如有侵权请联系删除

chatgpt 大语言模型

2023-04-19

chatgpt

2023-02-03

chatgpt 斯坦福 llama

2023-04-22

ai大模型 aigc chatgpt 文心一言百度

2023-07-07

chatgpt stable diffusion stability ai

2023-04-20

2024-08-26

可训练类chatgpt模型，允许商业化！rp开源1.2万亿数据集！ -金沙娱场城app

ai对话：类chatgpt产品体验

好用的ai绘画工具

火热的aigc产品

大公司发布的大模型产品都有哪些？

政府对aigc的扶持政策

aigc对就业的影响：我们会失业吗？

aigc对内容创作的影响

aigc对绘画设计领域的影响

aigc对各行各业的影响