chatgpt 凭一己之力让全球为 ai 沸腾,引发了科技巨头之间的聊天机器人军备竞赛。
众所周知,chatgpt 的背后技术是 gpt(generative pre-trained transformer)模型。gpt 是一种基于 transformer 模型的自然语言处理模型,由 openai 公司开发。它可以通过学习大量的自然语言数据来生成自然流畅的文本,例如文章、对话等。
2019 年 11 月,openai 开源了 gpt-2 语言模型的完整版本(有 15 亿个参数)。gpt-2 是作为 openai 2018 年 gpt 模型的 "直接扩展" 而创建的,其参数和训练数据集的大小都增加了 10 倍。
在 gpt-2 之后,openai 又推出了 1750 亿个参数的 gpt-3,只是其源代码从未被公开。openai 认为 gpt-3 可能被滥用,因此不应开源。包括后来的 gpt-3.5、gpt-4 都没有开源。目前,公开免费版 chatgpt 仍然基于 gpt-3.5,不过按月订阅 “chatgpt plus” 的用户能够试用由 gpt-4 提供支持的更新版本的 chatgpt。
尽管 chatgpt 没有开源,但趁着这波热度,还是有不少类似的开源项目出现,github 已经有人做个了替代 chatgpt 的开源项目列表。
lucidrains/palm-rlhf-pytorch
这是一个类似于 chatgpt 的模型,但使用的是 palm 架构。在 palm 架构之上实现了 rlhf(人类反馈强化学习)。
注:只有源代码,没有数据,没有模型权重,没有聊天系统。
togethercomputer/openchatkit
openchatkit 提供了一个强大的开源基础,可以为各种应用程序创建专用和通用聊天机器人。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
oobabooga/text-generation-webui
它是一个用于运行 gpt-j 6b、opt、galactica、llama 和 pygmalion 等大型语言模型的 gradio web ui。其目标是成为文本生成领域的automatic1111/stable-diffusion-webui。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
koboldai/koboldai-client
这是一个基于浏览器的前端,用于使用多个本地和远程 ai 模型进行 ai 辅助写作。它提供一系列标准工具,包括内存、作者笔记、世界信息、保存和加载、可调整的 ai 设置、格式化选项,以及导入现有 ai dungeon 冒险的能力。您还可以打开冒险模式并像 ai dungeon unleashed 一样玩游戏。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
laion-ai/open-assistant
openassistant 是一个基于聊天的助手,可以理解任务,可以与第三方系统交互,并为此动态检索信息。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
tatsu-lab/stanford_alpaca
这是 stanford alpaca 项目的 repo,该项目旨在构建和共享指令遵循的 llama 模型。
注:半开源、非真正开源、基于封闭模型等...
blinkdl/chatrwkv
chatrwkv 类似于 chatgpt,但由 rwkv(100% rnn)语言模型提供支持,并且是开源的。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
thudm/chatglm-6b
chatglm-6b 是一个基于通用语言模型(glm)框架的开放式双语语言模型,拥有 62 亿个参数。借助量化技术,用户可以在消费级显卡上进行本地部署(int4 量化级别仅需 6gb gpu 显存)。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
bigscience-workshop/xmtf
此存储库概述了用于创建 bloomz & mt0 和 xp3 的所有组件,这些组件在通过多任务微调进行跨语言泛化一文中介绍。
注:有数据,有模型权重,通过 api 可以实现基础的聊天功能。
carperai/trlx
这是一个用于通过人类反馈(rlhf)进行语言模型分布式训练的代码库,用于微调 gpt 模型以生成聊天文本的工具,支持在线 rl 训练多达 20 亿个参数的模型,以及离线 rl 训练更大的模型。
注:只有源代码,没有数据,没有模型权重,没有聊天系统。
databrickslabs/dolly
该模型基于 pythia-12b 进行训练,使用了约 15,000 条指令 / 响应微调记录,这些记录是由 databricks 员工在 instructgpt 论文的能力领域中生成的 databricks-dolly-15k。
注:有数据,有模型权重,通过 api 可以实现基础的聊天功能。
lianjiatech/belle
本项目的目标是推动中文大型会话模型开源社区的发展。该项目在原有的 stanford alpaca 基础上优化了中文性能。模型微调仅使用通过 chatgpt 生成的数据(没有其他数据)。此 repo 包含 175 个用于生成数据的中文种子任务、用于生成数据的代码、用于微调模型的 0.5m 生成数据等等。
注:有数据,有模型权重,通过 api 可以实现基础的聊天功能。
ethanyanjiali/minchatgpt
这个示例演示了如何使用 rlhf 技术对齐语言模型,使其能够生成类似于 chatgpt 的聊天文本。
注:有数据,有模型权重,通过 api 可以实现基础的聊天功能。
cerebras/cerebras-gpt
7 个开源 gpt-3 样式模型,参数范围从 1.11 亿到 130 亿,使用 chinchilla 公式 训练。模型权重已在宽松许可下发布(特别是 apache 2.0 许可)。
注:有数据,有模型权重,通过 api 可以实现基础的聊天功能。
tavernai/tavernai
一款主题风格是冒险和探险的聊天机器人,默认 ai 语言模型是 pygmalion,还包括其他语言模型,比如 koboldai、chatgpt、gpt-4 等。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
cohee1207/sillytavern
sillytavern 是 tavernai 1.2.8 的一个分支,目前正在积极开发中,并添加了许多主要功能。现在,它们可以被视为完全独立的程序。tavern 是一个用户界面,它需要与一个 ai 系统后端配合使用,才能发挥作用。有多种支持的后端可供选择,包括 openapi api(gpt)、koboldai(可以在本地运行或在 google colab 上运行)等。
注:有完整数据,有模型权重,包括 tui 和 gui 的精致聊天系统。
chatgpt 这阵风刮得这么猛,gotc 2023 怎会错过?
5 月 27 日至 28 日,gotc 2023 将在上海召开,aigc (ai generated content,ai 生成内容) 将成为本次大会的重头戏。尤其是在 “ai is everywhere” 分论坛上,诸多 ai 专家将深入探讨 aigc 背后的技术。
全球开源技术峰会(global open-source technology conference),简称 gotc,是由开放原子开源基金会、 linux 基金会亚太区、上海浦东软件园和开源中国联合发起的,面向全球开发者的一场盛大开源技术盛宴。 5 月 27 日至 28 日,gotc 2023 将于上海举办为期 2 天的开源行业盛会。大会将以行业展览、主题发言、特别论坛、分论坛的形式展现,与会者将一起探讨元宇宙、3d 与游戏、ebpf、web3.0、区块链等热门技术主题,以及开源社区、aigc、汽车软件、开源商业化、开源教育培训、云原生等热门话题,探讨开源未来,助力开源发展。
gotc 2023报名通道现已开启,诚邀全球各技术领域开源爱好者共襄盛举!
2024-08-26
2024-08-26
2024-08-26
2024-08-26
2024-08-26
2024-08-26
2024-08-26
2024-08-26
2024-08-26
2024-08-26
金沙娱场城app copyright © 2024 金沙娱场城app-老版金沙app下载客户手机端 北京智识时代科技有限公司 金沙娱场城app的版权所有