ChatGLM 是中文领域效果最好的开源底座模型之一。其地址为:https://github.com/THUDM/ChatGLM-6B 。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,针对中文问答和对话进行了优化。
[title]LLM开源中文大语言模型及数据集集合[heading4]1.ModelChatGLM:地址:[https://github.com/THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持VisualGLM-6B地址:[https://github.com/THUDM/VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B)简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于CogView数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。Chinese-LLaMA-Alpaca:地址:[https://github.com/ymcui/Chinese-LLaMA-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)简介:中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署,在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练
[title]LLM开源中文大语言模型及数据集集合[heading3][heading4]2.1垂直领域微调[heading5]医疗Med-ChatGLM:地址:[https://github.com/SCIR-HI/Med-ChatGLM](https://github.com/SCIR-HI/Med-ChatGLM)简介:基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。QiZhenGPT:地址:[https://github.com/CMKRG/QiZhenGPT](https://github.com/CMKRG/QiZhenGPT)简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。ChatMed:地址:[https://github.com/michael-wzhu/ChatMed](https://github.com/michael-wzhu/ChatMed)简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult:基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM:基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。
[title]LLM开源中文大语言模型及数据集集合[heading4]1.ModelLuotuo-Chinese-LLM:地址:[https://github.com/LC1332/Luotuo-Chinese-LLM](https://github.com/LC1332/Luotuo-Chinese-LLM)简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM,MOSS,LLaMA)进行二次微调的语言模型,指令微调数据集等。Linly:地址:[https://github.com/CVI-SZU/Linly](https://github.com/CVI-SZU/Linly)简介:提供中文对话模型Linly-ChatFlow、中文基础模型Linly-Chinese-LLaMA及其训练数据。中文基础模型以LLaMA为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了Linly-ChatFlow对话模型。ChatYuan地址:[https://github.com/clue-ai/ChatYuan](https://github.com/clue-ai/ChatYuan)简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。ChatRWKV:地址:[https://github.com/BlinkDL/ChatRWKV](https://github.com/BlinkDL/ChatRWKV)简介:开源了一系列基于RWKV架构的Chat模型(包括英文和中文),发布了包括Raven,Novel-ChnEng,Novel-Ch与Novel-ChnEng-ChnPro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。