Chat with Wiki - 有哪些优质的法律大模型数据集

Answer

以下是一些优质的法律大模型数据集：

ChatLaw：
- 地址：https://github.com/PKU-YuanGroup/ChatLaw
- 简介：由北大开源的一系列法律领域的大模型，包括 ChatLaw-13B（基于姜子牙 Ziya-LLaMA-13B-v1 训练而来），ChatLaw-33B（基于 Anima-33B 训练而来，逻辑推理能力大幅提升），ChatLaw-Text2Vec，使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型，可将用户提问信息和对应的法条相匹配。
LaWGPT：
- 地址：https://github.com/pengxiao-song/LaWGPT
- 简介：该系列模型在通用中文基座模型（如 Chinese-LLaMA、ChatGLM 等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。
LexiLaw：
- 地址：https://github.com/CSHaitao/LexiLaw
- 简介：LexiLaw 是一个基于 ChatGLM-6B 微调的中文法律大模型，通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务，包括具体法律问题的咨询，还是对法律条款、案例解析、法规解读等方面的查询。
Lawyer LLaMA：
- 地址：https://github.com/AndrewZhe/lawyer-llama
- 简介：开源了一系列法律领域的指令微调数据和基于 LLaMA 训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了 continual pretraining。在此基础上，借助 ChatGPT 收集了一批对中国国家统一法律职业资格考试客观题（以下简称法考）的分析和对法律咨询的回答，利用收集到的数据对模型进行指令微调，让模型习得将法律知识应用到具体场景中的能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

ChatLaw-法律大模型地址：[https://github.com/PKU-YuanGroup/ChatLaw](https://github.com/PKU-YuanGroup/ChatLaw)简介：由北大开源的一系列法律领域的大模型，包括ChatLaw-13B（基于姜子牙Ziya-LLaMA-13B-v1训练而来），ChatLaw-33B（基于Anima-33B训练而来，逻辑推理能力大幅提升），ChatLaw-Text2Vec，使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型，可将用户提问信息和对应的法条相匹配。简介：https://m.toutiao.com/article/7251839216332653068/?app=news_article&timestamp=1688482956&use_new_style=1&req_id=20230704230236E6F575C06DE6A91C10B7&group_id=7251839216332653068&wxshare_count=1&tt_from=weixin&utm_source=weixin&utm_medium=toutiao_android&utm_campaign=client_share&share_token=81b22e88-36d8-4aa1-8244-955058192f16[ChatLaw-13B](https://huggingface.co/JessyTsu1/ChatLaw-13B)，此版本为学术demo版，基于姜子牙[Ziya-LLaMA-13B-v1](https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1)训练而来，中文各项表现很好，但是逻辑复杂的法律问答效果不佳，需要用更大参数的模型来解决。

LLM开源中文大语言模型及数据集集合

LaWGPT：基于中文法律知识的大语言模型地址：[https://github.com/pengxiao-song/LaWGPT](https://github.com/pengxiao-song/LaWGPT)简介：该系列模型在通用中文基座模型（如Chinese-LLaMA、ChatGLM等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。LexiLaw：中文法律大模型地址：[https://github.com/CSHaitao/LexiLaw](https://github.com/CSHaitao/LexiLaw)简介：LexiLaw是一个基于ChatGLM-6B微调的中文法律大模型，通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务，包括具体法律问题的咨询，还是对法律条款、案例解析、法规解读等方面的查询。Lawyer LLaMA：中文法律LLaMA地址：[https://github.com/AndrewZhe/lawyer-llama](https://github.com/AndrewZhe/lawyer-llama)简介：开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA首先在大规模法律语料上进行了continual pretraining。在此基础上，借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题（以下简称法考）的分析和对法律咨询的回答，利用收集到的数据对模型进行指令微调，让模型习得将法律知识应用到具体场景中的能力。

大圣：全网最适合小白的 Llama3 部署和微调教程

在人工智能领域，我们通常会根据应用领域将大模型分为两类通用大模型领域特定模型。通用大模型如GPT-4.0、GPT-3.5、文新一言以及开源的通义千问、Llama2和Llama3它们通过训练获得了广泛的自然语言理解能力。这些模型类似于多面手，能够处理多种类型的语言任务。然而，尽管这些通用模型拥有强大的基础语言能力，它们在特定领域如法律或医学中的表现可能并不理想。这就像是一个语言能力已完全发展的10岁孩子，虽然可以流利交流，但要成为某一专业领域的专家，还需要学习更多相关知识。这种对大模型针对特定领域进行的训练过程称为大模型的微调。微调是一个调整过程，通过在特定领域的数据上训练模型，优化所有层的参数，以使模型在该领域表现更佳。提高其在该领域的专业性你可能会问，为什么不直接构建一个专用于法律的模型？关键在于，从头开始训练一个具备自然语言处理能力的大模型需要大量的时间和资源。小公司负担不起但是通过微调，我们可以在现有模型的基础上，更经济、更高效地适应新的应用领域。这类似于在巨人的肩膀上进一步攀登，利用已有的广泛知识基础，快速达到新的高度。这种方法不仅节省了成本，还可以加快模型部署和应用的速度。OK，对于普通人而言，大模型微调了解到这个程度就可以，我们继续