如果您想基于网页问卷调查训练一个能在您的逻辑之上自我迭代自动答题的专属模型,有以下两种常见的技术方案:
此外,还有学生训练专属植物分类 AI 模型的案例供您参考。在北京市新英才学校的跨学科选修课“生化 E 家”中,老师和学生共同收集校园内不同树叶的照片,在 OpenInnoLab(浦育)里找到图像分类训练工具,建立植物分类模型,加入大量数据集进行训练,再用图像化编程将其套在程序里,形成简单的识别工具。在这个过程中,老师通过生活体验与学生讨论图像分类原理,学生从体验到实践操作,在不进行大量代码编程的情况下能够训练 AI 模型,并了解模型训练准确度与数据的关系。
私人知识库中内容一般有两种:日常从互联网收集的优质信息个人日常的思考以及分享如果我想基于这套知识库打造个人专属的ChatGPT该怎么做呢?这里面常见的会有两种技术方案1.训练专有大模型2.利用RAG(检索增强生成)技术初次听到这两个名词你可能有点懵,不要慌,接下来我会通俗易懂的语言让你了解他们的原理。[heading3]训练专有大模型[content]KimiChat和ChatGPT等AI聊天软件为什么能够精准的回答问题,因为他们使用了整个互联网的语料进行了训练,从而拥有了整个互联网的知识。看到这里你应该知道我想要讲什么了,对,既然能用整个互联网的知识训练出KimiChat和ChatGPT等大模型,那我能不能使用我的知识库来训练一个专有的大模型呢?当然可以!而且这样的效果是最好的。但是这并不是当下主流的方案,因为他有以下几个缺陷:高成本:训练和维护一个大型专有模型的成本非常高,需要大量的计算资源和专业知识。更新难度:如果需要更新模型的知识,需要重新训练或微调模型,这可能是一个复杂且耗时的过程下面让我们来看另一个方案:RAG(检索增强生成)
选择Baichuan2-7B-Chat模型作为底模,配置模型本地路径,配置提示模板Train页面里,选择sft训练方式,加载定义好的数据集wechat和self_cognition。其中学习率和训练轮次非常重要,根据自己的数据集大小和收敛情况来设置,使用FlashAttention-2则可以减少显存需求,加速训练速度;显存小的朋友可以减少batch size和开启量化训练,内置的QLora训练方式非常好用。需要用到xformers的依赖具体命令参数如下:显存占用20G左右,耐心等待一段时间,请神模式开启...根据聊天记录规模大小,少则要几小时,多则几天,一个虚拟助手就能训练完成了。专不专业还有待大量标准问答验证,只是口气和习惯的模仿是有点意思的,若再加上[《克隆自己的声音——赛博分身必备技能》](http://mp.weixin.qq.com/s?__biz=MzI0MzA4NDkwMw==&mid=2247492147&idx=1&sn=efacb40a6c5610b6ed7368ba1d043f13&chksm=e970d93bde07502df2ff09ae3e700923ae285c21c7151282870d9e1db309da07ee5a49f609ed&scene=21#wechat_redirect)的效果,那几乎就传神了。不过这里还有很多细节工作需要完善:
理科结合AIGC也有一些创新空间。在北京市新英才有一个跨学科选修课“生化E家”,融合了“生物+化学+工程”。在课上,有一个章节是生物的分类,初中生物老师吴冰讲了植物分类的基本知识,尔后提出了一个实际的问题:“我们学校里的植物都有哪些种类?”然后让学生自己去探究,学生们提出了自己的方法,比如用手机拍照识别,也可以在植物检索表上去检索。魏一然找到生物老师吴冰,提到了这个课程创新的可能性。在魏一然的推动下,生物老师吴冰和信息科技老师李萌联合起来,共同出现在教室内给学生授课,探讨如何做一个专门识别植物的工具,对植物进行识别、鉴定及分类。学生们在学校里收集了很多不同的树叶,然后拿到学校的机房里面拍照。老师们带学生在OpenInnoLab(浦育)里面找到图像分类训练工具,建立了一个植物分类模型,在模型中加入大量的数据集,然后去训练生成一个专属于新英才学校植物分类的模型,最后再用图像化编程去把它套在一个程序里面,就形成了一个简单的识别工具,学生在校园中点击界面中的按钮即可识别校园植物。在这个过程中,老师通过生活体验和学生讨论图像分类的基本原理,学生从体验到实践操作,在不进行大量的代码编程的情况下,学生也能够进行AI模型的训练,而且能了解AI模型训练的准确度与数据的关系,为进一步学习做准备。可以看到,在各种课程当中,创新空间非常大。魏一然强调,这些创新全部都是老师和学生自主驱动的,学校非常支持老师和学生们拥抱人工智能。