以下是为您整理的关于开源的 LLM 微调推理、agent 开发平台的相关内容:
LLM 作为 Agent 的“大脑”的特点:
相关产品和平台:
实例探究:
1.知识获取能力:LLM(例如GPT或BERT)通过预训练学习了大量的语言数据。这意味着这些模型已经掌握了大量的语言信息和常识知识。由于预训练数据涵盖了从书籍、新闻文章到互联网上的各种文本,LLM能够理解和处理多种任务。无论是日常生活的常见问题还是专业知识,LLM都能够从中汲取足够的知识基础来进行有效的处理和输出。2.指令理解:LLM擅长解析人类的语言指令。无论是简洁的命令还是复杂的句子,LLM都能够理解这些指令的真实含义,并据此作出相应的回应。它们通常采用深度神经网络进行自然语言理解和生成,从而能够精准理解用户的语言表达意图。3.泛化能力:泛化能力指的是在未见过的数据上表现良好,即使遇到未曾明确训练过的任务,LLM也可以利用先前学到的知识处理新的挑战。它们通过大量训练样本形成了对语言结构的通用理解,可以应用于各种未曾预料的情境。4.推理和规划:LLM能够进行逻辑推理和未来预测。这意味着它们可以通过分析当前条件来预测结果,或是基于现有数据来制定下一步行动的最佳方案。这种能力允许Agent在复杂动态环境中做出理性的选择并引导行动。5.交互能力:LLM拥有强大的对话能力,能够在多人多轮次对话中自然流畅地进行沟通交流。这种特性对于构建实用性强的操作界面至关重要,可以显著改善用户体验。6.自我改进:基于用户的使用反馈和实际效果评估,LLM可以通过调整参数、更新算法等方式逐渐提升自身性能和准确性,这一过程称为自我改进。随着时间推移,Agent会变得越来越“聪明”,更好地满足用户需求。7.可扩展性:可扩展性意味着LLM可以根据具体需求进行定制化适配。通过针对某一领域或某种任务的数据进行微调,LLM可以显著提高在特定领域的处理能力和专业化水平。
链接:https://vercel.com/blog/ai-sdk-3-generative-uiVercel在2024年3月1日宣布开源其v0.dev生成式UI设计工具的技术,并发布了Vercel AI SDK 3.0。这个工具最初是在去年十月推出的,它可以将文本和图像提示转换为React用户界面(UI),简化了设计工程流程。AI SDK 3.0允许开发者创建超越纯文本和Markdown的聊天机器人,提供基于组件的丰富界面。[heading2]OLMo-7B-Instruct:完整的开源LLM[content]链接:https://allenai.org/olmoAllen AI开源了微调模型OLMo-7B-Instruct,真正意义上的开源。你可以通过他们给出的资料了解从预训练模型到RLHF微调模型的所有信息。自己复刻一遍微调过程。发布的内容包括:完整的预训练数据:该模型是基于AI2的Dolma数据集构建的,该数据集包括了用于语言模型预训练的三万亿标记的开放语料库,包括生成训练数据的代码。训练代码和模型权重:OLMo框架包括四种7B规模模型变体的完整模型权重,每个模型至少训练了2T个标记。推理代码、训练指标和训练日志都已提供。评估:我们已发布了开发中使用的评估套件,每个模型每1000步都有500多个检查点,并在Catwalk项目的框架下提供了训练过程和评估代码。[heading2]Devv Agent:更详细的搜索[content]链接:https://devv.ai/en发布Devv Agent,Devv Agent可以提供更准确、更详细的回答,它会理解你的需求,并分解任务,最终输出一个详尽的答案。Devv Agent底层基于的是Multi-agent的架构,根据不同的需求场景,会采用不同的Agent和语言模型。
ChemCrow([Bran等人,2023](https://arxiv.org/abs/2304.05376))是一个特定领域的示例,其中LLM通过13个专家设计的工具进行了增强,以完成有机合成、药物发现和材料设计等任务。[在LangChain](https://github.com/hwchase17/langchain)中实现的工作流程反映了之前在[ReAct](https://lilianweng.github.io/posts/2023-06-23-agent/#react)和[MRKL](https://lilianweng.github.io/posts/2023-06-23-agent/#mrkl)中描述的内容,并将CoT推理与与任务相关的工具相结合:LLM提供了工具名称列表、其实用程序的描述以及有关预期输入/输出的详细信息。然后,系统会指示它在必要时使用提供的工具来回答用户给出的提示。该指令建议模型遵循ReAct格式-Thought,Action,Action Input,Observation.一个有趣的观察是,尽管基于LLM的评估得出结论称GPT-4和ChemCrow的表现几乎相当,但与专家进行的人工评估,专注于解决方案的完整性和化学正确性,显示出ChemCrow在很大程度上胜过GPT-4。这表明在需要深入专业知识的领域中,使用LLM来评估自身的性能可能存在潜在问题。缺乏专业知识可能导致LLM不了解其缺陷,因此无法很好地判断任务结果的正确性。[Boiko et al.(2023)](https://arxiv.org/abs/2304.05332)还研究了LLM授权的科学发现Agents,以处理复杂科学实验的自主设计、规划和执行。该Agents可以使用工具浏览互联网、阅读文档、执行代码、调用机器人实验API并利用其他LLM。例如,当要求时"develop a novel anticancer drug",模型提出以下推理步骤: