Chat with Wiki - 开源的开源的 LLM 微调推理，agent开发平台

Answer

以下是为您整理的关于开源的 LLM 微调推理、agent 开发平台的相关内容：

LLM 作为 Agent 的“大脑”的特点：

知识获取能力：通过预训练学习大量语言数据，掌握丰富语言信息和常识知识，能处理多种任务。
指令理解：擅长解析人类语言指令，采用深度神经网络进行自然语言理解和生成，精准理解意图。
泛化能力：在未见过的数据上表现良好，能利用先前知识处理新挑战，形成对语言结构的通用理解。
推理和规划：能够进行逻辑推理和未来预测，分析条件制定最佳行动方案，在复杂环境中做出理性选择。
交互能力：拥有强大对话能力，在多人多轮次对话中自然流畅交流，改善用户体验。
自我改进：基于用户反馈和效果评估，通过调整参数、更新算法提升性能和准确性。
可扩展性：可根据具体需求定制化适配，针对特定领域数据微调提高处理能力和专业化水平。

相关产品和平台：

ComfyUI：可在其中高效使用 LLM。
Vercel AI SDK 3.0：开源的工具，可将文本和图像提示转换为 React 用户界面，允许开发者创建丰富界面的聊天机器人。
OLMo-7B-Instruct：Allen AI 开源的微调模型，可通过资料了解从预训练模型到 RLHF 微调模型的所有信息并复刻微调过程。
Devv Agent：能提供更准确、详细的回答，底层基于 Multi-agent 架构，根据需求采用不同 Agent 和语言模型。

实例探究：

ChemCrow：特定领域示例，通过 13 个专家设计的工具增强 LLM，完成有机合成、药物发现和材料设计等任务。
Boiko et al. (2023) 研究的 LLM 授权的科学发现 Agents：可处理复杂科学实验的自主设计、规划和执行，能使用多种工具。

Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI & LLM：如何在ComfyUI中高效使用LLM

1.知识获取能力：LLM（例如GPT或BERT）通过预训练学习了大量的语言数据。这意味着这些模型已经掌握了大量的语言信息和常识知识。由于预训练数据涵盖了从书籍、新闻文章到互联网上的各种文本，LLM能够理解和处理多种任务。无论是日常生活的常见问题还是专业知识，LLM都能够从中汲取足够的知识基础来进行有效的处理和输出。2.指令理解：LLM擅长解析人类的语言指令。无论是简洁的命令还是复杂的句子，LLM都能够理解这些指令的真实含义，并据此作出相应的回应。它们通常采用深度神经网络进行自然语言理解和生成，从而能够精准理解用户的语言表达意图。3.泛化能力：泛化能力指的是在未见过的数据上表现良好，即使遇到未曾明确训练过的任务，LLM也可以利用先前学到的知识处理新的挑战。它们通过大量训练样本形成了对语言结构的通用理解，可以应用于各种未曾预料的情境。4.推理和规划：LLM能够进行逻辑推理和未来预测。这意味着它们可以通过分析当前条件来预测结果，或是基于现有数据来制定下一步行动的最佳方案。这种能力允许Agent在复杂动态环境中做出理性的选择并引导行动。5.交互能力：LLM拥有强大的对话能力，能够在多人多轮次对话中自然流畅地进行沟通交流。这种特性对于构建实用性强的操作界面至关重要，可以显著改善用户体验。6.自我改进：基于用户的使用反馈和实际效果评估，LLM可以通过调整参数、更新算法等方式逐渐提升自身性能和准确性，这一过程称为自我改进。随着时间推移，Agent会变得越来越“聪明”，更好地满足用户需求。7.可扩展性：可扩展性意味着LLM可以根据具体需求进行定制化适配。通过针对某一领域或某种任务的数据进行微调，LLM可以显著提高在特定领域的处理能力和专业化水平。

AIGC Weekly #61

链接：https://vercel.com/blog/ai-sdk-3-generative-uiVercel在2024年3月1日宣布开源其v0.dev生成式UI设计工具的技术，并发布了Vercel AI SDK 3.0。这个工具最初是在去年十月推出的，它可以将文本和图像提示转换为React用户界面（UI），简化了设计工程流程。AI SDK 3.0允许开发者创建超越纯文本和Markdown的聊天机器人，提供基于组件的丰富界面。[heading2]OLMo-7B-Instruct：完整的开源LLM[content]链接：https://allenai.org/olmoAllen AI开源了微调模型OLMo-7B-Instruct，真正意义上的开源。你可以通过他们给出的资料了解从预训练模型到RLHF微调模型的所有信息。自己复刻一遍微调过程。发布的内容包括：完整的预训练数据：该模型是基于AI2的Dolma数据集构建的，该数据集包括了用于语言模型预训练的三万亿标记的开放语料库，包括生成训练数据的代码。训练代码和模型权重：OLMo框架包括四种7B规模模型变体的完整模型权重，每个模型至少训练了2T个标记。推理代码、训练指标和训练日志都已提供。评估：我们已发布了开发中使用的评估套件，每个模型每1000步都有500多个检查点，并在Catwalk项目的框架下提供了训练过程和评估代码。[heading2]Devv Agent：更详细的搜索[content]链接：https://devv.ai/en发布Devv Agent，Devv Agent可以提供更准确、更详细的回答，它会理解你的需求，并分解任务，最终输出一个详尽的答案。Devv Agent底层基于的是Multi-agent的架构，根据不同的需求场景，会采用不同的Agent和语言模型。

文章：LLM 驱动的自主Agents | Lilian Weng

ChemCrow（[Bran等人，2023](https://arxiv.org/abs/2304.05376)）是一个特定领域的示例，其中LLM通过13个专家设计的工具进行了增强，以完成有机合成、药物发现和材料设计等任务。[在LangChain](https://github.com/hwchase17/langchain)中实现的工作流程反映了之前在[ReAct](https://lilianweng.github.io/posts/2023-06-23-agent/#react)和[MRKL](https://lilianweng.github.io/posts/2023-06-23-agent/#mrkl)中描述的内容，并将CoT推理与与任务相关的工具相结合：LLM提供了工具名称列表、其实用程序的描述以及有关预期输入/输出的详细信息。然后，系统会指示它在必要时使用提供的工具来回答用户给出的提示。该指令建议模型遵循ReAct格式-Thought,Action,Action Input,Observation.一个有趣的观察是，尽管基于LLM的评估得出结论称GPT-4和ChemCrow的表现几乎相当，但与专家进行的人工评估，专注于解决方案的完整性和化学正确性，显示出ChemCrow在很大程度上胜过GPT-4。这表明在需要深入专业知识的领域中，使用LLM来评估自身的性能可能存在潜在问题。缺乏专业知识可能导致LLM不了解其缺陷，因此无法很好地判断任务结果的正确性。[Boiko et al.(2023)](https://arxiv.org/abs/2304.05332)还研究了LLM授权的科学发现Agents，以处理复杂科学实验的自主设计、规划和执行。该Agents可以使用工具浏览互联网、阅读文档、执行代码、调用机器人实验API并利用其他LLM。例如，当要求时"develop a novel anticancer drug"，模型提出以下推理步骤：