Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

哪里有rag实战开源项目

Answer

好的,以下是根据你的需求为你生成的文章:

检索增强生成技术(RAG)的基本概念和应用

一、RAG 的基本概念

RAG(Retrieval Augmented Generation)是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。其基本流程如下:

  1. 给定一个用户的输入,例如一个问题或一个话题。
  2. 从一个数据源中检索出与之相关的文本片段,例如网页、文档或数据库记录。这些文本片段称为上下文(Context)。
  3. 将用户的输入和检索到的上下文拼接成一个完整的输入,传递给一个大模型,例如 GPT。
  4. 从大模型的输出中提取或格式化所需的信息,返回给用户。

二、RAG 的实际应用

[文章 1]中提到,配备了全景和精准 PDF 解析器的 RAG 系统 ChatDOC 可以检索到更准确和完整的文本段,因此能够给出更好的回答。实验证明,ChatDOC 在近 47%的问题上表现优于 Baseline 模型,在 38%的问题上与 Baseline 模型表现持平,仅在 15%的问题上表现落后于 Baseline 模型。这表明,我们可以通过增强 PDF 结构识别来革新检索增强生成技术(RAG)。

三、RAG 的开发

[文章 2]中提到,RAG 是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。RAG 的基本流程如下:

  1. 给定一个用户的输入,例如一个问题或一个话题。
  2. 从一个数据源中检索出与之相关的文本片段,例如网页、文档或数据库记录。这些文本片段称为上下文(Context)。
  3. 将用户的输入和检索到的上下文拼接成一个完整的输入,传递给一个大模型,例如 GPT。这个输入通常会包含一些提示(Prompt),指导模型如何生成期望的输出,例如一个答案或一个摘要。
  4. 从大模型的输出中提取或格式化所需的信息,返回给用户。

综上所述,RAG 是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。ChatDOC 在近 47%的问题上表现优于 Baseline 模型,在 38%的问题上与 Baseline 模型表现持平,仅在 15%的问题上表现落后于 Baseline 模型。这表明,我们可以通过增强 PDF 结构识别来革新检索增强生成技术(RAG)。

Content generated by AI large model, please carefully verify (powered by aily)

References

通过增强PDF结构识别,革新检索增强生成技术(RAG)

尽管大语言模型(LLM)在自然语言生成方面取得了巨大的进展,但对于专业知识问答领域来说,结合检索增强生成技术(RAG)可以更好地利用领域专家知识、提供解释性的优势,提高问答准确率。目前,主流的基础模型公司已经开放了嵌入向量(Embedding)和聊天API接口,LangChain等框架也已经集成了RAG流程,似乎RAG中的关键模型和步骤都已经得到解决。这就引出一个问题:目前专业知识的问答系统是否已经趋于完善?本文指出当前的主要方法都是以获取高质量文本语料为前提的。然而,因为大部分的专业文档都是以PDF格式存储,低精度的PDF解析会显著影响专业知识问答的效果。我们对来自真实场景的专业文档,其中的数百个问题进行了实证RAG实验。结果显示,配备了全景和精准PDF解析器的RAG系统的ChatDOC(海外官网:chatdoc.com)可以检索到更准确和完整的文本段,因此能够给出更好的回答。实验证明,ChatDOC在近47%的问题上表现优于Baseline模型,在38%的问题上与Baseline模型表现持平,仅在15%的问题上表现落后于Baseline模型。这表明,我们可以通过增强PDF结构识别来革新检索增强生成技术(RAG)。

开发:LangChain应用开发指南-大模型的知识外挂RAG

RAG是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。RAG的基本流程如下:首先,给定一个用户的输入,例如一个问题或一个话题,RAG会从一个数据源中检索出与之相关的文本片段,例如网页、文档或数据库记录。这些文本片段称为上下文(context)。然后,RAG会将用户的输入和检索到的上下文拼接成一个完整的输入,传递给一个大模型,例如GPT。这个输入通常会包含一些提示(prompt),指导模型如何生成期望的输出,例如一个答案或一个摘要。最后,RAG会从大模型的输出中提取或格式化所需的信息,返回给用户。

开发:LangChain应用开发指南-大模型的知识外挂RAG

RAG是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。RAG的基本流程如下:首先,给定一个用户的输入,例如一个问题或一个话题,RAG会从一个数据源中检索出与之相关的文本片段,例如网页、文档或数据库记录。这些文本片段称为上下文(context)。然后,RAG会将用户的输入和检索到的上下文拼接成一个完整的输入,传递给一个大模型,例如GPT。这个输入通常会包含一些提示(prompt),指导模型如何生成期望的输出,例如一个答案或一个摘要。最后,RAG会从大模型的输出中提取或格式化所需的信息,返回给用户。

Others are asking
rag
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 通用语言模型通过微调可完成常见任务,而更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源来实现。Meta AI 引入 RAG 来完成这类任务,它把信息检索组件和文本生成模型结合,可微调且内部知识修改高效,无需重新训练整个模型。 RAG 接受输入并检索相关支撑文档,给出来源,与原始提示词组合后送给文本生成器得到输出,能适应事实变化,让语言模型获取最新信息并生成可靠输出。 大语言模型(LLM)存在一些缺点,如无法记住所有知识尤其是长尾知识、知识易过时且不好更新、输出难以解释和验证、易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有数据库存储和更新稳定、数据更新敏捷且不影响原有知识、降低大模型输出出错可能、便于管控用户隐私数据、降低大模型训练成本等优点。 在 RAG 系统开发中存在 12 大痛点及相应的解决方案,旨在帮助理解设计和实施 RAG 系统面临的复杂挑战,激发开发更强大且适用于生产环境的 RAG 应用。
2025-02-18
有什么提升 RAG 知识库问答的好的 prompt
以下是一些提升 RAG 知识库问答的好的 prompt 相关内容: RAG 在 Natural Questions、WebQuestions 和 CuratedTrec 等基准测试中表现出色,在使用 MSMARCO 和 Jeopardy 问题进行测试时,生成的答案更符合事实、具体且多样,FEVER 事实验证使用 RAG 后也有更好结果,说明 RAG 是可行方案,能增强知识密集型任务中语言模型的输出,基于检索器的方法常与 ChatGPT 等流行 LLM 结合提高能力和事实一致性,可在 LangChain 文档中找到相关例子。 RAG 能显著提高大模型在处理私域知识或垂直领域问答时的效果。其流程包括:上传文档(支持多种格式,会转换为 Markdown 格式)、文本切割、文本向量化(存入向量数据库)、问句向量化、语义检索匹配(匹配出与问句向量最相似的 top k 个)、提交 Prompt 至 LLM、生成回答返回给用户。RAG 研究范式分为基础 RAG、高级 RAG 和模块化 RAG。 高级 RAG 特点:支持多模态数据处理,增强对话性,具备自适应检索策略,能进行知识融合,扩展了基础 RAG 功能,解决复杂任务局限,在广泛应用中表现出色,推动自然语言处理和人工智能发展。 模块化 RAG 侧重于提供更高定制性和灵活性,将系统拆分成多个独立模块或组件,每个组件负责特定功能,便于根据不同需求灵活组合和定制。
2025-02-18
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
rag
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 通用语言模型通过微调可完成常见任务,而更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源来实现。Meta AI 引入 RAG 来完成这类任务,它把信息检索组件和文本生成模型结合,可微调且内部知识修改高效,无需重新训练整个模型。 RAG 接受输入并检索相关/支撑文档,给出来源(如维基百科),这些文档作为上下文和原始提示词组合给文本生成器得到最终输出,能适应事实随时间变化,让语言模型获取最新信息并生成可靠输出。 大语言模型(LLM)存在一些缺点,如无法记住所有知识(尤其是长尾知识)、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有以下优点:数据库对数据的存储和更新稳定,无学习风险;数据更新敏捷,可解释且不影响原有知识;降低大模型输出出错可能;便于管控用户隐私数据;降低大模型训练成本。 在 RAG 系统开发中存在 12 大痛点及相应解决方案,包括原论文中的 7 个和额外发现的 5 个。
2025-02-17
RAG是什么
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型需要 RAG 进行检索优化,是因为 LLM 存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在内容黑盒、不可控以及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 在 RAG 的应用中,可以将其抽象为 5 个过程:文档加载、文本分割、存储(包括将文档块嵌入转换成向量形式并存储到向量数据库)、检索、输出(把问题以及检索出来的嵌入片一起提交给 LLM 生成答案)。
2025-02-17
开源模型和闭源模型
开源模型和闭源模型的情况如下: 专有模型(闭源模型):如 OpenAI、Google 等公司的模型,需访问其官方网站或平台(如 ChatGPT、Gemini AI Studio)使用。 开源模型: 可使用推理服务提供商(如 Together AI)在线体验和调用。 可使用本地应用程序(如 LM Studio)在个人电脑上运行和部署较小的开源模型。 例如 DeepSeek、Llama 等开源模型。 Qwen 2 开源,具有多种尺寸的预训练和指令调整模型,在大量基准评估中表现出先进性能,超越目前所有开源模型和国内闭源模型,在代码和数学性能等方面显著提高。 金融量化领域的大模型正趋向闭源,几个巨头的核心模型如 OpenAI 最新一代的 GPT4、Google 的 Bard 以及未来的 Gemini 短时间内不会公开。Meta 的 LLaMA 目前开源,但未来可能改变。OpenAI 未来可能开源上一代模型。
2025-02-17
做chatbi有什么开源项目可以参考
以下是一些可参考的做 chatbot 的开源项目: Inhai:Agentic Workflow:其中介绍了大模型利用「网页搜索」工具的典型例子,还包括 Agent 自行规划任务执行的工作流路径以及多 Agent 协作的内容。 ChatDev:吴恩达通过此开源项目举例,可让大语言模型扮演不同角色相互协作开发应用或复杂程序。 ChatMLX:多语言支持,兼容多种模型,具有高性能与隐私保障,适用于注重隐私的对话应用开发者。链接:https://github.com/maiqingqiang/ChatMLX
2025-02-17
开源文字转语音
以下是为您提供的开源文字转语音相关信息: WhisperSpeech:通过对 OpenAI Whisper 模型的反向工程实现,生成发音准确、自然的语音输出。 相关链接:https://github.com/collabora/WhisperSpeech 、https://x.com/xiaohuggg/status/1748572050271420663?s=20 StyleTTS 2:一个开源的媲美 Elevenlabs 的文本转语音工具,可结合文本角色内容和场景音快速生成有声小说。 主要特点:多样化的语音风格、更自然的语音、高效生成、精确的语音控制、接近真人的语音合成、适应不同说话者。 工作原理:利用风格扩散和与大型语音语言模型(SLM)的对抗性训练来实现接近人类水平的 TTS 合成,通过扩散模型将风格建模为一个潜在的随机变量,以生成最适合文本的风格,而不需要参考语音,实现了高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。 相关链接:暂无
2025-02-15
采用GPL许可证的AI开源模型有哪些
以下是一些采用 GPL 许可证的智谱·AI 开源模型: 其他模型: WebGLM10B:利用百亿参数通用语言模型(GLM)提供高效、经济的网络增强型问题解答系统,旨在通过将网络搜索和检索功能集成到预训练的语言模型中,改进现实世界的应用部署。代码链接: WebGLM2B:代码链接无,模型下载: MathGLM2B:在训练数据充足的情况下,20 亿参数的 MathGLM 模型能够准确地执行多位算术运算,准确率几乎可以达到 100%,其结果显著超越最强大语言模型 GPT4 在相同测试数据上 18.84%的准确率。代码链接: MathGLM500M:代码链接无,模型下载: MathGLM100M:代码链接无,模型下载: MathGLM10M:代码链接无,模型下载: MathGLMLarge:采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有 335M 参数的 GLMlarge 和 GLM10B。此外,还使用 ChatGLM6B 和 ChatGLM26B 作为基座模型来训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。模型下载: 多模态模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型。CogAgent18B 拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能的基础上,具备 GUI 图像的 Agent 能力。代码链接:、始智社区 CogVLM17B:强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。我们训练的 CogVLM17B 是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接无,模型下载: Visualglm6B:VisualGLM6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 Chat 模型: ChatGLM6Bint4:ChatGLM6B 的 Int4 版本。最低只需 6GB 显存即可部署,最低只需 7GB 显存即可启动微调(,模型权重下载链接:魔搭社区、始智社区、启智社区 ChatGLM6Bint8:ChatGLM6B 的 Int8 版本。上下文 token 数:2K,代码链接:,模型权重下载链接:魔搭社区、始智社区、启智社区 AgentLM7B:1. 提出了一种 AgentTuning 的方法;2. 开源了包含 1866 个高质量交互、6 个多样化的真实场景任务的 Agent 数据集 AgentInstruct;3. 基于上述方法和数据集,利用 Llama2 微调了具备超强 Agent 能力的 AgentLM7B、AgentLM13B、AgentLM70B。上下文 token 数:4K,代码链接: AgentLM13B:上下文 token 数:4K,代码链接无,模型权重下载链接: AgentLM70B:上下文 token 数:8K,代码链接无,模型权重下载链接:
2025-02-14
开源模型的MIT模式、Apache、GPL、BSD模式的模型案例有哪些?
目前开源模型的 MIT 模式、Apache、GPL、BSD 模式的具体案例众多且不断更新。MIT 模式的开源模型如 TensorFlow Lite;Apache 模式的有 MXNet;GPL 模式的像 Gnuplot;BSD 模式的例如 OpenCV 等。但请注意,这只是其中的一部分,实际情况可能会有所变化。
2025-02-14
开源模型的MIT模式、Apache、GPL、BSD模式的定义和区别
MIT 模式:这是一种相对宽松的开源许可模式。允许使用者对软件进行修改、再发布,并且几乎没有限制,只要求在再发布时保留原版权声明和许可声明。 Apache 模式:提供了较为宽松的使用条件,允许修改和再发布代码,但要求在修改后的文件中明确注明修改信息。同时,还包含一些专利相关的条款。 GPL 模式:具有较强的传染性和约束性。如果基于 GPL 许可的代码进行修改和再发布,修改后的代码也必须以 GPL 许可发布,以保证代码的开源性和可共享性。 BSD 模式:也是一种较为宽松的许可模式,允许使用者自由地修改和再发布代码,通常只要求保留原版权声明。 总的来说,这些开源许可模式在对使用者的限制和要求上有所不同,您在选择使用开源模型时,需要根据具体需求和项目情况来确定适合的许可模式。
2025-02-14
飞书多维表格DeepSeek实战
以下是关于飞书多维表格 DeepSeek 实战的相关信息: 共学课程安排: 【今晚 8 点】聊聊你怎么使用 DeepSeek!:共学大类为 AIagent,讲师为全体,飞书会议地址为,共学时间为 2025 年 2 月 6 日。 飞书多维表格 DeepSeek 实战:共学大类为多维表格字段捷径,讲师为王大仙,飞书会议地址为,共学时间为 2025 年 2 月 10 日。 关于 DeepSeek 的介绍: DP 模型的功能包括自然语言理解与分析、编程、绘图等。使用优势是能用更少的词让模型做更多事,思维发散,能给出创意思路和高级内容,但存在思维链长不易控制,可能输出看不懂或胡编乱造的内容,增加纠错成本的问题。审核方法可以用其他大模型来解读其给出的内容,使用时要有自己的思维雏形,多看思考过程,避免被模型冲刷原有认知,使用场景包括阅读、育儿、写作、随意交流等方面,还有案例展示。 Deepseek 文档可在 3 群和 4 群分享获取,也可在 v to a gi 的飞书知识库中搜索获取。介绍了 Deepseek 的模型、收录内容、提示词使用技巧和好玩的案例等。未来活动预告包括明天后天在摩纳社区提供免费算力资源带大家学习炼丹,周一晚上学习多维表格中接入 Deepseek。 相关社区动态: 2025 年 2 月 10 日,有《》DeepSeek R1 赏析分享会,专为非技术人群设计,介绍了技术亮点、未来展望及对流行谣言的澄清。 2025 年 2 月 10 日,有《》,讲述了 DeepSeek 的崛起原因、V3 模型特点及竞争策略。 2025 年 2 月 10 日,有《》,介绍了飞书多维表格与 DeepSeek R1 结合的使用方法和效果。
2025-02-12
飞书多维表格DeepSeek实战
以下是关于飞书多维表格 DeepSeek 实战的相关信息: 共学活动安排: 【今晚 8 点】聊聊你怎么使用 DeepSeek!:共学大类为 AIagent,讲师为全体,飞书会议地址为,共学时间为 2025 年 2 月 6 日。 飞书多维表格 DeepSeek 实战:共学内容为多维表格字段捷径,讲师为王大仙,飞书会议地址为,共学时间为 2025 年 2 月 10 日。 关于 DeepSeek 的介绍与使用: DP 模型的功能包括自然语言理解与分析、编程、绘图等,使用优势是能用更少的词让模型做更多事、思维发散、能给出创意思路和高级内容,但存在思维链长不易控制、可能输出错误内容等问题。审核方法可以用其他大模型来解读其给出的内容,使用时要有自己的思维雏形,使用场景包括阅读、育儿、写作、随意交流等。 Deepseek 文档可在 3 群和 4 群分享获取,也可在 v to a gi 的飞书知识库中搜索。介绍了 Deepseek 的模型、收录内容、提示词使用技巧和好玩的案例等。未来活动预告包括明天后天在摩纳社区提供免费算力资源带大家学习炼丹,周一晚上学习多维表格中接入 DeepSeek。 相关社区动态: 2025 年 2 月 10 日,《》DeepSeek R1 赏析分享会专为非技术人群设计,介绍了技术亮点、未来展望及谣言澄清。 2025 年 2 月 10 日,《》介绍了 DeepSeek 崛起的原因、V3 模型的特点及竞争策略。 2025 年 2 月 10 日,《》介绍了如何将飞书多维表格与 DeepSeek R1 结合提升工作效率,普通人无需编程知识也能轻松使用 AI。
2025-02-12
在哪里可以看AIGC智能客服 实战项目
以下是一些可以查看 AIGC 智能客服实战项目的途径: 1. 数字人课程:卡尔的 AI 沃茨推出的数字人课程,包含 15 节视频课,持续更新并附赠课外社群辅导,课程中回顾了 2023 年数字人领域的破圈事件,还介绍了数字人的广泛应用和完整学习体系。报名方式为扫码查看课程详细内容和介绍。 2. 摊位信息:在杭州商场举办的 AI 切磋大会的摊位中,有关于“AI 数字员工”的摊位,提供抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等体验 demo。 3. 大厂 AIGC 实践:京东有众多 AIGC 相关的实践案例,如【羚珑 AI 智绘营】IPAdapter 等,相关链接可在给定的内容中查看。
2025-01-01
有没有关于大模型的实战技术文章
以下是为您找到的关于大模型的实战技术文章: 1. 《认识大模型 Embedding 技术加实战》 小结:认识了 Embedding 是浮点数向量,向量距离度量相关性,了解其分类及在大模型中的价值,还有从数据集中获取 Embedding 结果并保存为 csv 文件的实战部分。参考了 OpenAI 官网最新文档,包含个人测试问题和代码注释。链接:https://platform.openai.com/docs/introduction 原文链接:https://mp.weixin.qq.com/s/8mDLFFmgKOQC8WK2kkwhaA 原创:皇子|皇子谈技术|20240321 19:54 大模型应用开发技术不需要掌握机器学习和深度学习算法,但要有编程思维和 Python 基础。 2. 《ChatBot 是怎么炼成的?》 介绍了 LLM 基座大模型下游应用 ChatBot 的研发过程,在介绍 ChatBot 之前,先介绍了 LLM 在辅助编程方面的应用,包括 Codex 和 AlphaCode 两个奠基性工作,Codex 提出了编程数据集和 pass@k 指标,并采用了 2 阶段训练方式,还介绍了 Codex 的局限性和辅助编程问题定义。作者: 链接:https://ywh1bkansf.feishu.cn/wiki/HRnLw588DiTDLPkSTXCcKit8nbD 发布日期:2023/07/08
2024-08-28
AI如何在项目中运用
AI 在项目中的运用非常广泛,主要包括以下几个方面: 1. 辅助创作与学习:例如 AI 智能写作助手可帮助用户快速生成高质量文本,还有 AI 语言学习助手、诗歌创作助手、书法字体生成器、漫画生成器等为用户的学习和创作提供支持。 2. 推荐与规划:涵盖 AI 图像识别商品推荐、美食推荐平台、旅游行程规划器、时尚穿搭建议平台、智能投资顾问等,能根据用户需求和偏好推荐合适的产品、服务或制定个性化计划。 3. 监控与预警:像 AI 宠物健康监测设备、家居安全监控系统、天气预报预警系统、医疗诊断辅助系统等,可实时监测各种情况并提供预警。 4. 优化与管理:涉及办公自动化工具、物流路径优化工具、家居清洁机器人调度系统、金融风险评估工具等,有助于提高工作效率和管理水平。 5. 销售与交易:包括 AI 艺术作品生成器、书法作品销售平台、摄影作品销售平台、汽车销售平台、房地产交易平台等,为各类产品和服务提供销售渠道。 对于技术纯小白开发真正的应用,可逐步学习和实践。按照项目规划,学习一个 POC 并应用到大项目中。当遇到错误时,可复制错误信息和相关代码让 AI 找错修复,若使用可识图的 Claude 或 GPT4o,截图、错误信息和代码三件套会很有用。但可能会遇到一些问题,如 AI 给出错误的代码版本,此时更有效的方式是找文档(可让 GPT 提供文档链接或问 perplexity),或去 stackoverflow 上找答案(注意回答和评论的日期),然后将这些信息提供给 AI 让其修复。如有可能,找老师傅支援会更好。 在有具体需求的项目中运用 AI 仍存在困难,但其能提高生产效率,如创造美术资源,在创意瓶颈时也能提供启发和灵感。
2025-02-18
数字人项目
以下是关于数字人项目的相关信息: 构建高质量的 AI 数字人: 建好的数字人模型可以使用 web 前端页面(如 Live2D 提供的 web 端 SDK)或者 Native 的可执行程序进行部署,最终以 GUI 的形式呈现给用户。 开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择 live2d 作为数字人躯壳,原因是其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单。卡通二次元形象的接受度更高,超写实风格在目前技术下易出现一致性问题和恐怖谷效应。Live2d 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。 MimicMotion 项目: 腾讯发布的 MimicMotion 项目效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。 相较阿里的方案,MimicMotion 的优化包括:基于置信度的姿态引导机制,确保生成视频更加连贯流畅;基于姿态置信度的区域损失放大技术,显著减少图像扭曲和变形;创新的渐进式融合策略,在可接受的计算资源消耗下,实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion ,节点地址:https://github.com/AIFSH/ComfyUIMimicMotion 。 爱的传承·数字母亲: 内容负责人:朱睿电子酒 统筹负责人:张小琳电子酒 摄影:万阳 剪辑:萧川布丁子健 数字人:大萌子 使用工具:剪辑:剪映、imovie、美图秀秀;数字人:heygen 为完成数字人的拍摄,朱妈妈吃了 4 片吗啡。2 月 4 号制作完数字人,2 月 5 号拍摄,布丁川川子健凌晨开始剪辑,协调补拍追加了很多镜头,朱哥也熬了几个通宵来丰满素材。虽然最后呈现的效果不完美,但相信这部片子具有一定的社会价值。
2025-02-18
生成式AI教育场景应用 项目式学习 中小学案例
以下是一些中小学在生成式 AI 教育场景应用中采用项目式学习的案例: 北京市新英才学校: 开设“AI 创作家”小学课后服务特色课程,12 个五、六年级的学生在老师的引导和帮助下,主导设计一款实用的桌游。 学生们提出解决学校面积大导致新生和访客迷路的问题,决定制作一款学校地图桌游。 课程中,学生有时听老师讲解人工智能知识和工具使用方法,有时自己写 prompt 与大语言模型对话,还使用文生图 AI 工具生成桌游卡牌背后的图案,手绘第一版学校地图,选择游戏机制并梳理游戏流程。 在教育领域,生成式 AI 带来了诸多改变: 解决了教育科技长期以来在有效性和规模之间的权衡问题,可大规模部署个性化学习计划,为每个用户提供“口袋里的老师”,如实时交流并给予发音或措辞反馈的语言老师。 出现了众多辅助学习的产品,如教授新概念、帮助学习者解决各学科问题、指导数学作业、提升写作水平、协助创建演示文稿等。
2025-02-18
AI的项目
以下是为您整理的一些 AI 项目相关信息: 1. AI 春晚:这是由 WaytoAGI 社区组织的一场由 AI 技术驱动的春节晚会,由 300 多位 AI 爱好者共同创作。在 20 多天里运用多种先进技术,作品时长约 150 分钟,涵盖多种节目类型。于 24 年大年初一直播,18 万人在线观看,后续视频播放量超 200 万,媒体曝光量超 500 万,多个节目登录央视网,孵化了数个优质项目与团队。您可以通过以下链接观看:完整版:https://www.bilibili.com/video/BV15v421k7PY/?spm_id_from=333.999.0.0 相关进度: 2. 2024 年盘点:融资过亿的美国 AI 初创公司: Liquid AI:完成 2.5 亿美元 A 轮融资,公司估值达 23.5 亿美元。由 AMD Ventures 领投,专注开发高效通用 AI 模型,计划用资金扩展计算基础设施和加速产品部署。 Tractian:完成 1.2 亿美元 C 轮融资,公司估值 7.2 亿美元。由 Sapphire Ventures 等机构参与,其解决方案帮助企业实现零停机时间和提高生产力,计划用资金加速制造业 AI 创新。 Tenstorrent:完成 6.93 亿美元 D 轮融资,公司估值 27 亿美元。由三星证券等领投,专注开发高性能 AI 处理器,计划用资金扩充工程团队和构建训练服务器。 xAI:完成第二轮巨额融资,筹集 60 亿美元,公司估值 500 亿美元。由红杉资本等机构参与。 3. AI 市集:包括 AI 调酒、AI 占卜、AI 绘画等。还有 AI 音乐节,由 AI 作词作曲做 MV;AI 即兴喜剧,由 AI 原创剧本。每个 AI 项目通过支付宝百宝箱搭建智能摊位,顾客可直接提问,机器人助手回答并生成文字或图片。如妙刷,可通过上传图片生成艺术作品和视频。杭州“AI 创作者基地”揭牌,将联合社区输出高质量 AI 技术支持。12 月的切磋大会在筹备中,未来会去更多城市和学校。
2025-02-04
我是IT产品和项目经理,如何通过学习成为AI产品经理
要从 IT 产品和项目经理转变为 AI 产品经理,可以参考以下步骤: 1. 入门级:通过 WaytoAGI 等开源网站或相关课程了解 AI 概念,使用 AI 产品并动手实践应用搭建。 2. 研究级: 技术研究路径:对某一领域有认知,能根据需求场景选择解决方案,利用 Hugging face 等工具手搓出一些 AI 应用来验证想法。 商业化研究路径:熟悉传统互联网偏功能实现和偏商业运营的产品经理工作,最好能将两者结合。 3. 落地应用级:积累成功落地应用的案例,产生商业化价值。 AI 产品经理的岗位技能要求包括: 1. 本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 2. 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验。 3. 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 4. 负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 5. 了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 6. 对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 7. 具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 8. 对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践。 9. 对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 10. 具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成。 11. 具有一定的编程基础,熟练使用 Python、Git 等工具。 总结来说,AI 产品经理要懂得技术框架,不一定要了解技术细节,而是对技术边界有认知,最好能知道一些优化手段和新技术的发展。同时,要关注场景、痛点、价值。
2025-02-02