Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Embedding 嵌入向量生成模型

Answer

Embedding(嵌入)是一个浮点数的向量(列表),两个向量之间的距离度量它们的相关性,小距离表示高相关性,大距离表示低相关性。

Embedding 是一种在机器学习和深度学习中广泛应用的技术,特别是在自然语言处理(NLP)和其他涉及高维离散数据的领域。它指将原本高维且通常离散的输入数据(如单词、短语、用户 ID、商品 ID 等)映射到一个低维连续向量空间中的过程,这些低维向量称为嵌入向量。

例如,“国王”和“王后”在嵌入向量的空间里位置挨得很近,而“苹果”与前两者差别较大,其嵌入向量位置较远。Embedding 不仅限于单词,还可扩展到句子、文档、实体或其他类型的对象。通过训练诸如 Word2Vec、GloVe 或 BERT 等模型,可从大规模文本数据中学习出这样的嵌入向量,这些嵌入向量可看作是输入数据在潜在语义空间中的表示,能改善下游任务(如文本分类、情感分析、问答系统、机器翻译等)的表现。

除文本数据外,嵌入技术还应用于社交网络分析、推荐系统、图像识别(如位置嵌入)、图神经网络(如节点嵌入)等多种场景,实现将复杂对象的有效编码和降维表示。

Embeddings 有多种分类及对应模型:

  • 句子和文档嵌入:Doc2Vec 能为整个文档生成统一的向量表示;Average Word Embeddings 是将一段文本中所有单词的嵌入取平均作为整体的文本表示;Transformers Sentence Embeddings 如 BERT 的[CLS]标记对应的向量,或者专门针对句子级别的模型如 Sentence-BERT。
  • 实体/概念嵌入:Knowledge Graph Embeddings 如 TransE、DistMult、ComplEx 等,用于将知识图谱中的实体和关系嵌入到低维向量空间中。
  • 其他类型:图像 Embeddings 使用卷积神经网络(CNN)进行图像特征提取,得到的特征向量即为图像嵌入;音频 Embeddings 在语音识别和声纹识别中,将声音信号转化为有意义的向量表示;用户/物品 Embeddings 在推荐系统中,将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐;还有图 Embeddings 用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中,通过 DeepWalk、Node2Vec、GraphSAGE 等算法来实现,在图分析、社交网络分析、推荐系统等领域广泛应用,用于发现社区结构、节点相似性、信息传播等图属性。

在将大型文档转换为可检索内容的过程中,嵌入向量生成这一步将文本块转换为实值向量并存储在数据库中。但检索 PDF 文档的过程充满挑战,可能出现文本提取不准确和 PDF 文档内表格行列关系混乱等问题。在检索增强生成(RAG)框架中,回答一个问题需要用户提出问询,系统从私有知识库中检索相关内容,将相关内容与用户查询合并为上下文,最后请求大语言模型生成答案,准确检索相关信息对 RAG 模型的效力至关重要。

Content generated by AI large model, please carefully verify (powered by aily)

References

通过增强PDF结构识别,革新检索增强生成技术(RAG)

大语言模型的训练数据主要来源于公开互联网资源,包括网页、书籍、新闻和对话文本。这意味着大语言模型主要依赖互联网资源作为它们的训练数据,这些资源量级大、种类繁多且易于访问,支持大语言模型扩展其性能。然而,在垂直领域应用中,专业任务需要大语言模型利用领域知识(Domain knowledge)。遗憾的是,这些知识是私有数据,并不属于它们预训练数据中的一部分。为大语言模型配备领域知识的一种流行方法是检索增强生成(Retrieval-Augmented Generation,以下简称RAG)。RAG框架回答一个问题需要四个步骤:用户提出问询;系统从私有知识库中检索相关内容;将相关内容与用户查询合并为上下文;最后请求大语言模型生成答案。图1通过一个简单示例说明了这个过程。该过程反映了遇到问题时的典型认知过程,包括查阅相关参考资料,然后推导出答案。在这个框架中,关键部分是要准确地检索相关信息,这对RAG模型的效力至关重要。图1检索增强生成(RAG)的工作流然而,检索PDF文档的过程充满挑战,经常会出现文本提取的不准确和PDF文档内表格的行列关系混乱等问题。因此,在RAG之前,我们需要将大型文档转换为可检索内容。转换涉及以下几个步骤,如图2所示:图2将PDF文档转换为可检索内容的过程文档解析和文本切分(Document parsing & chunking)。这一步涉及到提取段落、表格和其他内容块,然后将提取的内容分块以进行后续检索。嵌入向量(Embedding)生成。这一步将文本块转换为实值向量并存储在数据库中。由于这些步骤中的每一步都可能导致信息损失,因此复合损失会显著影响RAG响应的效果。

认识大模型 Embedding 技术加实战

Embedding(嵌入)是一个浮点数的向量(列表)。两个向量之间的距离度量它们的相关性,小的距离表示高相关性,大的距离表示低相关性。Embedding(嵌入)也是是一种在机器学习和深度学习中广泛应用的技术,特别是自然语言处理(NLP)和其他涉及高维离散数据的领域。它指的是将原本高维且通常是离散的输入数据(如单词、短语、用户ID、商品ID等)映射到一个低维连续向量空间中的过程。这些低维向量称为嵌入(Embedding vectors)。例如,“国王”和“王后”在嵌入向量的空间里,位置就会挨得很近;而“苹果”这个词,虽然也是个词,但因为它的意思和前两者差别较大,所以它的嵌入向量就会落在离“国王”和“王后”比较远的地方。Embedding不仅限于单词,还可以扩展到句子、文档、实体或其他类型的对象。通过训练诸如Word2Vec、GloVe或BERT等模型,可以从大规模文本数据中学习出这样的嵌入向量。这些嵌入向量可以被看作是输入数据在潜在语义空间中的表示,使得机器学习模型能够更好地理解和处理这些数据,从而改善下游任务(如文本分类、情感分析、问答系统、机器翻译等)的表现。除了文本数据,嵌入技术也被应用于社交网络分析、推荐系统、图像识别(如位置嵌入)、图神经网络(如节点嵌入)等多种场景中,实现将复杂对象的有效编码和降维表示。

认识大模型 Embedding 技术加实战

Doc2Vec:扩展了Word2Vec,能够为整个文档生成统一的向量表示。Average Word Embeddings:将一段文本中所有单词的嵌入取平均作为整体的文本表示。Transformers Sentence Embeddings:如BERT的[CLS]标记对应的向量,或者专门针对句子级别的模型如Sentence-BERT。[heading3]实体/概念嵌入[content]Knowledge Graph Embeddings:如TransE、DistMult、ComplEx等,用于将知识图谱中的实体和关系嵌入到低维向量空间中。[heading3]其他类型[content]图像Embeddings:使用卷积神经网络(CNN)进行图像特征提取,得到的特征向量即为图像嵌入。音频Embeddings:在语音识别和声纹识别中,将声音信号转化为有意义的向量表示。用户/物品Embeddings:在推荐系统中,将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。还有一种图Embeddings:是用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中。通过学习图嵌入,可以将复杂的图结构转化为向量表示,以捕捉节点之间的结构和关联关系。这些方法可以通过DeepWalk、Node2Vec、GraphSAGE等算法来实现。图嵌入在图分析、社交网络分析、推荐系统等领域中广泛应用,用于发现社区结构、节点相似性、信息传播等图属性。下面以OpenAI为例继续展开介绍

Others are asking
embedding是什么
Embedding 是一种在深度学习和自然语言处理(NLP)中常用的特征工程方法,本质上是将高维度的数据(如单词、短语、句子等)转换为低维度的向量。其主要目的是降低数据的抽象性和复杂性,以便机器学习模型更有效地理解和处理数据,同时帮助模型理解语义关系,如单词之间的相似性、句子的情感等。 以下是几个关于 Embedding 的例子: 1. 电影推荐系统:假设存在一个电影推荐系统,用户可给电影打分,目标是预测用户未看过电影的评分。此时,每个用户和电影都可视为独特分类标签,直接处理这些高维度且稀疏的标签较困难。通过为每个用户和电影创建 Embedding(低维度向量),可捕捉用户兴趣和电影特性,进而通过比较 Embedding 来预测评分。 2. 文本分类:在文本分类任务中,Embedding 可将文本转换为适合模型处理的向量形式。 此外,在 Stable Diffusion 中,Embedding 相当于提示词打包的功能,能将大量提示词汇总到一个文件里,调用该文件就相当于输入了很多提示词,尤其在负向提示词中,当文本量很大且固定不变时,使用打包好的负向提示词 Embedding 可达到一词顶一百词的效果。 Embedding 是一个浮点数的向量(列表),两个向量之间的距离可度量它们的相关性,小距离表示高相关性,大距离表示低相关性。Embedding 有词、句子、文档、图像等分类。在大模型中,Embedding 具有重要价值,例如从数据集中获取 Embedding 结果并保存为 csv 文件。进阶到企业级应用开发的大模型技术还会涉及利用开源的 Embedding 模型、向量数据库去做检索增强生成(RAG),以及购买 GPU 服务器去基于开源大模型搭建企业级大模型项目。 参考链接:OpenAI 官网文档 https://platform.openai.com/docs/introduction
2024-08-27
embedding是什么?
Embedding 是一种在深度学习和自然语言处理(NLP)中的特征工程方法,用于将高维度的数据(如单词、短语、句子等)转换为低维度的向量。其本质是通过向量空间映射将文本转换为数值表示,主要目的是降低数据的抽象和复杂性,使机器学习模型能更有效地理解和处理数据,帮助模型理解语义关系,如单词之间的相似性、句子的情感等。 以下是几个关于 Embedding 的例子帮助您更好地理解: 1. 电影推荐系统:假设我们有一个电影推荐系统,用户可以给电影打分,目标是预测用户未看过的电影的评分。每个用户和电影都可视为独特分类标签,直接处理这些高维度和稀疏的标签很困难。此时可使用 Embedding,为每个用户和电影创建低维度向量,捕捉用户兴趣和电影特性,通过比较向量来预测评分。 2. 在 Stable Diffusion 中,Embedding 相当于提示词打包功能,能把很多提示词汇总到一个文件里。调用一个 Embedding 文件就相当于输入很多提示词,对于文本量很大且固定不变的提示词,如常见的负向提示词,使用打包好的负向提示词 Embedding 可达到一词顶一百词的效果。 此外,我们认识到 Embedding 是一个浮点数的向量(列表),两个向量之间的距离度量它们的相关性,小距离表示高相关性,大距离表示低相关性。Embedding 共有词、句子、文档、图像等分类。在大模型中,Embedding 具有重要价值,实战中可从数据集中获取 Embedding 结果,并保存为 csv 文件。进阶到企业级应用开发的大模型技术还会涉及利用开源的 Embedding 模型、向量数据库去做检索增强生成(RAG),以及购买 GPU 服务器去基于开源大模型搭建企业级大模型项目。OpenAI 官网文档链接:https://platform.openai.com/docs/introduction
2024-08-26
可以嵌入AI玩具的硬件
以下是关于可以嵌入 AI 玩具的硬件的相关信息: 一个名为“跃然创新”的 20 人小微创业团队,将大模型装进毛绒玩具里,赋予毛绒玩具生命。其 CEO 李勇和 COO 高峰是资深的互联网+硬件从业者。 做儿童场景产品是李勇和高峰长久以来的梦想,源于对天猫精灵多数语音交互来自孩子这组数据的洞察。之前智能音箱的 AI 交互体验不够好,直到 ChatGPT 出现,他们确定将大模型和毛绒玩具结合,做一家陪伴孩子成长的 AI 毛绒玩具公司。 “情绪价值”是李勇理解儿童陪伴场景的关键词,认为 AI 毛绒玩具更具情感陪伴属性,相较于音箱、故事机、机器人、平板等,毛绒玩具更能带给孩子安全感。 明确了 AI+毛绒玩具的产品方向后,团队基于大模型做训练、引进 IP 版权、接洽供应链全速推进。未来除了联名 IP 外,也会有自己的原创 IP。 基于数百名孩子的调研结果,不同孩子使用 AI 毛绒玩具有区别,但基本都喜欢。李勇强调跟它聊得越多,它就越懂孩子、越能发现孩子的潜能。 由于毛绒玩具购买者与使用者分离,团队做了很多让家长有安全感的工作,比如家长可通过 App 查看聊天记录,危险话题会推送预警信息,还能从聊天记录了解孩子真实喜好,AI 毛绒玩具成为家长和孩子沟通的桥梁。 团队透露近期首款 AI 毛绒玩具产品会面世。
2025-01-14
Coze中能给变量在赋值中嵌入其它变量并同时 使用公式么
在 Coze 中,变量是以 keyvalue 形式存储数据的,是 Bot 的数据记忆功能。大语言模型会根据用户输入内容进行语义匹配,为定义的变量赋值并保存值。您可以在提示词中为 Bot 声明某个变量的具体使用场景。 创建变量可在创建 Bot 的页面进行。对变量进行赋值时,首先可以在给大模型的提示词中做声明,例如:“与您的用户进行互动,并根据 user_language 变量,用他们偏好的语言在线搜索。除非另有设置,用户查询的语言应指导您的回答和搜索”。这段提示词相当于告诉了 LLM,user_language 这个变量该如何赋值以及使用。 变量创建并赋值后,如 user_language 变量,就可以在工作流中作为变量使用。这一块解释起来有些抽象,具体可以参考后面的例子,真正用一遍就懂了。 综上,在 Coze 中能给变量在赋值中嵌入其它变量并同时使用公式,但具体的实现方式和规则需要根据具体的提示词和使用场景来确定。
2024-12-11
ollama嵌入向量在模型后有什么用
嵌入向量在模型后的作用主要体现在以下方面: 1. 用于文档内容的表示和检索:将文档分成块,计算嵌入向量并存储在向量存储中,在测试时通过查询向量存储获取可能与任务相关的块,填充到提示中进行生成。 2. 提升模型的检索能力:在大语言模型应用程序中,向量存储成为检索相关上下文的主要方式,嵌入向量有助于更高效地获取相关信息。 3. 支持多语言和不同粒度的检索任务:例如像 bgem3 这样的向量模型,支持超过 100 种语言的语义表示及检索任务,能实现句子、段落、篇章、文档等不同粒度的检索。 在实际应用中,如在 LangChain 中,本地向量存储使用量较大,而在计算文本片段的嵌入时,OpenAI 占据主导地位,开源提供商如 Hugging Face 等也被较多使用。
2024-11-12
智能体如何嵌入课件
以下是关于智能体嵌入课件的相关内容: 在提示词培训课中: 点击“创建智能体”按钮。 输入对智能体的描述,如有准备好的提示词模板可直接粘贴。 ChatGLM 的智能体配置可自动生成,默认勾选增强能力,可根据实际需求调整,也可上传本地文件作为知识原料形成智能体的知识库。 在基础通识课中: 以可视化方式讲解 Transformer 架构,单词先拆分再嵌入(embedding),为保证语序不乱会做位置编码标记,嵌入后进入自助运力机制模型。 在 AI 智能体:企业自动化的新架构 Menlo Ventures 中: 轨道智能体被赋予更高级目标和更多自由度选择实现方法和工具,受程序性知识指导,拥有预定义工具并受保护栏和审查措施约束。 运行时会产生规划智能体评估应用程序当前状态、选择并执行最佳链条、进行审查和确保一致性等模式。 请注意,由于最近盗版事件频发,需要课件的扫群主二维码获取。
2024-10-16
如何自己弄一个网页嵌入型的智能问答对话AI
以下为您介绍如何自己弄一个网页嵌入型的智能问答对话 AI: AskAI 是一个不错的选择。它是一个构建自己的 AI 问答系统的平台,用户可以通过无代码的方式,在几分钟内构建自己的 AI 问答系统。 其特点和优势包括: 1. 能够快速构建:在短时间内即可完成。 2. 嵌入方式灵活:可以将构建好的系统分享到任何网页上,嵌入到网页中,或通过 API 进行访问。 3. 技术支持:使用 OpenAI 的嵌入技术。 AskAI 的官网是:https://www.myaskai.com 。通过该平台,您能够较为便捷地实现自己的网页嵌入型智能问答对话 AI 的需求。
2024-09-02
哪个服务可以把comfyui嵌入到现在有的网站
ComfyUI 是一个基于 Stable Diffusion 模型的图形用户界面(GUI),它允许用户通过节点式工作流设计和执行高级的图像生成任务。根据搜索结果,ComfyUI 可以作为一个独立的应用程序运行,并且似乎没有直接的选项将其嵌入到现有的网站中。 但是,如果你想将 ComfyUI 的功能集成到现有的网站中,你可以考虑以下几种方法: 1. 反向代理:可以在服务器上运行 ComfyUI,并使用反向代理服务(如 Nginx 或 Apache)将特定路由指向 ComfyUI 的接口,这样用户就可以通过你的网站访问 ComfyUI 的功能。 2. iframe 嵌入:如果 ComfyUI 提供了可以直接访问的 URL 并且可以作为服务运行,你可以尝试使用 HTML 的 `<iframe>` 标签将其嵌入到你的网页中。但是,出于安全和同源策略的考虑,这可能需要 ComfyUI 服务端的支持。 3. API 集成:如果 ComfyUI 支持 API 调用,你可以在自己的网站后端创建一个代理服务,将用户的请求转发给 ComfyUI 的 API,并将结果返回给前端用户。 4. 微服务架构:将 ComfyUI 作为微服务架构的一部分运行,并通过内部网络提供其功能,你的主网站应用程序可以通过服务间通信与之交互。 5. Web 服务集成:如果 ComfyUI 提供了 Web 服务接口,你可以在你的网站后端使用服务器端渲染技术(如 Node.js、PHP、Python 等)来与 ComfyUI 进行交云,并动态生成用户界面。 6. 容器化部署:使用 Docker 或其他容器化技术将 ComfyUI 部署为一个容器实例,并通过容器编排工具(如 Kubernetes)管理其运行,你的网站可以通过网络请求与之通信。 请注意,这些方法可能需要一定的技术知识和额外的配置工作。此外,确保任何集成都符合 ComfyUI 的使用条款和版权要求。如果你需要具体的技术指导,可能需要联系 ComfyUI 的开发者或查阅相关的开发者文档。
2024-04-23
机器学习的子领域包括: 监督学习,常用算法如线性回归、决策树、支持向量机(SVM)。 无监督学习,如聚类、降维等算法。 强化学习,那深度学习是哪一种啊
深度学习是机器学习的一个子领域。 在机器学习中,深度学习是一种利用深度神经网络来学习数据特征和模式的方法。 深度学习的特点包括: 1. 具有复杂的网络结构,如前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)等。 2. 能够自动从大量数据中提取高级特征。 深度学习在图像识别、语音识别、自然语言处理等领域取得了显著的成果。
2025-01-21
向量数据库和矢量数据库的区别
向量数据库和传统数据库(可视为您所提到的“矢量数据库”)主要有以下区别: 1. 查找方式: 传统数据库需要精确的关键词或类别进行查找,如同在普通图书馆中需知道书的具体位置或分类。 向量数据库可以通过自然语言描述所需内容,系统能理解意图并找到最相关的内容。 2. 组织方式: 传统数据库中信息被严格分类和组织,类似图书馆里的书架和编号系统。 向量数据库中信息根据内在特征和相似性自然聚集,如同魔法图书馆里书籍自动根据内容相似性浮动聚集。 3. 灵活性: 传统数据库若要更换组织方式,可能需重新安排整个架构。 向量数据库中,新加入的数据会自动找到合适位置,无需重新组织整个系统。 4. 发现新内容: 传统数据库较难偶然发现相关但之前未知的内容。 向量数据库在搜索时可能发现许多相关但之前不知道的内容,因其理解内容本质而非仅依赖标签。 此外,向量数据库以多维向量形式保存信息,代表某些特征或质量,能根据数据的向量接近度或相似度快速、精确地定位和检索数据,从而实现根据语义或上下文相关性进行搜索。而传统数据库通常以表格形式存储简单数据,搜索依赖精确匹配或设定标准。 为了在人工智能和机器学习应用中利用非结构化数据(如文本、图像和音频等),需要使用嵌入技术将其转换为数字表示,嵌入过程通常通过特殊神经网络实现,使计算机能更有效地辨别数据中的模式和关系。
2025-01-10
向量检索在大语言模型中的应用主要是为了解决什么问题
向量检索在大语言模型中的应用主要是为了解决以下问题: 1. 由于大模型的输入窗口有限,通过文本分割器将文档分割成较小的对象,方便后续的检索和生成,在较短的文本中更容易找到相关信息。 2. 利用文本嵌入器将文本转换为高维向量,通过衡量文本之间的相似度实现检索功能。 3. 借助向量存储器存储和查询嵌入,通常使用索引技术如 Faiss 或 Annoy 加速嵌入的检索。 4. 检索器根据文本查询返回相关的文档对象,常见的实现如向量存储器检索器使用向量存储器的相似度搜索功能进行检索。
2024-12-05
数据如何向量化
数据向量化是为了实现高效的文档检索,将原始的文本数据转化为数值向量的过程。其目的是将文本数据映射到低维向量空间,使语义相似的文本距离较近,不相似的较远。但这一过程会导致一定程度的信息损失,因为文本的复杂性和多样性难以用有限向量完全表达,可能忽略细节和特征,影响文档检索准确性。 在语义搜索中,根据用户问题从文档集合中检索语义最相关的文档,主流方法是基于数据向量化结果,利用向量空间中的距离或相似度度量语义相似度,但存在局限性,如不能完全反映真实语义相似度,向量空间中的噪声和异常值会干扰结果,导致准确率无法 100%保证。 在计算机科学和数据分析中,向量常被用作表示数据点的方式,是一个数值列表或数组,每个数值代表数据点的一个特征。多维数据运算常以矩阵形式进行,矩阵乘法是基本操作。归一化是数据预处理的关键技术,用于调整数值数据范围,常用方法有最小最大缩放和 Z 得分标准化。 在向量数据库中,当用户输入查询时,如“激动人心的科幻冒险”,会转换成一个向量,例如,表示对不同元素的偏好程度。向量数据库存放的是词在不同维度上的相对位置,数据的存储和检索与传统 Excel 和关系数据库有很大不同。关于文字如何转换成向量,实际的向量结构会很复杂。
2024-10-12
以图片为主的PDF文件向量化的本地大模型推荐
以下是关于以图片为主的 PDF 文件向量化的本地大模型的相关信息: RAG 技术: 利用大模型的能力搭建知识库是 RAG 技术的应用。大模型训练数据有截止日期,当需要依靠不在训练集中的数据时,可通过检索增强生成 RAG 技术实现。RAG 应用包括 5 个过程: 1. 文档加载:从多种来源加载文档,如包括 PDF 在内的非结构化数据、SQL 在内的结构化数据以及代码等。 2. 文本分割:把文档切分为指定大小的块。 3. 存储:包括将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 4. 检索:通过检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,生成更合理的答案。 PDF 翻译的 AI 产品: 1. DeepL(网站):,点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件。 2. 沉浸式翻译(浏览器插件):,安装插件后,点击插件底部「更多」按钮,选择相关翻译选项。 3. Calibre(电子书管理应用):,下载安装并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):,使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮上传 Word 文档。 5. 百度翻译(网页):,点击导航栏「文件翻译」,上传多种格式文件,支持选择领域和导出格式。 6. 彩云小译(App):下载后点击「文档翻译」,可导入多种格式文档,但有免费次数限制且进阶功能需付费。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-06
SD模型
Stable Diffusion(SD)模型是由 Stability AI 和 LAION 等公司共同开发的生成式模型,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。 文生图任务是将文本输入到 SD 模型,经过一定迭代次数生成符合描述的图片。例如输入“天堂,巨大的,海滩”,模型生成美丽沙滩图片。 图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘输入图片使其更符合描述,如在沙滩图片上添加“海盗船”。 输入的文本信息需通过“桥梁”CLIP Text Encoder 模型转换为机器数学信息。该模型作为 SD 模型中的前置模块,将输入文本编码生成 Text Embeddings 特征矩阵,用于控制图像生成。 目前 SD 模型使用的是中的 Text Encoder 模型,其只包含 Transformer 结构,由 12 个 CLIPEncoderLayer 模块组成,模型参数大小为 123M,输出 Text Embeddings 的维度为 77x768。 以下是相关资源获取方式: SD 模型权重:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 模型”,可获得包含多种模型权重的资源链接。 SD 保姆级训练资源:关注 Rocky 的公众号 WeThinkIn,后台回复“SDTrain”,可获得包含数据处理、模型微调训练及基于 SD 的 LoRA 模型训练代码等全套资源。 Stable Diffusion 中 VAE、UNet 和 CLIP 三大模型的可视化网络结构图:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 网络结构”,即可获得网络结构图资源链接。
2025-01-22
到今天,大语言模型还会产生“幻觉”吗
截至今天,大语言模型仍会产生“幻觉”。 大语言模型偶尔会根据输入输出一些荒谬或不符合事实的内容,目前各家大语言模型在该问题上的表现都不尽如人意。产生“幻觉”的原因包括: 1. 样本存在错误(Imitative Falsehoods):如果大语言模型学习的“教材”中有错误,它也容易给出错误回答。缓解该问题的一个办法是上采样(Up Sampling)。 2. 信息过时(Outdated Factual Knowledge):以前正确的信息现在可能过时了。 此外,大语言模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。如果在其训练过程中,模型被暴露于大量知识之中,它并没有完美地记忆所见到的信息,并不十分清楚自己的知识边界,可能会尝试回答有关深奥话题的问题,并虚构听起来有道理但实际不正确的内容。 在构建应用程序时,可以使用一些技术来避免这种情况,例如要求模型先从文本中找到相关引文,然后使用引文回答问题,并将答案追溯回源文件,这通常有助于减少“幻觉”的发生。
2025-01-22
本地部署大模型
以下是关于本地部署大模型的详细步骤: 1. 部署大语言模型: 下载并安装 Ollama: 根据电脑系统,从 https://ollama.com/download 下载 Ollama。 下载完成后,双击打开,点击“Install”。 安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器,若出现相关字样则表示安装完成。 下载 qwen2:0.5b 模型(若设备充足可下载更大模型): Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,选择“终端”应用程序。 复制相关命令行,粘贴进入并回车,等待自动下载完成。 2. ComfyUI ollama 本地大模型部署: 先下载 ollama 安装,安装完成后可在电脑桌面右下角或隐藏图标中找到。 下载对应的模型,选择模型并复制对应的命令。 打开命令行界面,输入对应的模型获取命令,等待下载完成。 模型下载后会保存到 D:\\ollama\\blobs 。 进行 docker 安装,安装会下载一些文件,安装后更改目录,不要放在 C 盘。 进行 Open webui 安装,输入相关命令,安装成功后回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 3. 错误解决: 端口占用问题,在 Windows 上可能出现,运行相关两条命令可解决。 4. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/ 此外,还有一篇思路来源于视频号博主黄益贺的相关内容,作者按照其视频进行了实操并附加了一些关于 RAG 的额外知识。文中提到读完本文可以学习到如何使用 Ollama 一键部署本地大模型、通过搭建本地聊天工具了解 ChatGPT 信息流转、RAG 的概念及核心技术、通过 AnythingLLM 软件搭建完全本地化的数据库等内容。虽然大多数人不需要自己部署大模型,但期望通过本文的指导能够折腾一遍,从而做到知其然且知其所以然。
2025-01-22
大模型评分
大模型评分通常会根据不同的赛事或评估体系有所差异。 在金融行业的大模型挑战赛中,评测任务形式为给定一组参考文档和问题,要求模型按指定格式生成答案。赛事主办方会根据选手提供的回答与参考答案对比,并根据关键字段命中情况进行评分。评分公式涉及关键词命中总次数、关键词总数、小题数和得分等参数。例如在示例问题中,根据每个小题的回答正确情况计算得分,完全正确得满分 1 分,部分正确则根据命中比例计算得分。 在其他的大模型评估方面: FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。地址:https://github.com/FlagOpen/FlagEval 。 CEval 构造了一个覆盖多个学科的中文知识和推理型测试集,并给出了当前主流中文 LLM 的评测结果。地址:https://github.com/SJTULIT/ceval 。 SuperCLUElyb 是中文通用大模型匿名对战评价基准,以众包方式提供匿名、随机的对战,并发布了初步结果和基于 Elo 评级系统的排行榜。地址:https://github.com/CLUEbenchmark/SuperCLUElyb 。 斯坦福发布的大模型排行榜 AlpacaEval 支持两种模式的模型评估方式:alpaca_eval 和 alpaca_eval evaluate_from_model 。评测过程分为选择评估集并计算输出、计算 golden 输出、通过指定的自动标注器计算胜率等步骤。相对于人工标注,全自动化的 AlpacaEval 具有较低的经济成本和时间成本。
2025-01-22
有哪些能够本地部署的AI视频生成模型
以下是一些能够本地部署的 AI 视频生成模型: 1. Stable Video Diffusion 模型: 准备工作:手动下载相关内容,分别放到指定路径。 模型选择:点击下拉箭头选择不同模型版本,勾选 load Model。 视频创作:支持图生视频,图片来源可选择 Midjourney、Stable Diffusion 等生成的图片,上传到 SVD 进行视频生成,可调节左侧参数控制效果。 保存路径:生成的视频在 outputs 下。 2. LTXVideo 模型: 基于 2B 参数 DiT,能够以 768x512 分辨率生成 24 FPS 的视频,速度比观看还快。 专为 RTX 4090 等 GPU 优化,使用 bfloat16 精度,实现高效内存使用且不影响质量。 ComfyUI 现已支持该模型,用户只需下载模型文件并获取工作流即可在本地运行。 3. Sora 模型: 功能:文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率、视频长度和视频风格;具有故事板功能,允许用户通过时间线指导视频中的多个动作;提供混音和编辑功能,包括视频混音、延伸和剪辑、创建循环视频等;还有混合功能,可将两个视频场景合并成一个新的场景。 费用和订阅套餐:对于拥有 OpenAI Plus 或 Pro 账户的用户,使用包含在现有订阅中。OpenAI Plus 订阅每月 50 次视频生成次数,OpenAI Pro 订阅无限次慢速队列生成,500 次正常速度的视频生成次数。用户可根据需要选择更高分辨率的视频生成,但可能会减少每月使用次数。发布初期,某些地区(如欧洲和英国)可能会有延迟。
2025-01-21
国内文生图模型
以下是关于国内文生图模型的相关信息: Recraft 模型:用 8 个月自研模型,包含处理数据的模型、标注工作、训练 OCR 模型、新构建的数据集等。Recraft 生成带有长文本图像的流程图解,但存在生成默认是外国面孔而非亚洲面孔且生成的亚洲人不太自然的情况,可能与数据集有关。只有少数公司真正从头训练模型,创建自己的模型困难且成本高,需要超强团队和资金。 模型能力方面: 文本编码器的能力是文生图模型语义理解能力的关键。一开始大部分模型使用 CLIP 作为文本编码器,但存在一些问题。新的模型纷纷优化文本编码器能力,如引入更大更强的 T5XXL 或结合多个特征,但开源模型在中文生图方面能力一般。 腾讯开源的 HunyuanDiT 是较可用的中文生图模型,但仍存在优化空间。 Kolors 是最近开源的给力文生图模型,改进全面,技术实力强。
2025-01-21