Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

以知识图谱的形式生成一张涉及大模型概念的知识图谱

Answer

以下是一张涉及大模型概念的知识图谱:

  • 大模型 Embedding 技术
    • 句子和文档嵌入
      • Doc2Vec:扩展了 Word2Vec,能够为整个文档生成统一的向量表示。
      • Average Word Embeddings:将一段文本中所有单词的嵌入取平均作为整体的文本表示。
      • Transformers Sentence Embeddings:如 BERT 的[CLS]标记对应的向量,或者专门针对句子级别的模型如 Sentence-BERT。
    • 实体/概念嵌入
      • Knowledge Graph Embeddings:如 TransE、DistMult、ComplEx 等,用于将知识图谱中的实体和关系嵌入到低维向量空间中。
    • 其他类型
      • 图像 Embeddings:使用卷积神经网络(CNN)进行图像特征提取,得到的特征向量即为图像嵌入。
      • 音频 Embeddings:在语音识别和声纹识别中,将声音信号转化为有意义的向量表示。
      • 用户/物品 Embeddings:在推荐系统中,将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。
      • 图 Embeddings:用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中。通过学习图嵌入,可以将复杂的图结构转化为向量表示,以捕捉节点之间的结构和关联关系。这些方法可以通过 DeepWalk、Node2Vec、GraphSAGE 等算法来实现。图嵌入在图分析、社交网络分析、推荐系统等领域中广泛应用,用于发现社区结构、节点相似性、信息传播等图属性。
  • 关键技术标准
    • 机器学习标准:规范机器学习的训练数据、数据预处理、模型表达和格式、模型效果评价等,包括自监督学习、无监督学习、半监督学习、深度学习和强化学习等标准。
    • 知识图谱标准:规范知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
    • 大模型标准:规范大模型训练、推理、部署等环节的技术要求,包括大模型通用技术要求、评测指标与方法、服务能力成熟度评估、生成内容评价等标准。
    • 自然语言处理标准:规范自然语言处理中语言信息提取、文本处理、语义处理等方面的技术要求和评测方法,包括语法分析、语义理解、语义表达、机器翻译、自动摘要、自动问答和语言大模型等标准。
    • 智能语音标准:规范前端处理、语音处理、语音接口和数据资源等技术要求和评测方法,包括深度合成的鉴伪方法、全双工交互、通用语音大模型等标准。
    • 计算机视觉标准:规范图像获取、图像/视频处理、图像内容分析、三维计算机视觉、计算摄影学和跨媒体融合等技术要求和评价方法,包括功能、性能和可维护性等标准。
    • 生物特征识别标准:规范生物特征样本处理、生物特征数据协议、设备或系统等技术要求,包括生物特征数据交换格式、接口协议等标准。
  • 国内大模型
    • 通用模型:如文心一言、讯飞星火等,处理自然语言。
    • 垂直模型:专注特定领域如小语种交流、临床医学、AI 蛋白质结构预测等。
  • 大模型的体验
    • 以‘为什么我爸妈结婚的时候没有邀请我参加婚礼’和‘今天我坐在凳子上’为例,体验了 Kimi、通义千问、豆包等大模型的回答和续写能力,发现回复有差异,且大模型基于统计模型预测生成内容。
  • 大语言模型的工作原理
    • 包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强,参数用 b 链形容大小。
    • Transformer 架构:Transformer 是大语言模型训练架构,17 年出现用于翻译,具备自我注意力机制能理解上下文和文本关联,其工作原理是单词预测,通过嵌入、位置编码、自注意力机制生成内容,模型调教中有控制输出的 temperature。
  • 大模型幻觉:大模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。
  • Prompt 的分类和法则
    • 分为 system prompt、user prompt 和 assistant prompt。
    • 写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等,核心是与模型好好沟通。
  • Fine tuning 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。
  • RAG 概念:未对 RAG 的具体内容进行详细阐述,仅提出了这个概念。
Content generated by AI large model, please carefully verify (powered by aily)

References

认识大模型 Embedding 技术加实战

Doc2Vec:扩展了Word2Vec,能够为整个文档生成统一的向量表示。Average Word Embeddings:将一段文本中所有单词的嵌入取平均作为整体的文本表示。Transformers Sentence Embeddings:如BERT的[CLS]标记对应的向量,或者专门针对句子级别的模型如Sentence-BERT。[heading3]实体/概念嵌入[content]Knowledge Graph Embeddings:如TransE、DistMult、ComplEx等,用于将知识图谱中的实体和关系嵌入到低维向量空间中。[heading3]其他类型[content]图像Embeddings:使用卷积神经网络(CNN)进行图像特征提取,得到的特征向量即为图像嵌入。音频Embeddings:在语音识别和声纹识别中,将声音信号转化为有意义的向量表示。用户/物品Embeddings:在推荐系统中,将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。还有一种图Embeddings:是用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中。通过学习图嵌入,可以将复杂的图结构转化为向量表示,以捕捉节点之间的结构和关联关系。这些方法可以通过DeepWalk、Node2Vec、GraphSAGE等算法来实现。图嵌入在图分析、社交网络分析、推荐系统等领域中广泛应用,用于发现社区结构、节点相似性、信息传播等图属性。下面以OpenAI为例继续展开介绍

国家人工智能产业综合标准化体系建设指南.pdf

1.机器学习标准。规范机器学习的训练数据、数据预处理、模型表达和格式、模型效果评价等,包括自监督学习、无监督学习、半监督学习、深度学习和强化学习等标准。82.知识图谱标准。规范知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。3.大模型标准。规范大模型训练、推理、部署等环节的技术要求,包括大模型通用技术要求、评测指标与方法、服务能力成熟度评估、生成内容评价等标准。4.自然语言处理标准。规范自然语言处理中语言信息提取、文本处理、语义处理等方面的技术要求和评测方法,包括语法分析、语义理解、语义表达、机器翻译、自动摘要、自动问答和语言大模型等标准。5.智能语音标准。规范前端处理、语音处理、语音接口和数据资源等技术要求和评测方法,包括深度合成的鉴伪方法、全双工交互、通用语音大模型等标准。6.计算机视觉标准。规范图像获取、图像/视频处理、图像内容分析、三维计算机视觉、计算摄影学和跨媒体融合等技术要求和评价方法,包括功能、性能和可维护性等标准。7.生物特征识别标准。规范生物特征样本处理、生物特征数据协议、设备或系统等技术要求,包括生物特征数据交换格式、接口协议等标准。

02-基础通识课

[heading2]总结大语言模型的介绍与原理国内大模型的分类:国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域如小语种交流、临床医学、AI蛋白质结构预测等。大模型的体验:以‘为什么我爸妈结婚的时候没有邀请我参加婚礼’和‘今天我坐在凳子上’为例,体验了Kimi、通义千问、豆包等大模型的回答和续写能力,发现回复有差异,且大模型基于统计模型预测生成内容。大语言模型的工作原理:大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强,参数用b链形容大小。Transformer架构:Transformer是大语言模型训练架构,17年出现用于翻译,具备自我注意力机制能理解上下文和文本关联,其工作原理是单词预测,通过嵌入、位置编码、自注意力机制生成内容,模型调教中有控制输出的temperature。关于大语言模型的原理、应用及相关概念Transformer模型原理:通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率,是一个偏向概率预测的统计模型。大模型幻觉:大模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。Prompt的分类和法则:分为system prompt、user prompt和assistant prompt,写好prompt的法则包括清晰说明、指定角色、使用分隔符、提供样本等,核心是与模型好好沟通。Fine tuning微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。RAG概念:未对RAG的具体内容进行详细阐述,仅提出了这个概念。

Others are asking
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎能力,增强用户搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图、三元组等。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-03-21
知识图谱产品
知识图谱(Knowledge Graph,KG)是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。 知识图谱于 2012 年 5 月 17 日被 Google 正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。知识图谱可以将 Web 从网页链接转向概念链接,支持用户按照主题来检索,实现语义检索。 知识图谱的关键技术包括: 1. 知识抽取:通过自动化的技术抽取出可用的知识单元,包括实体抽取(命名实体识别(Named Entity Recognition,NER)从数据源中自动识别命名实体)、关系抽取(从数据源中提取实体之间的关联关系,形成网状的知识结构)、属性抽取(从数据源中采集特定实体的属性信息)。 2. 知识表示:属性图、三元组。 3. 知识融合:在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等,达到数据、信息、方法、经验等知识的融合,形成高质量知识库。包括实体对齐(消除异构数据中的实体冲突、指向不明等不一致性问题)、知识加工(对知识统一管理,形成大规模的知识体系)、本体构建(以形式化方式明确定义概念之间的联系)、质量评估(计算知识的置信度,提高知识的质量)、知识更新(不断迭代更新,扩展现有知识,增加新的知识)。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。
2025-03-21
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎的能力,增强用户的搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图和三元组。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模的知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-03-21
知识图谱构建
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎能力,增强用户搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱构建的关键技术包括: 1. 知识抽取:通过自动化技术抽取可用的知识单元,如实体抽取(命名实体识别)、关系抽取(提取实体间关联关系)、属性抽取(采集特定实体的属性信息)。 2. 知识表示:包括属性图、三元组等。 3. 知识融合:在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等,包括实体对齐(消除实体冲突等不一致性问题)、知识加工(统一管理知识)、本体构建(明确定义概念联系)、质量评估(计算知识置信度)、知识更新(迭代扩展知识)。 4. 知识推理:在已有知识库基础上挖掘隐含知识。 在 LLM 落地思考方面,NLP 与知识图谱是主要的落地类型,但存在一些问题。如实现某个 NLP 任务时,需要大量人工标注和长时间训练,交付后较难新增意图和泛化任务,有时使用句式规则方式更好维护更新;构建知识图谱复杂,需与行业专家深度讨论,预见企业长远业务发展制定 schema,周期长且易与业务错位。而 LLM 出现后对 NLP、NLG、KG 有较大提升,带来更好更多的落地可能。 在以问题驱动的 AI+内容创作中,随着学习深入,可使用大模型帮助构建和扩展知识图谱。
2025-02-27
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎的能力,增强用户的搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图和三元组。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模的知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-02-27
ai的研究是否可以分为神经网络与知识图谱两个大的分类?
AI 的研究可以分为多个不同的分类,并非仅仅局限于神经网络与知识图谱这两个大的分类。 在常见的分类中: 非监督学习:最著名的是聚类,只需提供大量数据,让 AI 自行找出有趣信息。 迁移学习:在任务 A 中学习的内容可用于帮助完成任务 B,在计算机视觉领域有较多应用。 强化学习:根据输出好坏给予奖励或惩罚,利用“奖励信号”让 AI 自动学习最大化奖励,但需要大量数据。 生成对抗网络:由生成器和判别器构成,两者不断训练和竞争,提高生成真实数据的能力,广泛应用于多种领域。 此外,从技术和应用的角度来看: 知识图谱:在搜索等场景中展示关键信息,如人物相关信息、酒店信息等。 在企业中建构人工智能方面,NLG 可作为全新场景讨论,生成内容分为根据任务要求生成标准结果和根据信息进行内容创作两类,分别偏向 B 端和 C 端。NLP 能做的事情较标准化,LLM 的出现对其有提升和冲击。知识图谱领域本身有多种技术路径,与 LLM 可能是互补关系。 对于希望精进的学习者,还需要了解 AI 的背景知识,包括基础理论、历史发展、数学基础(统计学、线性代数、概率论),掌握算法和模型(监督学习、无监督学习、强化学习),学会评估和调优(性能评估、模型调优),以及神经网络基础(网络结构、激活函数)等。
2025-02-12
知识库
以下是关于知识库的相关内容: 在 Coze 中配置知识库: 创建好知识库后,可在智能体中进行配置。在 Coze 主页的个人空间>项目开发中,打开需添加知识库的智能体,能选择配置“文本”、“表格”、“照片”三种知识库。以配置文本知识库为例,点击加号选择提前创建好的知识库并添加。之后配置提示词让智能体自动使用知识库回答问题,点击右上角“优化”可自动优化提示词以获得更好结果,最后在“预览与调试”中测试智能体是否正常调用知识库。 创建智能体时的知识库: 手动清洗数据:创建画小二课程的 FAQ 知识库,飞书在线文档中每个问题和答案以分割,可选择飞书文档、自定义等操作,添加 Bot 后可在调试区测试效果。 本地文档:注意拆分内容以提高训练数据准确度,如对于画小二课程,按章节进行人工标注和处理,然后选择创建知识库自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能搜到。 知识库概述: 扣子提供了几种存储和记忆外部数据的方式,以便 Bot 精准回复用户。知识库是大量知识分片,通过语义匹配为模型补充知识,如车型数据中每个分段保存一种车型基础数据。同时还介绍了数据库、AI 便签、单词本等相关内容。
2025-03-24
什么是知识库
知识库是指大量的知识分片,通过语义匹配为模型补充知识。例如,在 Coze 中,支持上传私有化数据(如本地文件、实时在线数据),通过向量搜索来检索最相关的内容,以便更精确地回答用户的问题。 我们都知道,大模型通常基于公开数据训练,不包含特定领域私有数据,如公司规章制度、项目信息等。但通过配置私有知识库,可让大模型依据提供的内容回答问题,比如将公司制度、项目纪要等制作成知识库,大模型就能据此回答相关问题。 在专家系统中,知识库代表某个问题领域的长期知识,它从人类专家那里人工提取,不会因外部咨询而改变,由于能让我们从一个问题状态前往另一个问题状态,也被称为动态知识。 知识库可以解决大模型幻觉、专业领域知识不足的问题,提升大模型回复的准确率。但使用知识库也存在一些限制,如在 Coze 中,单用户最多创建 1000 个知识库,文本类型知识库下最多支持添加 100 个文档,单用户每月最多新增 2GB 数据,累计上限是 10GB。
2025-03-24
1. 利用AI完成技术论文的学习阅读; 2. 结合相关知识体系解读论文,并制作成学习分享PPT。
以下是关于利用 AI 完成技术论文的学习阅读,并结合相关知识体系解读论文制作学习分享 PPT 的一些建议: 在技术论文学习阅读方面: 可以借助 AI 工具,如 Claude 和 Gamma.app。Claude 能够帮助快速寻找符合条件的论文、提取精炼论文中某部分信息。 对于复杂推理,可以利用思维链,谷歌在 2022 年的论文提到其能显著提升大语言模型在复杂推理的能力,即使不用小样本提示,也可在问题后加“请你分步骤思考”。 检索增强生成(RAG)能将外部知识库切分成段落后转成向量,存在向量数据库。用户提问并查找到向量数据库后,段落信息会和原本的问题一块传给 AI,可搭建企业知识库和个人知识库。 程序辅助语言模型(PAL)在 2022 年的论文中被提出,对于语言模型的计算问题,可借助其他工具如 Python 解释器作为计算工具。 ReAct 框架于 2022 年在《React:在语言模型中协同推理与行动》的论文中提出,即 reason 与 action 结合,让模型动态推理并采取行动与外界环境互动,可借助 LangChain 等框架简化构建流程。 在制作学习分享 PPT 方面: 可以先对论文进行深入理解,提取关键信息,包括摘要描述、研究问题、基本假设、实验方法、实验结论、文章主要结论、研究展望等。 利用 AI 工具获取相关理论的简单介绍。 了解并使用合适的 PPT 制作工具,如 Gamma.app。 需要注意的是,小白直接看技术论文有难度,需要一定的知识储备。同时,Transformer 是仿生算法的阶段性实现,未来 10 年、20 年可能不再被使用。
2025-03-24
作为一名高中语文教师,该学习哪些知识,能够更好地在工作中运用AI
作为一名高中语文教师,为了在工作中更好地运用 AI,您可以学习以下知识: 1. 提示词设计:掌握有效的提示词设计公式,例如 RTFC,以便更精准地向 AI 提出需求。 2. 利用 AI 工具:如用 Metaso 建立案例库,随时询问随时学习。 3. 了解 AI 在教学中的应用技巧:包括用 AI 配字幕、翻译、思维导图等快速总结和学习讲座内容。 4. 掌握 AI 赋能教学设计:以高中语文课程标准为导向,结合学生主体和核心素养,设计教学流程。例如在《再别康桥》的教学设计中,通过创设情境、品鉴特色、融思迁移等环节,融入地理、美术、音乐等多学科知识,借助人工智能协助修改诗歌创作。 5. 学习智能作文批改指导:利用相关工具提升作文批改的效率和质量。 6. 参加相关工作坊:如 AI 进阶工作坊,了解最新 AI 技术与实践案例分享,掌握全球 AI 技术在教育界的新发展和新应用。 同时,建议您参加适合有初步 AI 使用经验、期待了解最新技术进展、渴望分享交流的老师的课程和活动,不断提升自己在 AI 应用方面的能力。
2025-03-24
AI模型训练师要学习那些知识?
AI 模型训练师需要学习以下知识: 1. 数据收集:了解如何从互联网上收集各种文本数据,如文章、书籍、维基百科条目、社交媒体帖子等。 2. 数据预处理:掌握清理和组织数据的方法,包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段等。 3. 模型架构设计:熟悉如 Transformer 等适合处理序列数据(如文本)的神经网络架构,虽然复杂但需有一定了解。 4. 训练原理:明白模型通过反复阅读数据、尝试预测句子中的下一个词来逐渐学会理解和生成人类语言。 5. 领域专业知识:以医疗保健领域为例,AI 模型训练师应了解该领域的专业知识,如生物学、化学等基础学科,以及如何培养处理涉及细微差别决策的直觉。 6. 了解大模型的底层原理:以 GPT3 为例,要知道其预训练阶段所学习的内容和数据量,以及 Transformer 模型的相关概念。
2025-03-24
我是ai基础小白,我想学习这个ai知识,请你帮我规划一下学习路径
以下是为您规划的 AI 学习路径: 一、了解 AI 基本概念 1. 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 2. 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 二、开始 AI 学习之旅 1. 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 2. 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 三、选择感兴趣的模块深入学习 1. AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。 2. 掌握提示词的技巧,它上手容易且很有用。 四、实践和尝试 1. 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 2. 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 五、体验 AI 产品 1. 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 如果您的学习方向偏向技术研究: 1. 掌握数学基础,包括线性代数、概率论、优化理论等。 2. 学习机器学习基础,如监督学习、无监督学习、强化学习等。 3. 深入研究深度学习,包括神经网络、卷积网络、递归网络、注意力机制等。 4. 钻研自然语言处理,如语言模型、文本分类、机器翻译等。 5. 探索计算机视觉,如图像分类、目标检测、语义分割等。 6. 关注前沿领域,如大模型、多模态 AI、自监督学习、小样本学习等。 7. 进行科研实践,包括论文阅读、模型实现、实验设计等。 如果您的学习方向偏向应用: 1. 具备编程基础,如 Python、C++等。 2. 掌握机器学习基础,如监督学习、无监督学习等。 3. 熟悉深度学习框架,如 TensorFlow、PyTorch 等。 4. 涉足应用领域,如自然语言处理、计算机视觉、推荐系统等。 5. 学会数据处理,包括数据采集、清洗、特征工程等。 6. 掌握模型部署,如模型优化、模型服务等。 7. 参与行业实践,包括项目实战、案例分析等。 无论是技术研究还是应用实践,数学和编程基础都是必不可少的。同时需要紧跟前沿技术发展动态,并结合实际问题进行实践锻炼。 如果您想将 AI 与宠物结合: 1. 掌握基础的机器学习、计算机视觉、自然语言处理等 AI 技术。 2. 了解宠物行为学、宠物医疗等相关领域知识。 3. 关注业内先进的 AI+宠物应用案例,学习其技术实现。 4. 尝试开发简单的 AI 宠物应用原型,并不断迭代优化。
2025-03-23
大神解读大模型底层
大模型的底层原理主要包括以下几个方面: 1. 生成式:大模型根据已有的输入为基础,不断计算生成下一个字词(token),逐字完成回答。例如,从给定的提示词“how”开始,通过计算推理依次输出“are”“you”等,直到计算出下一个词是“”时结束输出。 2. 预训练:大模型“脑袋”里存储的知识都是预先学习好的,这个预先学习并把对知识的理解存储记忆在“脑袋”里的过程称为预训练。以 GPT3 为例,训练它使用了约 4990 亿 token 的数据集,相当于 86 万本《西游记》。预训练需要花费大量时间和算力资源,且在没有外部帮助的情况下,大模型所知道的知识信息是不完备和滞后的。 3. 转换器模型(Transformer):Transformer 是一种处理文本内容的经典模型架构,虽然其具体细节不清楚不影响使用大模型,但感兴趣的可以通过相关链接进一步了解。 4. 参数规模:依靠概率计算逐字接龙的方法看似难以生成高质量回答,但随着参数规模的增加,如从 GPT1 的 1.5 亿到 GPT3.5 的 1750 亿,实现了量变到质变的突破,“涌现”出惊人的“智能”。这种“涌现”现象在人类的进化和个体学习成长历程中也存在。
2025-03-24
模型理解汉字能力很差
目前模型在理解汉字方面存在一些问题,主要表现为: 1. 语义理解较差,例如在某些应用场景中对中文的理解不够准确。 2. 中文汉字的集合较大,纹理结构更复杂,增加了理解难度。 3. 缺少中文文字的图文对数据,影响了模型对汉字的学习和理解。 为了提升模型对中文文字的生成能力,采取了以下措施: 1. 选择 50000 个最常用的汉字,机造生成千万级的中文文字图文对数据集,但机造数据真实性不足。 2. 实用 OCR 和 MLLM 生成海报、场景文字等真实中文文字数据集,约百万量级。通过结合高质量真实数据,提升了中文文字生成能力的真实性,即使是真实数据中不存在的汉字的真实性也有所提高。
2025-03-24
有哪些效果好的开源OCR模型值得推荐
以下是一些效果较好的开源 OCR 模型推荐: 1. Mistral OCR:当前最强的 OCR 模型,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取!领取地址: 2. Gemini 2.0 Flash:也是一款 OCR 模型。
2025-03-24
将2D图生成3D模型的AI是什么
以下是一些能够将 2D 图生成 3D 模型的 AI 相关信息: 有几个团队正在追求根据文本或图像提示轻松生成纹理的机会,包括 BariumAI(https://barium.ai/)、Ponzu(https://www.ponzu.gg/)和 ArmorLab(https://armorlab.org/)。 微软与 blackshark.ai(https://blackshark.ai/)合作,并训练了一个 AI 从 2D 卫星图像生成逼真的 3D 世界(https://blackshark.ai/solutions/)。 生成性 AI 可以为游戏创建 2D 艺术、纹理、3D 模型,并协助关卡设计。
2025-03-24
大模型 关键性能指标
对比不同大模型的性能需要考虑多个维度,包括但不限于以下方面: 1. 理解能力:评估对语言的语法、语义、上下文和隐含意义的理解程度。 2. 生成质量:检查生成文本的流畅性、相关性和准确性。 3. 知识广度和深度:掌握广泛主题的知识程度,以及对特定领域或话题的理解深度。 4. 泛化能力:测试处理未见过任务或数据时的表现。 5. 鲁棒性:应对错误输入、对抗性输入或模糊不清指令的能力。 6. 偏见和伦理:生成文本时是否存在偏见,是否遵循伦理标准。 7. 交互性和适应性:在交互环境中的表现,包括对用户反馈的适应性和持续对话能力。 8. 计算效率和资源消耗:考虑模型大小、训练和运行所需的计算资源。 9. 易用性和集成性:是否易于集成到不同应用和服务中,提供的 API 和工具的易用性。 为了进行有效的比较,可以采用以下方法: 1. 标准基准测试:使用如 GLUE、SuperGLUE、SQuAD 等标准的语言模型评估基准,它们提供统一的测试环境和评分标准。 2. 自定义任务:根据特定需求设计任务,评估在特定领域的表现。 3. 人类评估:结合人类评估者的主观评价,特别是在评估文本质量和伦理问题时。 4. A/B 测试:在实际应用场景中,通过 A/B 测试比较不同模型的表现。 5. 性能指标:使用准确率、召回率、F1 分数、BLEU 分数等量化比较。 例如,通义千问开源的 Qwen2.51M 大模型,推出 7B、14B 两个尺寸,在处理长文本任务中稳定超越 GPT4omini,同时开源推理框架,在处理百万级别长文本输入时可实现近 7 倍的提速,首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中,Qwen2.51M 能够准确地从 1M 长度的文档中检索出隐藏信息。 Google DeepMind 的 Gemini 2.0 Flash 多模态大模型支持图像、视频、音频等多模态输入,可生成图文混合内容和多语言 TTS 音频。模型原生支持 Google 搜索、代码执行及第三方 API 调用等工具链能力,处理速度较 Gemini 1.5 Pro 提升一倍,关键性能指标已超越前代产品。作为 Gemini 2.0 系列首发模型,在多模态理解与生成方面实现重要突破。产品入口目前通过 Google AI Studio 和 Vertex AI 平台提供实验版 API 接口,预计 2025 年 1 月起全面商用,并将陆续发布 Gemini 2.0 系列其他版本。
2025-03-24
对口型的视频生成网站
以下是一些对口型的视频生成网站: 即梦 AI: 对口型功能介绍:是即梦 AI「视频生成」中的二次编辑功能,现支持中文、英文配音。目前主要针对写实/偏真实风格化人物的口型及配音生成,为用户的创作提供更多视听信息传达的能力。可上传包含完整人物面容的图片,进行视频生成,待视频生成完成后,点击预览视频下的「对口型」按钮,输入台词并选择音色,或上传配音文件进行对口型效果生成。目前支持语言:中文(全部音色),英文(推荐「超拟真」内的音色)。 技巧:上传写实/近写实的人物单人图片,目前不支持多人物图片对口型;输入 prompt,选择参数,点击生成视频,尽量确保人物无形变等扭曲效果;确保人物生成的情绪与希望匹配的口型内容匹配;在生成的视频下方,点击【对口型】;输入或上传需要配音的内容,注意视频生成时长和配音试听时长尽量对齐,点击生成;先对口型,再超分补帧。 基础功能介绍:新增默认参数配置功能,快来设置您惯用的生成参数吧~配置后,后续进入平台,所有功能参数将按照您默认配置的参数展示;若您配置时,已设置过一些内容,配置该参数面板不会修改您的当前的功能配置;参数配置后,您生成前仍然可以改变您每次生成的参数,最终生成按照您提交生成前的选择的配置生成。生成视频卡片的左下方:【重新编辑】:可于左侧面板重新编辑原始输入参数及信息,再次生产;【再次生成】:直接使用现有输入参数及信息再次生成;【发布】:提交满意的视频片段发布至后台,待审核通过后,您的视频会发布并展示至首页视频 tab 下。生成视频右下方(鼠标移动到卡片上显示):【视频延长】:可进行 2 次延长,支持续写 prompt,延长时长可在生成的视频模式内多选(标准模式/流畅模式),最高可支持 36s 的视频延长;【对口型】:针对清晰单人视频,输入音频源,或输入台词选择音色,进行对口型生成;【补帧】:可选 24fps,30fps,60fps,如视频内像素颗粒较为明显,建议选择 24fps/30fps 补帧;【HD】:二倍超分。生成视频卡片右上角(鼠标移动到卡片上显示):【下载】:导出您的视频;【收藏】:您可以收藏您满意的视频,方便后续定位。 其他声音克隆产品: PlayHT:https://play.ht/studio/ 包含预设音色,可免费克隆一个音色,如果想生成多个,把上一个音色删除就可以做新的。 Elevenlabs:https://elevenlabs.io/app 包含预设音色,新用户 1 美元开通一个月会员,可使用克隆音色。 魔搭社区:https://www.modelscope.cn/home 一个模型开源社区及创新平台,由阿里巴巴通义实验室(Institute for Intelligent Computing),联合 CCF 开源发展委员会,共同作为项目发起方。包含各种声音模型,有开发经验的朋友可使用。 Dubbingx:https://dubbingx.com/ 免费克隆音色,有桌面版,Mac、Window 均可用。 魔音工坊:https://www.moyin.com/ 对口型相关: Runway:静态图片+音频文件,可生成对口型视频;动态视频+音频文件,可生成对口型视频,但需要消耗 20 点。 Pika:静态图片+音频文件,可生成对口型视频。
2025-03-25
coze小红书爆款文章生成助手
以下是关于 Coze 小红书爆款文章生成助手的相关内容: 1. 画小二的 Coze 工作流配置:包括抖音热门视频转小红书图文的详细参数配置,如整体结构图、开始模块、Get_Video 模块、LinkReaderPlugin 模块、标题大模型、内容大模型、图片 Prompt 大模型、文生图 ImageToolPro 以及输出结果的参数配置。在标题和正文生成方面,有具体的要求和技能,如采用二极管标题法、使用爆款关键词、遵循小红书平台标题特性、保证正文口语化且长短在 200 字左右等。 2. 一泽 Eze 提出的样例驱动的渐进式引导法:强调精彩的 Prompt 对驱动 AI Agent 稳定运作的重要性,指出高质量 Prompt 依赖用户的逻辑思考和知识经验抽象表达,介绍了通过 12 个初始样例引导 AI 定制完美提示词的方法。 3. 雪梅 May 的 AI 学习日记:记录了对 Coze 的学习过程,包括了解到 Coze 是字节跳动的 AI agent 产品,可用工作流方式制作 AI 智能体,如爸妈防骗助手、热点文章生成器等,并分享了自己对 Coze 的初步理解,认为它能让无技术背景的人实现想法。
2025-03-24
AI生成三视图工具
以下是一些可以生成三视图的 AI 工具: 1. DALL·E 3:最大的挑战是正确生成侧视图。如果生成失败,建议删除聊天并重新开始。在输入主题时,若未确定风格,会给出多种画风,若想固定风格,可做一些限定,如写实照片风格、插画风格等。想让几张图风格统一,要说请统一 xx 风格。 2. 在软件架构设计中,以下工具可以绘制逻辑视图、功能视图和部署视图: Lucidchart:流行的在线绘图工具,支持多种图表创建,包括上述视图,用户可通过拖放界面轻松创建架构图。 Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 ArchiMate:开源建模语言,与 Archi 工具配合可创建逻辑视图。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种视图创建。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 draw.io(现 diagrams.net):免费在线图表软件,支持创建多种类型图表。 PlantUML:文本到 UML 转换工具,可通过编写描述生成相关视图。 Gliffy:基于云的绘图工具,提供创建架构图功能。 Archi:免费开源工具,用于创建相关模型和视图。 Rational Rose:IBM 的 UML 工具,支持创建多种视图。
2025-03-24
用女生台湾腔,生成一段wav格式的音频"我在,你回来了呀"
很抱歉,目前无法直接为您生成具有女生台湾腔的“我在,你回来了呀”的 wav 格式音频。但您可以通过以下几种方式来实现: 1. 使用一些专业的语音合成软件,如科大讯飞语音合成、百度语音合成等,它们通常提供多种语音风格和腔调的选择,包括台湾腔,您可以输入您想要的文本进行合成,并设置输出为 wav 格式。 2. 在一些在线语音生成平台上寻找相关服务,部分平台可能会满足您的需求。 3. 如果您有一定的音频处理能力,也可以自己录制女生说这句话的声音,然后通过音频编辑软件进行处理和转换为 wav 格式。
2025-03-24
诗词卡片生成
以下是关于诗词卡片生成的相关内容: 利用 Claude 生成古诗词卡片: 流程简单,包括输入 Prompt,用户输入主题、风格,AI 即可输出最终结果。 已开源提示词,可直接获取。 DeepSeek 驱动的网页金句卡片生成: 先开发基础版本的浏览器插件,包括选择文字、自定义生成图片等功能。 使用 AI Rules 的 Chat 模式完善产品需求(PRD)。 使用 Builder 模式开发产品,完成后在 Chrome 浏览器内加载扩展程序进行调试。 AI“词生卡”: 是提升信息密度的优质载体,正在改变视觉设计行业的创作范式。 设计师输入文字描述,AI 能生成符合要求的视觉内容,节省时间和精力,提供更多创意可能。 AI 模型能够模仿和融合各种艺术风格,拓展设计边界,为艺术创作注入新活力。
2025-03-24