知识图谱是一种揭示实体之间关系的语义网络,可对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,旨在提高搜索引擎能力,增强用户搜索质量和体验,实现语义检索。
知识图谱的关键技术包括知识抽取、知识表示、知识融合、知识更新和知识推理。知识抽取通过自动化技术抽取可用知识单元,包括实体抽取、关系抽取和属性抽取。知识表示有属性图和三元组等方式。知识融合在同一框架下进行异构数据整合、消歧、加工、推理验证和更新,形成高质量知识库,包括实体对齐、知识加工、本体构建和质量评估等。知识更新不断迭代扩展现有知识,增加新知识。知识推理在已有知识库基础上挖掘隐含知识。
在 LLM 落地思考方面,实现某个 NLP 任务需要收集大量业务数据并进行人工标注,训练 bert 模型,再进行针对性优化,时长可能要一个月,且交付后较难进行意图新增和任务泛化,有时使用句式规则方式更好维护与更新。构建知识图谱虽可承载公司级、行业级知识并进行更新与可视化展示,但构建复杂,需与行业专家深度讨论,预见企业长远业务发展可能性制定 schema,稍有不慎就可能图谱与业务错位,且从建立到可用至少需半年周期。NLG 基本上还是拼接为主,有多少人工规则就有多少智能。而 LLM 横空出世后,对 NLP、NLG、KG 都有较大提升,因此这三类场景都可因效率和效果大幅提升而有更好、更多可能的落地方式。
知识图谱(Knowledge Graph,KG)是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。知识图谱于2012年5月17日被Google正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。知识图谱可以将Web从网页链接转向概念链接,支持用户按照主题来检索,实现语义检索。
1.知识抽取:通过自动化的技术抽取出可用的知识单元实体抽取:命名实体识别(Named Entity Recognition,NER)从数据源中自动识别命名实体;关系抽取(Relation Extraction):从数据源中提取实体之间的关联关系,形成网状的知识结构;属性抽取:从数据源中采集特定实体的属性信息。1.知识表示属性图三元组1.知识融合:在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等,达到数据、信息、方法、经验等知识的融合,形成高质量知识库实体对齐(Entity Alignment):消除异构数据中的实体冲突、指向不明等不一致性问题;知识加工:对知识统一管理,形成大规模的知识体系本体构建:以形式化方式明确定义概念之间的联系;质量评估:计算知识的置信度,提高知识的质量。知识更新:不断迭代更新,扩展现有知识,增加新的知识1.知识推理:在已有的知识库基础上挖掘隐含的知识
1、实现某个NLP任务,比如对业务中的一些意图进行识别与分类,需要收集对应的业务数据上千条并进行人工标注,然后训练bert模型,再进行针对性的优化,时长可能要一个月,且交付后较难进行意图的新增和任务的泛化。因此很多时候甚至使用句式规则的方式更好进行维护与更新。2、构建知识图谱虽然可以有效的将公司级、行业级的知识承载起来并进行不断更新与可视化展示,但知识图谱的构建非常的复杂,需要与行业专家深度讨论,并要预见企业长远业务发展的可能性来制定schema,稍有不慎就可能图谱与业务错位,满盘皆输。并且一个图谱从建立、数据抽取、蒸馏、审查、可用、直到可与线上数据接轨做到自动更新,至少会有半年的周期。3、NLG基本上还是拼接为主,有多少人工规则就有多少智能。而LLM横空出世后,对NLP、NLG、KG都有较大的提升,因此严格意义上来说这三类场景都可以因为效率和效果的大幅提升而有更好、更多可能的落地方式。