登录
主页
KAG知识增强生成框架
2025-02-05
  
1167
深数据
KAG(Knowledge Augmented Generation)是蚂蚁集团开源的一款知识增强生成框架。基于OpenSPG引擎和大型语言模型,设计了逻辑符号引导的混合推理引擎,将自然语言问题转化为结合语言和符号的问题求解过程,集成了图谱推理、逻辑计算、chunk检索、llm推理四种问题求解过程。用于为专业领域知识库构建逻辑推理和事实性问答解决方案。它能有效克服传统 RAG(检索增强生成)向量相似度计算模型的缺点。
通过知识图谱与原始文本块的互索引,能清晰展示知识来源与关联。推理过程中,逻辑符号引导的混合推理引擎使每一步推理都有明确的逻辑依据,可追溯推理路径,理解模型如何从输入数据得出结论。
项目地址:https://github.com/OpenSPG/KAG
一、核心功能
1.知识表示增强:采用层次化知识表示,将非结构化文本转为结构化知识图谱,定义概念类型、实体类型等数据结构,让知识表示更符合大语言模型理解能力,提升可解释性与应用范围。
2.知识图谱与文本互索引:实现知识图谱与原始文本块相互索引,提高数据检索精确度和效率,增强知识整合能力,通过语义分块、信息注入和领域知识约束,提升知识检索和表示效率。
3.逻辑形式引导的混合推理引擎:设计逻辑符号引导的混合推理引擎,有规划、推理和检索三种运算符,可将自然语言问题转化为结合语言和符号的求解过程,集成图谱推理、逻辑计算、chunk检索和llm推理四种问题求解过程,通过符号驱动生成逻辑查询表达式,必要时调用外部知识库。
4.基于语义的知识对齐:利用语义对齐机制构建开放世界知识图谱,增强模型决策严谨性,还采用基于概念的知识对齐技术,提升在专业领域的表现。
5.指令合成技术:KAG的KAGModel模块通过指令合成技术,让小参数量语言模型接近大模型性能,降低与大型模型耦合成本,适用于高效计算和低资源消耗场景。
二、技术架构
1.KGBuilder:负责知识表示和构建。基于DIKW层次结构升级SPG知识表示能力,兼容无模式和有模式的知识构建,支持图结构和文本块的互索引表示,为推理问答阶段的高效检索提供支持。
2.KGSolver:负责推理和求解。采用逻辑形式引导的混合求解和推理引擎,包含规划、推理和检索三种运算符,能够集成检索、知识图谱推理、语言推理和数值计算四种问题求解过程,处理复杂的逻辑推理和问答任务。
3.KAGModel:包含模型训练、优化或其他与模型相关的组件,可降低与大型模型之间的耦合成本,适用于需要高效计算和低资源消耗的应用场景。
三、知识图谱与文本互索引技术
1.数据来源整合
多源数据收集:收集非结构化数据,如新闻、事件、日志、书籍等;结构化数据,如交易、统计、审批数据等;以及业务经验、领域知识等专家规则数据。这些多源数据是构建知识图谱与建立文本互索引的基础。
版面分析:针对非结构化数据中的文档等内容,进行版面分析,例如确定标题、段落、图表等元素的位置和结构,为后续的信息提取和文本分块做准备。
2.知识抽取与结构化
信息抽取:使用信息抽取技术,如OpenIE等,从文本中提取实体、事件、概念和关系等信息,构建初步的知识图。将抽取的信息以片段的形式存储在知识图谱中,实现数据的初步结构化和可检索性。
属性标化:对抽取出来的各种属性进行标准化处理,使不同来源、不同格式的属性具有统一的表示形式,方便后续的知识图谱构建和互索引建立。
3.知识语义对齐
实例分类:对知识图谱中的实体实例进行分类,确定每个实例所属的概念类别,使得相同或相似概念的实例能够被准确归类,为知识图谱与文本的语义关联提供基础。
概念的超/下位词关系预测:预测概念之间的超/下位词关系,构建概念层次结构,明确知识之间的上下位关系,增强知识图谱的语义结构,也有助于文本与知识图谱在不同概念层次上的关联。
语义关系补全和去歧义:对知识图谱中的语义关系进行补全,填充可能缺失的关系信息,同时消除语义歧义,使知识图谱的语义更加准确和完整,确保文本与知识图谱之间的索引关系具有明确的语义指向。
4.互索引构建
文本分块与标识:将原始文本根据语义、段落等因素进行分块,并为每个文本块赋予唯一的标识。这些文本块将作为与知识图谱进行互索引的基本单位。
图结构与文本块关联:在知识图谱的图结构中,为每个节点(实体、概念等)和边(关系)建立与相应文本块的索引关系。即记录知识图谱中的元素来自哪些文本块,以及文本块中涉及哪些知识图谱元素,实现图结构与原始文本块之间的双向索引。
倒排索引构建:基于图结构建立倒排索引,以便能够快速根据知识图谱中的元素查找相关的文本块,也能根据文本块中的信息快速定位知识图谱中的对应元素,提高检索效率。
5.存储与融合
图存储写入:将构建好的知识图写入存储系统中,使用专门的图数据库(如Neo4j)存储图数据,以高效管理知识图谱的结构和关系;同时使用向量存储(如Milvus)存储文本块的向量信息,确保图结构和原始文本的有效融合,方便后续的检索和推理操作。
四、应用场景
1.电子政务领域
政策解读与咨询:公众对复杂政策文件有疑问时,KAG推理模型可快速理解问题,结合政策知识图谱和相关文本,给出准确详细的解读,如对新税收政策中减免条件、申请流程的解释。
政务流程引导:能为民众提供办理政务事项的流程指导,如办理营业执照、申请公租房等,整合各环节信息,清晰展示步骤、材料和注意事项。
政务数据挖掘与分析:辅助政府部门分析政务数据,挖掘数据关联,如分析城市交通数据和环保数据,为政策制定和城市规划提供支持。
2.医疗健康领域
智能医疗咨询:患者咨询症状、疾病诊断、治疗方案等问题,KAG推理模型可结合医学知识图谱和病例文本,提供专业解答和建议,初步判断病情并推荐就医科室。
辅助医疗决策:医生在诊断和治疗时,KAG能提供相关医学知识和类似病例,辅助医生做出决策,如提供罕见病的诊断思路和治疗经验。
医疗知识管理与培训:用于医疗机构的知识管理和医护人员培训,整理和关联医疗知识,为医护人员提供学习资源,帮助其掌握新知识和技能。
3.金融领域
信用评估:金融机构可利用KAG推理模型对借款人进行信用评估,挖掘和推理借款人公开信息,识别风险信号,如关联交易、负面舆情,提升风险预警准确率。
投资决策辅助:为投资者提供投资建议和决策支持,分析金融市场数据、企业财务信息等,结合知识图谱评估投资项目风险和潜力,推荐投资组合。
金融知识问答与客户服务:在金融机构的客户服务中,快速准确回答客户金融产品、业务流程等问题,如解释理财产品收益计算、贷款申请条件。
4.电商领域
智能客服:处理用户咨询,理解问题意图,调取商品知识、物流信息等,提供准确答案,如解答商品功能、尺码、售后政策,及查询物流进度。
商品推荐:分析商品知识图谱和用户行为数据,进行个性化商品推荐,考虑商品属性、关联关系和用户偏好,推荐符合需求的商品。
电商数据分析与运营决策:帮助电商平台分析销售数据、用户数据等,挖掘数据关联和趋势,为运营决策提供支持,如制定促销活动、调整商品库存。
点赞数:1
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号