开源图数据库（NebulaGraph）

2025-06-13

715

NebulaGraph 是一款广受欢迎的开源图数据库，它能够以毫秒级延迟处理海量数据，可快速扩展，并具备执行快速图分析的能力。NebulaGraph已广泛应用于社交媒体、推荐系统、知识图谱、安全、资金流、人工智能等领域。

核心团队早在2005年便开始参与图数据库研发，曾主导蚂蚁金服分布式图数据库GeaBase的开发。2018年母公司悦数科技成立，专注于分布式图数据库技术研发。2019年5月，NebulaGraph 1.0版本正式开源，采用原生分布式架构，支持千亿级节点和万亿级边存储。2020年完成Pre-A轮融资（800万美元）和Pre-A+轮融资（近千万美元），由红点中国、经纬中国等投资，加速全球商业化布局。2022年推出云原生图数据库服务 NebulaGraph Cloud，实现分钟级云上自动化部署，并与阿里云深度集成。同年获得数千万美元A轮融资，由时代资本领投，推动产品研发和企业级市场拓展。2023年8月与LlamaIndex联合发布 GraphRAG 技术，率先将图数据库与生成式AI结合，解决传统RAG在知识关联和上下文理解上的不足。

2024年发布v3.8.0版本，优化查询性能（如SINGLE SHORTEST PATH功能）、增强内存管理（Memory Tracker机制），并提升集群稳定性。2025年计划开源GraphRAG相关工具，进一步推动图技术在GenAI领域的应用。

项目地址：https://github.com/vesoft-inc/nebula

一、主要特点

1. 分布式架构与高扩展性

采用存储与计算分离设计，支持水平扩展至数百节点，单集群可处理 400亿节点、1000亿边的超大规模数据，且仅需2名工程师即可维护。通过Raft协议保证数据强一致性，支持在线扩缩容和故障自动恢复。

2. 高性能查询与低延迟

基于RocksDB存储引擎，查询延迟低至毫秒级，支持复杂图遍历（如最短路径、社区检测）和实时分析。某海外社交平台使用NebulaGraph处理百亿级用户关系，实现毫秒级响应。

3. 丰富的查询语言与工具链

支持类SQL的 nGQL 和兼容OpenCypher语法，降低开发门槛。配套工具包括：

NebulaGraph Studio：Web可视化界面，支持数据导入、查询调试和图探索。

NebulaGraph BR：开源备份恢复工具，支持全量/增量备份和跨集群数据同步。

生态集成：与Spark、Flink、K8s等深度整合，支持图计算与AI模型训练。

4. 云原生与企业级功能

企业版提供角色权限管理、审计日志、集群监控等功能，并支持与阿里云、AWS等云平台无缝集成。例如，通过阿里云ROS实现一键部署，将交付周期从周级缩短至分钟级。

5. GenAI时代的创新实践

提出 GraphRAG 技术，利用图数据库的全局关联能力优化大模型的知识检索和推理。例如，在工业排障场景中，通过图结构快速定位故障根因；在金融风控中，结合Agent技术实现自动化决策。

二、技术架构

NebulaGraph的分布式架构采用存储与计算分离（SDS，Storage-Compute Separation）设计，可支持数千节点集群、处理万亿级边和百亿级节点的超大规模图数据。其架构设计兼顾高性能、高可用和弹性扩展能力。

1.存储与计算分离的三层设计

NebulaGraph的分布式架构遵循三层逻辑架构，将数据存储、元数据管理和计算逻辑解耦，各层可独立扩展：

```

┌───────────────────────────────────────────────────────────┐

│ 应用层（Client） │

│ （nGQL客户端、SDK、Studio、生态工具：Spark/Flink/AI框架） │

└───────────────────┬───────────────────┬───────────────────┘

▼ ▼ ▼

┌───────────────────────────────────────────────────────────┐

│ 计算层（Compute） │

│ （Query Engine：执行查询计划、图算法计算、RAG推理） │

└───────────────────┬───────────────────┬───────────────────┘

▼ ▼ ▼

┌───────────────────────────────────────────────────────────┐

│ 存储层（Storage） │

│ （数据分片存储、Raft副本管理、磁盘/内存数据调度） │

└───────────────────┬───────────────────┬───────────────────┘

▼ ▼ ▼

┌───────────────────────────────────────────────────────────┐

│ 元数据层（Meta） │

│ （Schema管理、集群拓扑、权限控制、分片路由信息） │

└───────────────────────────────────────────────────────────┘

```

2. Meta Service：元数据管理中枢

角色定位：负责存储和管理全局元数据，包括：

Schema信息：图数据的标签（Tag）、边类型（Edge Type）、属性定义。

集群拓扑：各Storage/Compute节点的健康状态、负载情况。

分片路由：数据分片（Partition）与节点的映射关系。

权限控制：用户角色、访问权限列表。

高可用设计：

采用Raft协议实现多副本（默认3副本）强一致性，确保元数据不丢失。

支持自动选主（Leader），当Leader节点故障时，Follower节点自动选举新Leader。

典型场景：当客户端执行`CREATE TAG`或`SHOW HOSTS`命令时，需先访问Meta Service获取元数据。

3. Storage Service：分布式存储引擎

数据存储模型：

采用列式存储+LSM树（Log-Structured Merge Tree）架构，基于RocksDB优化，适合图数据的高写入和频繁查询场景。

数据按分片（Partition）存储，每个Partition对应一个Raft Group，默认3副本分布在不同节点，避免单点故障。

核心功能：

数据分片：按哈希（Hash）或范围（Range）策略将图数据（节点和边）分配到不同Partition，例如按节点ID哈希分片。

读写流程：

1）客户端请求经Compute Service解析后，获取目标Partition的Leader节点地址。

2）直接访问Storage节点读取数据，减少中间转发延迟。

存储优化：

1）2024年v3.8.0版本引入Memory Tracker机制，实时监控各节点内存使用，自动调整缓存策略，避免OOM（Out of Memory）。

2）支持冷热数据分离，热数据驻留内存，冷数据持久化到磁盘，提升查询效率。

4. Compute Service：分布式计算引擎

查询执行架构：

采用MPP（Massively Parallel Processing）架构，将复杂查询拆分为多个子任务并行执行。

包含查询优化器（Query Optimizer）和执行器（Executor）：

1）优化器：将nGQL语句转换为高效的执行计划，支持谓词下推、连接（Join）优化等。

2）执行器：并行执行物理计划，例如在多个Storage节点上同时遍历图数据。

图算法支持：

内置LPA（标签传播算法）、SSSP（单源最短路径）等常用图算法，支持分布式计算。

2023年引入GraphRAG技术，在Compute层集成大模型推理能力，例如通过图遍历优化RAG的知识检索路径。

资源调度：

支持基于负载的任务分发，自动将查询请求路由到低负载节点，避免热点问题。

三、数据分布与分片策略

1. 分片（Partition）机制

分片数量：创建图空间（Space）时可自定义Partition数量（默认100个），每个Partition对应一个Raft Group。

分片策略：

哈希分片（默认）：按节点ID或边的起始节点ID哈希，确保数据均匀分布。例如：`PARTITION BY HASH(node_id) partitions 100`。

范围分片：按自定义字段（如时间戳、地域ID）的范围划分，适合时序数据或地域分区场景。

副本分布：

每个Partition的3个副本遵循反亲和性原则，分布在不同物理节点或机架，避免机柜级故障。

副本同步采用Raft协议，Leader节点负责写入，Follower节点异步复制，确保强一致性。

2. 数据分布示例

以一个包含10亿节点的社交网络为例：

按节点ID哈希分为100个Partition，每个Partition约1000万节点。

每个Partition的3个副本分布在3个不同节点，集群共10个节点时，每个节点承载约30个Partition的副本。

当查询用户A的好友关系时，Compute Service根据A的ID计算目标Partition，直接访问对应Storage节点的Leader副本。

四、一致性与高可用设计

1. 强一致性保障

Raft协议的应用：

Meta Service和Storage Service的Partition均采用Raft协议，确保数据写入时多数副本确认（Quorum机制）。

例如：当客户端写入一条边时，Compute Service将请求发送至目标Partition的Leader节点，Leader同步数据到至少2个Follower副本后，才向客户端返回成功。

一致性级别：支持`STRONG`（强一致性）和`EVENTUAL`（最终一致性）模式，默认采用`STRONG`。

2. 故障恢复机制

节点故障：

当Storage节点故障时，Meta Service会检测到Partition副本缺失，自动从其他健康副本中选举新的Leader，并触发数据复制补全。

故障恢复时间与数据量相关，通常在秒级到分钟级完成。

网络分区：

Raft协议通过“选举超时”机制避免脑裂（Split Brain），当网络分区导致Leader与多数副本失联时，剩余副本会选举新Leader，旧Leader自动降级为Follower。

3. 在线扩缩容

动态分片迁移：

添加新节点时，Meta Service自动将部分Partition的副本迁移到新节点，保持集群负载均衡。

迁移过程中不影响查询，数据迁移带宽可通过参数（如`max_partition_move_speed`）限制，避免影响业务。

计算层弹性扩展：

Compute节点可独立扩缩容，新节点加入后自动注册到Meta Service，接收查询任务分发。

五、性能优化与典型指标

1. 架构级优化

存储层优化：

采用分层存储：热数据（频繁访问的节点/边）驻留内存，冷数据存储在SSD/HDD，通过LRU策略淘汰过期数据。

2024年v3.8.0版本优化内存碎片管理，减少GC（垃圾回收）停顿时间，提升高并发场景下的稳定性。

计算层优化：

向量化执行引擎：将标量计算转换为向量操作，提升CPU利用率，复杂查询性能提升30%+。

查询下推：将过滤条件（如`WHERE age > 18`）下推至Storage层，减少数据传输量。

2. 典型性能指标

| 场景 | 集群配置 | 性能表现 |

|---------------------|------------------------|-----------------------------------|

| 百亿级节点查询 | 10节点（8核16GB内存） | 单点查询延迟＜5ms，QPS＞10万 |

| 复杂图遍历（10跳） | 20节点（16核32GB内存） | 遍历10亿边耗时＜10秒 |

| 数据导入 | 5节点（SSD存储） | 百亿边导入速度＞500万边/秒 |

| GraphRAG推理 | 3节点（含GPU） | 知识检索响应时间＜200ms，比传统RAG快40% |

六、不足之处

1.生态成熟度待提升

与Neo4j相比，NebulaGraph的工具链和第三方插件仍不够丰富，部分企业级功能（如增量备份、高级安全特性）仅在商业版提供。

2.学习曲线较陡峭

分布式架构的复杂性导致部署和调优门槛较高，新用户需投入较多时间学习nGQL语法和集群管理。

3.超级节点性能挑战

当图中存在高度连接的“超级节点”时，遍历查询可能引发内存溢出或响应延迟显著增加，需通过业务逻辑优化或分库策略缓解。

4.数据导入与存储占用

数据导入后存储体积可能显著膨胀（如60MB文件导入后占用3.5GB），需合理规划硬件资源并优化数据模型。

5.函数下推限制

部分查询函数（如`src(edge)`）无法下推至存储层，可能影响复杂查询的执行效率。

七、应用场景

1.金融风控与反欺诈

构建百亿级反欺诈图，实时分析交易行为、设备关联和社群关系，识别团伙欺诈。例如，众安金融通过NebulaGraph实现借贷申请的秒级风险判定，并结合图算法检测异常社群。

案例：携程金融基于NebulaGraph构建反欺诈图谱，支持毫秒级实时查询和离线计算融合。

2.社交与推荐系统

存储用户关系、兴趣偏好等数据，支持好友推荐、个性化内容分发。某海外社交平台使用NebulaGraph处理超100亿用户关系，实现高实时性推荐。

3.工业与物联网

建模设备关联、生产流程和故障日志，支持根因分析和预测性维护。例如，通过GraphRAG技术在工业排障中快速定位问题节点。

4.知识图谱与智能问答

构建企业知识图谱，结合大模型实现语义搜索和智能问答。NebulaGraph与行业头部企业合作，落地生成式AI驱动的协同研发系统。

5.物流与路径优化

分析供应链网络、运输路线和库存关联，优化配送路径和资源调度。例如，通过最短路径算法提升物流效率。

结言：NebulaGraph凭借分布式架构、高性能和云原生特性，在超大规模图数据处理领域占据重要地位，尤其在金融、社交和工业场景中表现突出。尽管生态和易用性仍有提升空间，但其技术创新（如GraphRAG）和社区活跃度使其成为国内图数据库的标杆产品。未来，随着GenAI技术的普及，NebulaGraph有望在知识密集型场景中进一步释放价值。

点赞数：13