图数据库

图数据库专门用于存储和查询图结构数据，典型应用包括社交网络、知识图谱、推荐系统、欺诈检测。图数据由节点和边组成，节点表示实体，边表示关系。关系数据库在处理多跳查询时效率低，图数据库通过针对图遍历的优化实现高效查询。

图数据模型

标签属性图

Neo4j 使用标签属性图模型，节点可以有多个标签，标签相当于表的分类。节点和边都可以有属性，属性是键值对。例如 Person 标签的节点有 name、age 属性，KNOWS 关系的边有 since 属性。

图数据与关系数据的区别在于关系的处理方式。关系数据库通过外键表示关系，查询多跳关系需要多次 JOIN，性能随跳数指数下降。图数据库通过物理指针连接节点，遍历关系的复杂度是 O(1)，多跳查询仍然高效。

图遍历

图遍历是图数据库的核心操作，包括深度优先、广度优先、最短路径、连通分量。深度优先从起点开始尽可能深地探索，回溯后再探索其他分支。广度优先从起点开始逐层探索，先访问所有邻居，再访问邻居的邻居。最短路径找到两点之间边数最少的路径，常用算法是 BFS。连通分量找到图中所有连通的节点集合。

Cypher 是 Neo4j 的查询语言，采用模式匹配语法，描述要查找的图模式。MATCH 子句定义模式，WHERE 子句定义条件，RETURN 子句定义返回结果。Cypher 的语法接近自然语言，易于理解和编写。

cypher

// 查找朋友的朋友
MATCH (person:Person {name: 'Alice'})-[:KNOWS]->(friend)-[:KNOWS]->(fof)
RETURN fof.name

// 查找最短路径
MATCH path = shortestPath(
  (start:Person {name: 'Alice'})-[:KNOWS*]-(end:Person {name: 'Bob'})
)
RETURN path

// 查找共同好友
MATCH (a:Person {name: 'Alice'})-[:KNOWS]-(common)-[:KNOWS]-(b:Person {name: 'Bob'})
RETURN common.name

Neo4j 架构

存储引擎

Neo4j 的存储引擎针对图遍历优化，节点和边存储在相邻的存储位置，减少磁盘 I/O。节点存储包含相邻边的指针，边存储包含源节点和目标节点的指针。这种设计使得从节点出发遍历所有边是顺序读，性能极高。

Neo4j 支持两种存储格式：Neo4j 3.0 之前使用多个文件分别存储节点、边、属性、标签。Neo4j 3.0+ 使用单一存储格式，所有数据存储在同一个文件，通过记录类型区分节点、边、属性。单一存储格式减少了文件句柄和碎片，提高了缓存利用率。

索引结构

Neo4j 的索引包括 Schema 索引和全文索引。Schema 索引是 B+ 树索引，支持等值查询和范围查询。可以为节点的属性创建索引，加速查询。全文索引基于 Apache Lucene，支持全文检索和模糊匹配。

cypher

// 创建索引
CREATE INDEX ON :Person(name)

// 查询使用索引
MATCH (person:Person {name: 'Alice'})
RETURN person

约束包括唯一性约束和存在性约束。唯一性约束保证属性的值在节点中唯一，可以用于实现业务唯一键。存在性约束保证属性必须有值，插入数据时如果缺少该属性会报错。

查询执行

Cypher 查询的执行包括解析、逻辑计划、物理计划、执行。解析将 Cypher 文本转换为抽象语法树。逻辑计划生成执行计划，考虑索引、连接顺序、遍历方向。物理计划选择具体的实现方式，考虑数据分布、缓存命中率。执行阶段按照物理计划访问存储引擎。

查询计划可以通过 EXPLAIN 或 PROFILE 查看，EXPLAIN 显示计划不执行，PROFILE 显示计划并执行。关键信息包括执行步骤、预估行数、实际行数、耗时。优化查询需要关注是否有索引使用、遍历方向是否合理、是否有笛卡尔积。

cypher

// 查看查询计划
PROFILE MATCH (person:Person {name: 'Alice'})-[:KNOWS]->(friend)
RETURN friend.name

图遍历优化

遍历方向

Cypher 查询中边的方向可以指定为有向或无向。有向遍历按照边的物理方向遍历，无向遍历双向遍历。有向遍历性能更好，因为只需要遍历一个方向的边。无向遍历更灵活，但需要遍历两个方向。

如果数据模型允许，应该为关系定义明确的方向，查询时使用有向遍历。例如社交网络中，FOLLOW 关系有明确的方向，查询关注的人使用有向遍历，查询关注者也使用有向遍历（反向定义关系）。

查询模式

查询模式的设计影响查询性能。好的查询模式从特定节点开始，利用索引快速定位起点，然后遍历关系。坏的查询模式从全图扫描开始，性能极差。

cypher

// 好的查询模式，从特定节点开始
MATCH (person:Person {name: 'Alice'})-[:KNOWS]->(friend)
RETURN friend

// 坏的查询模式，全图扫描
MATCH (person)-[:KNOWS]->(friend)
WHERE person.name = 'Alice'
RETURN friend

多跳查询可以指定跳数限制，避免遍历整个图。使用 *1..3 表示 1 到 3 跳，使用 *..3 表示最多 3 跳。跳数限制不仅限制遍历深度，也限制返回结果数量，避免结果集过大。

cypher

// 查询最多 3 跳的朋友
MATCH (person:Person {name: 'Alice'})-[:KNOWS*..3]-(friend)
RETURN DISTINCT friend

内存管理

图遍历可能产生大量中间结果，需要注意内存管理。DISTINCT 去重会占用内存，如果结果集很大可能内存溢出。LIMIT 限制结果数量，可以减少内存占用。子查询可以分批处理，避免一次性加载所有数据。

Neo4j 的内存管理包括堆内存和页面缓存。堆内存用于执行引擎、事务管理、网络通信，页面缓存用于缓存数据文件。堆内存建议不超过 31GB，页面缓存应该尽可能大，建议剩余内存全部用作页面缓存。

分布式图数据库

Neo4j Fabric

Neo4j Fabric 是分布式查询功能，允许跨越多个数据库执行查询。Fabric 包含一个主数据库和多个辅助数据库，主数据库协调查询，辅助数据库存储数据。查询可以指定在哪个数据库执行，也可以跨库关联。

Fabric 的优势是透明分布式，用户使用 Cypher 查询，不需要关心数据分布。Fabric 支持数据分片，按节点属性分片到不同数据库。Fabric 支持读写分离，读操作可以路由到只读副本。

JanusGraph

JanusGraph 是分布式图数据库，后端存储支持 Cassandra、HBase、Bigtable，索引后端支持 Elasticsearch、Lucene。JanusGraph 将图数据存储在分布式数据库中，利用分布式数据库的可扩展性。索引存储在 Elasticsearch 中，支持全局索引和属性查询。

JanusGraph 的数据模型也是标签属性图，支持 Gremlin 查询语言。Gremlin 是图遍历语言，类似于函数式编程，可以表达复杂的图遍历。JanusGraph 支持多机多副本，数据自动分区和复制，适合超大规模图数据。

Amazon Neptune

Neptune 是 AWS 的托管图数据库服务，支持属性图和 RDF 图。Neptune 支持 Gremlin 和 SPARQL 查询语言，可以用于社交网络、推荐引擎、欺诈检测、知识图谱。Neptune 是完全托管的服务，自动处理备份、恢复、监控、扩容。

Neptune 的架构是分布式的，支持读写分离和多可用区部署。写入由主节点处理，读取由副本节点处理。数据跨可用区复制，单个可用区故障不影响服务。Neptune 支持快照备份，可以恢复到任意时间点。

应用场景

社交网络

社交网络是图数据库的典型应用，用户是节点，关系是边。查询包括朋友的朋友、共同好友、最短路径、连通分量。这些查询在关系数据库中需要多次 JOIN，性能差。在图数据库中直接遍历关系，性能好。

社交网络的图数据规模大，可能达到数十亿节点和边。需要考虑分布式图数据库或图计算框架。对于小规模社交网络，Neo4j 单机足够。对于大规模社交网络，需要考虑 JanusGraph 或 Neptune。

欺诈检测

欺诈检测使用图数据库发现欺诈模式，例如循环转账、洗钱、身份盗用。金融交易构建交易图，节点是账户和交易，边是转账关系。欺诈模式表现为特定的图结构，例如短时间多跳转账、多个账户共同收款。

图数据库可以快速检测这些模式，实时告警。欺诈检测的挑战是数据量大、实时性要求高、欺诈模式多变。图数据库的高效遍历和模式匹配能够满足这些需求。

图数据库是处理关系数据的有力工具，在社交、推荐、风控等领域有广泛应用。选择图数据库需要考虑数据规模、查询复杂度、实时性要求、团队能力。对于小规模和原型阶段，Neo4j 是好的选择。对于大规模和生产环境，需要考虑分布式图数据库或图计算框架。

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

Vite

TypeScript

Vue

浏览器

Flutter

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议基础

SQL

MySQL 架构与实现

NoSQL

运维与调优

分布式与扩展

特定主题深入

工程实践

QoS 总览

可观测性

性能优化

高可用与容错

分布式原理

共识算法

并发模型

微服务治理

负载均衡

云原生

K8s

语言基础

系统开发

数据结构

电源管理

进程管理

内存管理

文件管理

设备管理

驱动接口

网络实现

中断管理

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习

深度学习

大模型基础

大模型应用

主流引擎

设计实现

标准接口

算子

模型格式

集群

图数据库 ​

图数据模型 ​

标签属性图 ​

图遍历 ​

Neo4j 架构 ​

存储引擎 ​

图数据库

图数据模型

标签属性图

图遍历

Neo4j 架构

存储引擎

索引结构

查询执行

图遍历优化

遍历方向

查询模式

内存管理

分布式图数据库

Neo4j Fabric

JanusGraph

Amazon Neptune

应用场景

社交网络

推荐系统

欺诈检测