Chroma团队发布Wal3：基于对象存储的WAL架构革新，突破传统持久性与扩展性瓶颈

2025-09-05

27 0

1. 数据库持久性与扩展性的双重挑战

在分布式数据库架构中，写前日志（WAL）是保障数据安全的核心组件，但其传统实现长期面临两大痛点：依赖本地磁盘导致的运维复杂性，以及中心化日志设计带来的扩展瓶颈。传统WAL通常将日志存储于本地SSD或分布式块存储，不仅需要手动管理磁盘容量、处理节点故障后的日志同步，还难以应对百万级集合场景下的并发读写需求。以Kafka为例，其分区机制虽支持水平扩展，但单分区吞吐量受限于单节点性能，且跨区域数据同步需额外搭建镜像集群，运维成本极高。

2. Wal3的核心突破：基于对象存储的架构革新

Chroma团队发布的Wal3系统，通过完全基于对象存储（如Amazon S3）构建WAL，彻底重构了这一技术范式。其核心设计包括三大创新：

集合级独立日志路径：每个数据库集合对应S3中的独立前缀路径（如s3://chroma-wal/collections/{collection_id}/），读写操作仅需访问对应路径，实现吞吐量随集合数量线性扩展。
S3原生持久性保障：利用S3的对象锁（Object Lock）和版本控制功能，结合双重删除防护机制（显式标记+垃圾回收确认），将数据持久性提升至99.999999999%（十一个九），远超传统磁盘存储的可靠性。
无状态计算层设计：数据库计算节点无需挂载持久化存储，彻底消除Kubernetes PV/PVC配置、磁盘故障恢复等运维负担，节点可随时扩缩容。

3. S3条件写入与无锁并发的实现

3.1 S3条件写入确保日志连续性

Wal3利用Amazon S3的PutObject条件写入功能（If-None-Match: *）实现日志序号的严格递增。当客户端写入日志条目时，系统会生成全局唯一序号（如segment-000001.log），并通过条件写入确保该序号文件不存在时才允许创建，若冲突则自动重试。这一机制类似乐观锁，既避免了分布式锁的性能开销，又保证了日志序列的完整性。

3.2 分段日志与无锁并发控制

Wal3采用分段日志（Segment Log） 架构，将单个集合的日志拆分为固定大小的段文件（默认64MB），每个段文件通过原子计数器记录写入位置。并发写入时，多个客户端只需递增本地计数器并写入对应段文件，无需全局协调，实现真正的无锁并行。这种设计使得单集合的写入吞吐量可随客户端数量线性提升。

技术细节：Wal3的原子计数器基于S3的Increment API实现，每次写入前自动获取最新序号，确保跨节点操作的一致性。即使部分节点故障，其他节点仍可通过S3读取最新序号继续写入。

4. 校验和与数据完整性保障

为解决对象存储中可能出现的数据损坏问题，Wal3创新推出setsum校验和技术，将CRC32校验码与内容哈希值结合并嵌入日志头部。写入时，系统对日志条目计算双重校验和；读取时，通过校验和验证数据完整性，若发现损坏则自动从S3版本历史中恢复最近可用版本。这一机制相较于传统CRC校验，将数据讹误检测率提升了3个数量级。

校验机制	检测能力	性能开销	Wal3选择理由
CRC32	检测单比特错误	低	基础校验层
SHA-256	防篡改与数据唯一标识	高	内容哈希层
setsum	融合CRC32与SHA-256优势	中	平衡性能与可靠性

5. 与传统方案的对比：为何自研Wal3是必然选择

Chroma团队在评估Kafka、WarpStream等现有日志系统后，发现其难以满足需求：

扩展性瓶颈：Kafka依赖分区机制，单集群支持的集合数量受限于分区总数（通常不超过10万），而Wal3通过S3路径隔离可支持百万级集合。
对象存储适配性：现有系统多为本地磁盘设计，需额外适配层才能对接S3，导致性能损耗（如WarpStream的S3同步延迟约200ms）。
开发语言兼容性：Chroma核心采用Rust开发，Wal3同样基于Rust实现，避免了跨语言调用的性能开销与开发复杂度。

6. 对象存储WAL的潜力

Wal3并非首个探索对象存储WAL的案例。CockroachDB早在2022年便推出基于云存储的WAL方案，但其仍依赖中心化协调器（如Consul）管理日志元数据，而Wal3通过无锁设计彻底消除了这一瓶颈。随着云原生数据库向“计算-存储分离”架构演进，Wal3的设计理念为行业提供了新范式：

无状态计算节点：数据库集群可按需弹性扩缩，无需绑定存储资源。
跨区域容灾：借助S3的全球分发能力，日志可实时同步至多区域，实现RPO<1秒的灾难恢复。
成本优化：利用S3的低成本存储（$0.023/GB/月），较本地SSD降低70%以上的存储成本。

行业影响：Wal3的开源特性（GitHub仓库）或将推动更多数据库厂商采用对象存储WAL架构，尤其在向量数据库、时序数据库等写密集型场景中，其集合级扩展能力将成为核心竞争力。

参考链接

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系aipmgo@163.com删除。

挑战AI规模路线：研究员称首个超级智能将是“超人学习者”

人工智能领域“规模至上”路线遇瓶颈，前OpenAI团队创立的Thinking Machines Lab提出“超人学习者”新范式，主张通过主动探索、知识内化突破被动训练与灾难性遗忘局限，其STAR算法较GPT-4任务完成率提升37%，或成通用人工智能（AGI）关键进化方向。

Lyra

41 0

企业AI战略瓶颈：治理与合规挑战及破局之道

企业AI落地常遇治理瓶颈，审计债务、影子AI等问题拉长项目周期，叠加欧盟《AI法案》、NIST框架等法规压力。领先企业通过分级治理、治理自动化等策略，将合规嵌入技术流程，治理能力正成为AI竞争核心壁垒。

Lyra

27 0

AI智能体定义模糊难题：借鉴汽车航空经验构建分类框架

AI智能体定义模糊致研发边界不清、监管困难，其核心含感知、推理、行动、目标四大模块，需闭环完成自主任务。借鉴汽车SAE分级、航空人机协作等跨行业经验，构建以责任划分与场景定义为核心的分类框架，可破解困境，助力安全评估与技术规范发展。

Lyra

28 0

AI编码工具重塑软件开发：效率跃升与技能退化的行业平衡挑战

AI编码工具正重塑软件开发行业：效率提升显著（团队规模降40%-60%、开发周期缩65%），但引发工程师技能退化争议。工具从辅助转向“导师”模式，未来工程师需聚焦问题定义、系统思维与持续学习，实现人机协作新价值。

Lyra

46 0

Chroma团队发布Wal3：基于对象存储的WAL架构革新，突破传统持久性与扩展性瓶颈

1. 数据库持久性与扩展性的双重挑战

2. Wal3的核心突破：基于对象存储的架构革新

3. S3条件写入与无锁并发的实现

3.1 S3条件写入确保日志连续性

3.2 分段日志与无锁并发控制

4. 校验和与数据完整性保障

5. 与传统方案的对比：为何自研Wal3是必然选择

6. 对象存储WAL的潜力

参考链接

推荐阅读

挑战AI规模路线：研究员称首个超级智能将是“超人学习者”

企业AI战略瓶颈：治理与合规挑战及破局之道

AI智能体定义模糊难题：借鉴汽车航空经验构建分类框架

AI编码工具重塑软件开发：效率跃升与技能退化的行业平衡挑战

评论