前言

https://github.com/cubefs/cubefs

DAOS

架构

DAOS（分布式异步对象存储）是一个开源的软件定义的可扩展对象存储系统，旨在为应用程序提供高带宽和高 IOPS 存储容器，并支持结合仿真、数据分析和机器学习的下一代数据中心工作流。

与传统存储堆栈（主要为旋转介质设计）不同，DAOS 从一开始就为新一代非易失性内存（NVM）技术设计，采用极简的架构，完全在用户空间内端到端（E2E）操作，实现全操作系统绕过。DAOS 提供了一种不同于块存储和高延迟存储的 I/O 模型，能够本质上支持细粒度数据访问并释放下一代存储技术的性能。

DAOS 是一个高性能、独立、容错的存储层，不依赖第三方层来管理元数据和数据的可靠性。

DAOS 特性

DAOS 依赖于开放的 fabric 接口（OFI）来实现低延迟通信，数据存储在存储类内存（SCM）和 NVMe 存储中。DAOS 提供一个原生的键-数组-值存储接口，并在其上端口了多种领域特定的数据模型，如 HDF5、MPI-IO 和 Apache Hadoop。DAOS 还提供了一个 POSIX I/O 模拟层，通过原生 DAOS API 实现文件和目录。

DAOS 的 I/O 操作首先记录到日志中，然后插入到存储在 SCM 中的持久索引中。每个 I/O 操作都标记有特定的时间戳（称为 epoch），并与数据集的特定版本相关联。内部不会执行读取-修改-写入操作。写操作是非破坏性的，且不受对齐的影响。在读取请求时，DAOS 服务会遍历持久索引，创建一个复杂的散布-收集远程直接内存访问（RDMA）描述符，从而直接在应用程序提供的缓冲区中重构数据。

SCM 存储直接映射到 DAOS 服务的地址空间中，通过直接加载/存储管理持久索引。根据 I/O 特性，DAOS 服务可以决定将 I/O 存储在 SCM 或 NVMe 存储中。如图 2-1 所示，像应用程序元数据和字节级数据这样的低延迟 I/O 通常存储在前者中，而检查点和大数据则存储在后者中。这种方法通过将数据流式传输到 NVMe 存储并在 SCM 中保持内部元数据索引，允许 DAOS 为大数据提供原始 NVMe 带宽。持久内存开发工具包（PMDK）允许管理对 SCM 的事务访问，存储性能开发工具包（SPDK）支持用户空间 I/O 到 NVMe 设备。

图 2-1. DAOS 存储

DAOS 存储

DAOS 旨在提供：

高吞吐量和 IOPS，支持任意对齐和大小
细粒度 I/O 操作，真正的零拷贝 I/O 到 SCM
支持通过可扩展的集体通信在存储服务器之间进行大规模分布式 NVM 存储
非阻塞数据和元数据操作，允许 I/O 和计算重叠
高级数据放置，考虑故障域
软件管理的冗余，支持复制和纠删码，以及在线重建
端到端数据完整性
可扩展的分布式事务，保证数据一致性和自动恢复
数据集快照
安全框架，管理存储池的访问控制
软件定义存储管理，通过 COTS 硬件配置、修改和监控存储池
原生支持 HDF5、MPI-IO 和 POSIX 命名空间
灾难恢复工具
与 Lustre 并行文件系统的无缝集成
数据集迁移代理，支持在 DAOS 池之间以及 DAOS 和并行文件系统之间迁移数据集

DAOS 系统

一个数据中心可能有数十万个计算实例，通过可扩展的高性能网络互连，其中所有或一部分实例（称为存储节点）直接访问 NVM 存储。DAOS 的安装包含多个组件，这些组件可以是共置的或分布式的。

DAOS 系统通过系统名称来标识，由一组连接到相同网络的 DAOS 存储节点组成。每个 DAOS 存储节点运行一个 DAOS 服务器实例，并为每个物理插槽启动一个 DAOS 引擎进程。DAOS 服务器的成员信息记录在系统地图中，给每个引擎进程分配一个唯一的整数编号。两个不同的 DAOS 系统由两组不相交的 DAOS 服务器组成，且它们之间不进行协调。

DAOS 服务器是一个多租户守护进程，运行在每个存储节点的 Linux 实例（可以是物理节点上的本地实例，或在虚拟机或容器中运行）。其引擎子进程通过网络导出本地附加的 SCM 和 NVM 存储。它监听一个管理端口（由 IP 地址和 TCP 端口号指定），以及一个或多个 fabric 端点（通过网络 URI 指定）。DAOS 服务器通过 /etc/daos 中的 YAML 文件进行配置，包括其引擎子进程的配置。DAOS 服务器的启动可以与不同的守护进程管理或编排框架集成（例如 systemd 脚本、Kubernetes 服务，甚至通过并行启动器如 pdsh 或 srun）。

在 DAOS 引擎内部，存储被静态划分到多个目标上，以优化并发性。为了避免竞争，每个目标都有其私有存储、自己的服务线程池和专用的网络上下文，可以独立于同一存储节点上托管的其他目标，通过 fabric 直接访问。

SCM 模块配置为 AppDirect 交错模式。它们因此作为每个插槽的单个 PMem 名称空间呈现给操作系统（以 fsdax 模式）。
注意
当使用 dax 选项挂载 PMem 设备时，dmesg 中将记录以下警告：
EXT4-fs (pmem0): DAX enabled. Warning: EXPERIMENTAL, use at your own risk
此警告可以安全忽略：它的发出是因为 DAX 尚不支持 reflink 文件系统特性，但 DAOS 并未使用该特性。

当为每个引擎配置 N 个目标时，每个目标将使用该插槽 fsdax SCM 容量的 1/N，独立于其他目标。

每个目标还使用附加到该插槽的 NVMe 驱动器的 NVMe 容量的一部分。例如，在一个拥有 4 个 NVMe 磁盘和 16 个目标的引擎中，每个目标将管理 1/4 的单个 NVMe 磁盘。

一个目标没有实现任何内部数据保护机制以防止存储介质故障。因此，目标是单点故障，也是故障单元。每个目标关联一个动态状态：其状态可以是“运行中”或“关闭且不可用”。

目标是性能的单位。与目标相关的硬件组件，如后端存储介质、CPU 核心和网络，都具有有限的能力和容量。

DAOS 引擎实例导出的目标数量是可配置的，取决于底层硬件（特别是该引擎实例所服务的 SCM 模块数量和 NVMe SSD 数量）。作为最佳实践，引擎的目标数量应是所服务 NVMe 驱动器数量的整数倍。

SDK 和工具

应用程序、用户和管理员可以通过两种不同的客户端 API 与 DAOS 系统交互。管理 API 提供了管理 DAOS 系统的能力，并计划与供应商特定的存储管理和开源编排框架集成。dmg CLI 工具是建立在 DAOS 管理 API 之上的。另一方面，DAOS 库（libdaos）实现了 DAOS 存储模型，主要面向希望将数据集存储在 DAOS 系统中的应用程序和 I/O 中间件开发人员。像 daos 命令这样的用户工具也构建在该 API 上，以便用户通过 CLI 管理数据集。

应用程序可以直接通过原生 DAOS API、通过 I/O 中间件库（例如 POSIX 模拟、MPI-IO、HDF5）或通过已与 DAOS 存储模型集成的框架（如 Spark 或 TensorFlow）访问存储在 DAOS 中的数据集。

代理

DAOS 代理是驻留在客户端节点上的守护进程，负责与 DAOS 库交互以对应用程序进程进行身份验证。

它是一个受信任的实体，可以使用证书签署 DAOS 库凭证。该代理支持不同的身份验证框架，并通过 Unix域套接字与 DAOS 库通信。

参考资料

https://docs.daos.io/v2.6/overview/architecture/

前言
DAOS
参考资料

分布式存储系统-20-daos Distributed Asynchronous Object Storage (DAOS) 开源的软件定义对象存储系统

前言

DAOS

架构

DAOS 特性

DAOS 系统

SDK 和工具

代理

参考资料

更多学习