跳到主要内容

1 篇博文 含有标签「trade execution」

Trade execution infrastructure

查看所有标签

大规模低延迟、安全交易执行的数字资产托管

· 阅读需 13 分钟
Dora Noda
Software Engineer

如何在不牺牲风险、审计或合规性的前提下,设计一套能够以市场速度运行的托管与执行架构。


执行摘要

托管与交易已不再是孤立的两个世界。在当今的数字资产市场中,安全持有客户资产仅是成功的一半。如果你无法在价格波动时以毫秒级速度执行交易,你就是在流失收益,并让客户暴露在可避免的风险中,如最大可提取价值 (MEV)、交易对手违约和运营瓶颈。现代化的托管与执行架构必须将前沿安全技术与高性能工程相结合。这意味着要集成多方计算 (MPC) 和硬件安全模块 (HSM) 进行签名,利用策略引擎和私有交易路由来减轻抢跑风险,并利用双活 (Active/active) 基础设施和场外结算来降低交易场所风险并提高资本效率。关键在于,合规性不能是事后补丁;诸如资金转移规则 (Travel Rule) 数据流、不可篡改的审计日志以及映射到 SOC 2 等框架的控制措施必须直接构建在交易流水线中。


为什么“托管速度”在当下至关重要

从历史上看,数字资产托管机构主要优化一个目标:不丢失私钥。虽然这仍然是根本,但需求已经发生了演变。如今,最佳执行市场完整性同样是不容妥协的。当你的交易通过公共内存池 (Mempool) 传输时,老练的角色可以看到、重新排序或对它们进行“夹心”攻击,从而以牺牲你的利益为代价榨取利润。这就是 MEV 在起作用,它直接影响执行质量。通过使用私有交易中继 (Private Transaction Relays) 将敏感的订单流置于公众视野之外,是减少这种风险的有力手段。

与此同时,交易场所风险 (Venue Risk) 是一个持续存在的隐忧。将大量余额集中在单一交易所会产生巨大的交易对手风险。场外结算网络提供了一种解决方案,允许机构使用交易所提供的信用额度进行交易,而其资产则保留在隔离的、破产隔离的托管机构中。这种模式极大地提高了安全性和资本效率。

监管机构也在堵塞漏洞。金融行动特别工作组 (FATF) 资金转移规则 (Travel Rule) 的实施,以及国际证监会组织 (IOSCO) 和金融稳定委员会 (FSB) 等机构的建议,正在推动数字资产市场走向“相同风险,相同规则”的框架。这意味着托管平台必须从底层构建合规的数据流和可审计的控制措施。


设计目标(“优秀”架构的定义)

高性能托管架构应围绕几个核心设计原则构建:

  • 可预算的延迟: 从客户意图到网络广播的每一毫秒都必须被测量、管理,并执行严格的服务水平目标 (SLOs)。
  • 具备 MEV 抗性的执行: 敏感订单默认应通过私有渠道路由。暴露在公共内存池中应该是一个有意的选择,而不是不可避免的默认行为。
  • 具有真实保证的密钥材料: 私钥绝不能离开其受保护的边界,无论它们是分布在 MPC 分片中、存储在 HSM 中,还是隔离在可信执行环境 (TEEs) 中。密钥轮换、法定人数强制执行 (Quorum Enforcement) 和健壮的恢复程序是基本要求。
  • 双活可靠性: 系统必须具备故障抵御能力。这要求对 RPC 节点和签名器实现多区域和多提供商冗余,并辅以针对交易场所和网络事件的自动断路器和紧急开关。
  • 原生合规: 合规性不能是事后才考虑的事情。架构必须内置 Travel Rule 数据、AML/KYT 检查和不可篡改审计追踪的接口,所有控制措施需直接映射到公认的框架(如 SOC 2 信托服务标准)。

参考架构

该图展示了满足上述目标的高级托管与执行平台架构。

  • 策略与风险引擎是每条指令的核心守门员。在访问任何密钥材料之前,它会评估所有内容——Travel Rule 负载、速度限制、地址风险评分和签名法定人数要求。
  • 签名编排器智能地将签名请求路由到最适合该资产和策略的控制平面。这可能是:
    • MPC (多方计算):使用门限签名方案(如 t-of-n ECDSA/EdDSA)将信任分散在多个参与方或设备中。
    • HSMs (硬件安全模块):用于硬件强制执行的密钥托管,具有确定性的备份和轮换策略。
    • 可信执行环境 (例如 AWS Nitro Enclaves):隔离签名代码并将密钥直接绑定到经过认证和测量的软件。
  • 执行路由器在最优路径上发送交易。对于大型或信息敏感的订单,它优先选择私有交易提交以避免抢跑风险。在需要时,它会回退到公共提交,利用多提供商 RPC 故障转移在网络不稳定期间保持高可用性。
  • 可观测层提供系统状态的实时视图。它通过订阅监视内存池和新区块,根据内部记录核对已执行的交易,并为每个决策、签名和广播提交不可篡改的审计记录

安全构建模块(及其重要性)

  • 阈值签名 (MPC): 该技术通过分布式控制私钥,确保没有任何单台机器或个人可以单方面转移资金。现代 MPC 协议可以实现适用于生产环境延迟预算的快速且具有恶意安全保障的签名。
  • HSM 与 FIPS 对齐: 硬件安全模块 (HSM) 通过防篡改硬件和记录在案的安全策略来强制执行密钥边界。与 FIPS 140-3NIST SP 800-57 等标准对齐可提供可审计且广为人知的安全保证。
  • 经认证的 TEE: 可信执行环境 (TEE) 将密钥绑定到运行在隔离飞地 (enclave) 中的特定、经过度量的代码。通过使用密钥管理服务 (KMS),您可以创建仅向这些经认证的工作负载发布密钥材料的策略,确保只有经过批准的代码才能进行签名。
  • 用于 MEV 防护的私有中继: 这些服务允许您将敏感交易直接发送给区块构建者或验证者,从而绕过公共内存池 (mempool)。这大大降低了被抢跑 (front-running) 和其他形式 MEV 的风险。
  • 场外结算: 这种模式允许您在中央交易场所交易的同时,将抵押品存放在隔离托管中。它限制了对手方风险暴露,加速了净额结算,并释放了资金。
  • 映射到 SOC 2/ISO 的控制措施: 根据公认的框架记录并测试您的运营控制措施,使客户、审计师和合作伙伴能够信任——并独立验证——您的安全和合规状况。

延迟手册:毫秒级优化的核心

为了实现低延迟执行,您需要优化交易生命周期的每个步骤:

  • 意图 → 策略决策: 保持策略评估逻辑在内存中热运行。缓存“了解您的交易”(KYT) 和白名单数据,设置较短且有界的生存时间 (TTL) 值,并在可能的情况下预先计算签名者法定人数。
  • 签名: 使用持久的 MPC 会话和 HSM 密钥句柄,以避免冷启动的开销。对于 TEE,固定飞地、预热其认证路径,并在安全的情况下重用会话密钥。
  • 广播: 相对于 HTTP,优先选择与 RPC 节点的持久 WebSocket 连接。将您的执行服务与主要 RPC 供应商的区域部署在一起。当延迟飙升时,进行幂等重试,并在多个供应商之间进行对冲广播。
  • 确认: 订阅直接来自网络的收据和事件,而不是轮询交易状态。将这些状态更改流式传输到对账流水线中,以实现即时用户反馈和内部记账。

为每一跳设置严格的 SLO(例如:策略检查 < 20ms,签名 < 50–100ms,正常负载下广播 < 50ms),并在 p95 或 p99 延迟恶化时通过错误预算和自动故障转移强制执行。


原生风险控制与合规

现代托管栈必须将合规视为系统的有机组成部分,而非附加组件。

  • 旅行规则编排: 在每条转账指令中同步生成并验证发起人和受益人数据。自动阻止或拦截涉及未知虚拟资产服务提供商 (VASP) 的交易,并记录每次数据交换的加密收据以供审计。
  • 地址风险与白名单: 将链上分析和制裁筛选列表直接集成到策略引擎中。执行“默认拒绝”立场,仅允许向明确列入白名单的地址或在特定策略例外下进行转账。
  • 不可篡改审计: 将每个请求、审批、签名和广播进行哈希处理并存入只增分类账中。这创建了一个防篡改的审计追踪,可以流式传输到 SIEM 进行实时威胁检测,并提供给审计人员进行控制测试。
  • 控制框架: 将每项技术和运营控制措施映射到 SOC 2 信任服务准则(安全性、可用性、处理完整性、机密性和隐私),并实施持续测试与验证计划。

场外结算:更安全的交易场所连接

为机构规模构建的托管栈应积极最小化对交易所的风险敞口。场外结算网络 是实现这一目标的关键推动因素。它们允许公司将资产保留在自己的隔离托管中,同时交易所镜像该抵押品以实现即时交易。最终结算按照固定节奏进行,并具有类似于货银对付 (DvP) 的保证。

这种设计极大地减少了“热钱包”的占用空间及相关的对手方风险,同时保持了活跃交易所需的速度。它还通过消除在多个场所过度分配闲置资金的需求来提高资本效率,并通过保持抵押品隔离和完全可审计来简化运营风险管理。


控制检查表(可复制到您的操作手册)

  • 密钥托管
    • 在独立的信任域(如:多云、本地、HSM)中使用 t-of-n 阈值的 MPC。
    • 在可行的情况下使用经过 FIPS 验证的模块;维护季度密钥轮换和事件触发重置密钥的计划。
  • 策略与审批
    • 实施具有速度限制、行为启发式方法和营业时间约束的动态策略引擎。
    • 对于高风险操作要求双人审批。
    • 在任何签名操作之前强制执行地址白名单和旅行规则 (Travel Rule) 检查。
  • 执行加固
    • 对于大额或敏感订单,默认使用私有交易中继。
    • 利用双 RPC 供应商,具备基于健康的对冲机制和强大的重放保护。
  • 监控与响应
    • 对意图速率、Gas 价格异常值和交易上链失败实施实时异常检测。
    • 维护一键式自杀开关 (Kill-switch),以按资产或按交易场所冻结所有签名者。
  • 合规与审计
    • 为所有系统操作维护不可篡改的事件日志。
    • 执行持续的、符合 SOC 2 标准的控制测试。
    • 确保妥善保留所有旅行规则凭证。

实现说明

  • 人员与流程优先: 技术无法解决模糊的授权策略或不明确的轮值归属问题。明确定义谁有权更改策略、发布签名机代码、轮换密钥以及批准例外情况。
  • 尽可能简化复杂度: 你集成的每一个新区块链、跨链桥或交易场所都会增加非线性的运营风险。应审慎地添加它们,并配备清晰的测试覆盖、监控和回滚计划。
  • 像对手一样进行测试: 定期进行混沌工程演练。模拟签名机丢失、飞地(Enclave)证明失败、交易池(mempool)停滞、交易平台 API 限流以及格式错误的旅行规则(Travel Rule)数据,以确保系统的韧性。
  • 用数据证明: 追踪客户真正关心的 KPI :
  • 广播耗时和首次确认耗时(p95 / p99)。
  • 通过 MEV 安全路由提交的交易占比(相对于公共交易池)。
  • 通过场外结算实现的交易平台利用率和抵押效率提升。
  • 控制有效性指标,例如附带完整旅行规则(Travel Rule)数据的转账百分比,以及审计发现问题的关闭率。

核心要点

一个足以承载机构级流量的托管平台必须同时做到:执行迅速、证明其管控有效性,并限制对手方风险和信息风险 —— 这需要一个深度集成的技术栈,构建在 MEV 感知路由基于硬件锚定或 MPC 的签名双活(Active / Active)基础设施 以及 场外结算 之上,在获取全球流动性的同时确保资产安全。通过将这些组件整合进一个单一且可衡量的流水线中,你将交付机构客户最看重的一点:极速中的确定性