从探索到落地，Soul创始人张璐团队开源SoulX-FlashHead定义实时数字人生成新方向

近期，Soul App创始人张璐团队在实时数字人技术领域取得了新的技术进展。Soul App旗下Soul AI Lab 发布并开源了轻量化实时数字人生成模型 SoulX-FlashHead，为实时数字人的落地提供了新的技术路径。

与以往依赖高端算力集群的方案不同，SoulX-FlashHead以 1.3B参数规模切入实时生成场景，在RTX 4090单卡条件下即可实现96FPS的推理速度，同时保持人物外观与口型表现的稳定性。这一结果意味着，高质量实时数字人不再局限于机房级算力配置，而是可以在个人工作站等更普遍的硬件条件中运行。

在模型设计层面，SoulX-FlashHead引入了双向蒸馏机制（Oracle-Guided Distillation），通过具备“先知视角”的教师模型，将Ground Truth作为强约束锚点，持续校准模型的生成结果。该机制有效缓解了长视频生成中常见的“身份漂移”问题，使人物在长时间输出过程中保持特征一致。

针对流式生成中音频上下文不足导致的口型抖动现象，团队提出了时序音频上下文缓存（TACC）方案。模型在生成过程中强制保留8秒的历史音频特征，用以补偿短音频切片带来的信息缺失，从而减少口型不同步等影响观感的问题。

在数据层面，Soul AI Lab构建了自研的VividHead 数据集。该数据集从10,000+小时原始素材中筛选并精炼出 782 小时高质量音画数据，经过切分、DWpose 关键点分析、唇形一致性评分过滤等多重处理流程，为模型训练提供了更加纯净且稳定的数据基础。

从实际性能表现来看，SoulX-FlashHead在不同版本中呈现出清晰的应用取向。Lite 版本以高速率为核心，在单卡 RTX 4090 环境下可实现 96FPS 推理速度，仅占用 6.4G 显存，并支持最高 3 路并发，使实时数字人首次具备面向消费级终端的可行性。Pro 版本则聚焦画质表现，在 RTX 5090 单卡条件下实现 16.8FPS，双卡配置可达到实时标准（25FPS 以上），在视觉质量和唇形一致性等指标上达到SOTA。

在权威数据集评测中，SoulX-FlashHead同样展现出稳定表现。在 HDTF 高清视频评测中，Pro 版本取得 8.31 的 FID 和 103.14 的 FVD 成绩，显示出细节还原能力；在复杂真实场景的 VFHQ 测试中，其 Sync-C 得分达到 5.60，在口型同步表现上领先此前相关方案。结合 Lite 版本在单卡RTX4090 上实现的 96FPS 吞吐量，该模型在实时性与效率维度上也展现出明显优势。

回顾团队此前的技术积累，今年 1 月，Soul AI Lab 已开源实时数字人生成模型 SoulX-FlashTalk，实现0.87s亚秒级超低延时与 32FPS 高帧率，并支持超长视频稳定生成。相较之下，SoulX-FlashHead的技术价值在于进一步降低硬件门槛，将高保真实时数字人技术从集中算力环境带入更广泛的个人与中小规模应用场景。

基于这一特性，SoulX-FlashHead在多类实际场景中具备直接应用潜力。例如，在 7×24 小时矩阵直播中，个人主播仅需一台游戏PC即可搭建高保真电商直播间；在游戏NPC引擎中，1.3B体量的模型易于集成，能够实现NPC毫秒级响应且不占用核心渲染资源；在 AI 一对一外教应用中，模型支持 15 种语言的音频驱动实时生成，提升远程教学的互动体验。

通过模型结构、训练机制与数据体系的系统性优化，SoulX-FlashHead验证了轻量化模型在实时数字人领域的可行性。Soul创始人张璐团队以这一开源成果，给出了兼顾效率、画质与成本的新方案，也为实时数字人技术在消费级硬件环境中的应用提供了清晰示例。

(责任编辑：吴珊)