神州鲲泰携手趋境科技推出大模型推理智能算力调度解决方案

汇鼎金融 26-04-19

近日,华为中国合作伙伴大会现场,神州鲲泰与趋境科技正式签订生态合作协议,并联合推出面向企业级大模型推理场景的智能算力调度解决方案。

该方案聚焦企业大模型推理落地过程中的成本高、效率低、资源乱、合规难四大核心痛点,以 “安全可信、高效适配、灵活扩展、按需部署” 为核心特点,为企业打造从算力底座到推理服务的全链路智能化支撑体系,让企业在保障数据安全与合规的前提下,充分释放大模型推理价值,驱动业务全场景的智能化转型。企业如何破解大模型推理落地的算力与技术瓶颈,实现推理资源的最优配置与价值最大化?神州鲲泰携手趋境科技给出了答案。

一、联合解决方案的战略目标

1.1 引领大模型推理场景产业级落地

当前,大模型技术已从技术验证走向产业应用,推理场景占比达60%,成为企业实现大模型价值转化的核心环节,而算力调度与推理优化则是决定大模型落地效果的关键。IDC 相关数据显示,国内企业大模型私有化部署率逐年提升,但超 70% 的企业面临推理算力资源利用率低、部署成本高、性能稳定性差等问题,千亿级大模型私有化部署曾是中小企业难以企及的目标;同时,企业级推理场景更强调高并发、低延迟、高可用,而传统开源推理引擎仅能满足基础对话需求,无法匹配企业级业务的 SLO 要求。

在此背景下,趋境科技依托源自清华大学高性能计算所的技术积淀,凭借全系统异构协同、以存换算两大核心技术,以及 AMaaS 推理服务平台的企业级服务能力,与神州鲲泰全系列智算硬件、全域算力配置能力深度协同。双方聚焦算力适配、推理优化、资源管理、安全合规四大核心需求,共同打造面向企业级大模型推理场景的智能算力调度解决方案,让大模型推理算力实现 “低成本获取、高效率利用、全流程可控”,推动大模型推理从 “单点试用” 走向 “产业级规模化落地”。

1.2 企业级推理提效的三大落点

实现大模型推理生产级效能跃升趋境科技 AMaaS 推理服务平台集成自研 KLLM 推理引擎,融合 KTransformers、Mooncake 核心优化能力,可充分释放神州鲲泰智算硬件的算力潜能,实现 GPU/CPU 异构计算、P/D 分离、以存换算等多重优化。针对企业长文生成、智能客服、RAG 知识库、批量数据分析等核心推理场景。

满足企业数据安全与合规核心需求解决方案全面支持私有化部署,基于神州鲲泰国产化智算硬件底座与趋境科技 AMaaS 平台的本地化管理能力,所有推理数据全程在企业本地闭环,杜绝数据上传与泄露风险;同时平台支持算力资源与推理任务的全链路监控、审计,满足金融、央企、轨道交通等行业的等保合规与数据安全要求,为企业大模型推理落地筑牢安全防线。

实现推理算力投入与产出的精准量化以算力价值为服务,依托 AMaaS 平台的可视化智能管理驾驶舱,为企业管理者提供算力资源利用率、模型调用量、推理任务响应速度、业务提效数据等多维度洞察,实现推理算力成本、使用效率、业务价值的精准度量与可审计。通过数据化方式清晰呈现算力投入与业务产出的关联,形成 “度量 - 洞察 - 优化” 的闭环管理,让企业算力投入更具针对性,大幅提升推理算力的投入产出比。

二、软硬一体的架构设计

解决方案采用 “硬件底座层 + 推理引擎层 + 模型服务层”多层协同架构,实现神州鲲泰智算硬件与趋境科技 AMaaS 推理服务平台的深度融合与无缝衔接,构建企业专属的大模型推理闭环,为企业全场景推理需求提供从算力到服务的全流程支撑。

2.1 模型服务层:趋境科技 AMaaS 推理服务平台

作为解决方案的核心大脑,AMaaS 推理服务平台是一款开箱即用的企业级大模型推理管理平台,具备资源可视化管理、多模型统一部署、异构算力调度、全链路监控告警四大核心能力。平台内置 134 + 主流大模型,涵盖 DeepSeek、Kimi、Qwen、GLM 等千亿 / 百亿级大语言模型及多模态、重排模型,支持企业私有模型上传、一键启停与在线 / 离线更新;同时提供 Restful API 接口,兼容 OpenAI 等主流大模型接口,可快速与企业现有业务系统、智能体应用集成,实现推理服务的无缝衔接。针对企业级推理需求,平台支持多模型混合推理、分布式推理、集群化部署,可满足从个人试用、部门级应用到集团级万级并发的全场景推理需求。

2.2 推理引擎层:趋境科技自研 KLLM 推理引擎

集成趋境科技两大开源核心技术 ——KTransformers 异构推理框架与 Mooncake 分布式推理架构,打造企业级专属 KLLM 推理引擎。通过全系统异构协同技术,将大模型不同部分分配到 CPU/GPU/NPU 等不同层级化设备,实现单卡运行千亿级大模型,部署成本从百万级降至万级;通过以存换算技术,将推理中间结果存储在内存 / 磁盘,避免重复计算,使计算量降低 10 倍、请求延迟缩短 10 倍;同时支持 KVcache 多级缓存、P/D 分离、量化优化等策略,大幅提升算力利用率与推理吞吐量,让神州鲲泰智算硬件的算力潜能得到充分释放。

2.3 硬件底座层:神州鲲泰鲲鹏 + 昇腾架构智算硬件

依托神州鲲泰基于鲲鹏、昇腾打造的全系列智算硬件,包括液冷工作站、智算服务器、超节点服务器等多形态产品,根据企业所在行业特性、推理场景规模(如并发量、模型参数、任务类型)及部署需求(本地 / 机房 / 边缘),为解决方案提供定制化、高性能、国产化的算力底座。核心机型可灵活配置 2 卡 / 4 卡 / 8 卡 / 百卡级算力,保障算力供给与企业推理需求的精准匹配,同时严格遵循国产化标准,满足企业合规要求。

核心配置表一览

三、核心功能与软硬协同优势

3.1 核心功能模块

全栈异构算力调度与管理支持鲲鹏 / 昇腾等主流硬件的统一纳管,实现 CPU、GPU、NPU、显存、内存等算力资源的可视化监控与动态调度;针对企业多型号硬件集群的痛点,通过异构计算技术实现不同硬件的高效协同,算力资源综合利用率提升 3 倍以上,彻底解决算力资源浪费、调度无序的问题。

多模型全生命周期管理提供模型仓库、模型部署、模型测试、模型更新、模型监控的全生命周期管理能力,内置数百款主流大模型,支持私有模型自定义部署与一键更新,新模型发布当天即可完成适配(天级更新),远超行业月级适配周期,让企业实时享受最新模型能力。

企业级高可靠推理服务支持分布式推理、集群化部署、副本容错等能力,可满足万级并发的高负载推理需求;针对延迟敏感型场景(如智能客服、实时推荐),通过 PD 分离 + 分布式 KVcache 优化,首 Token 延迟可降至 56 毫秒,峰值流量下延迟波动≤5 毫秒,保障推理服务的 99.99% 高可用。

可视化智能管理驾驶舱为企业管理者与运维人员提供多维度数据看板,包括算力资源使用情况、模型调用量、Token 消耗、推理响应速度、任务完成效率等,实现推理业务的全链路监控、告警与审计;同时提供算力成本统计、业务提效分析功能,让算力投入与产出可度量、可管理。

全场景推理方案适配针对企业智能问答、长文生成、RAG 知识库、批量数据分析、舆情监控、企业培训等核心推理场景,提供定制化的推理优化方案,实现模型、算力、引擎的最优组合,让不同场景的推理性能与成本达到最佳平衡。

3.2 软硬协同,无缝衔接

算力与引擎的深度优化趋境科技针对神州鲲泰鲲鹏 + 昇腾智算硬件进行专项推理引擎优化,实现 KLLM 引擎与国产硬件的深度适配,充分释放昇腾的 INT4/INT8 算力优势,在算子、通信层面做联合优化,相比通用开源引擎,同等硬件下推理吞吐量提升 5 倍以上,算力利用率从 38% 提升至 82%。

需求与算力的精准匹配神州鲲泰根据趋境科技 AMaaS 平台的推理算力需求,提供从单卡到千卡算力集群的全形态硬件配置,同时支持硬件的灵活扩展与按需部署,避免算力冗余或供给不足,实现 “算力随推理需求动态调整”。

安全与性能的双重保障基于神州鲲泰硬件底座的物理安全与趋境科技 AMaaS 平台的软件安全能力,构建 “硬件隔离 + 数据本地化 + 全链路审计” 的三重安全体系,在保障数据安全与合规的前提下,通过推理引擎优化实现性能的最大化提升,形成 “算力 - 推理 - 安全” 的一体化支撑体系。

四、典型落地场景与价值

4.1 金融行业智能客服与批量数据分析场景

需求:金融企业需支撑数万级用户的智能客服咨询,要求低延迟、高并发,同时需每日完成海量交易数据、舆情数据的批量分析,且需严格满足金融行业数据安全与合规要求,现有算力集群资源利用率低、推理性能不稳定。

落地价值:基于神州鲲泰算力集群与趋境科技 AMaaS 平台,实现智能客服与批量数据分析的算力资源统一调度与优化;智能客服场景首 Token 延迟降至 50 毫秒内,峰值 15 万次 / 秒请求下性能稳定,用户投诉率大幅下降;批量数据分析场景吞吐量提升 4 倍,2000 个请求仅需 1.5 分钟完成;算力资源综合利用率从 35% 提升至 90%,推理算力成本降低 60%,且全程本地化部署,满足金融行业等保合规要求。

4.2 制造企业研发文档生成与知识库问答场景

需求:制造企业需基于海量技术文档实现研发报告、工艺文件的自动生成,同时为研发人员提供知识库智能问答服务,模型以千亿级大模型为主,现有部署方案成本高、中小团队难以承受,且模型输出速度慢。

落地价值:采用神州鲲泰智算服务器与 AMaaS 平台轻量部署方案,实现千亿级大模型的低成本私有化部署(成本降至 10 万级);研发文档生成速度提升 2 倍,万字工艺文件仅需 1 分钟生成,知识库问答首 Token 响应时间减少 41%;支持多研发团队的算力资源隔离与共享,团队研发效率提升 35%,文档生成人力成本降低 50%。

4.3 央企集团级多场景推理算力统一管理场景

需求:央企集团旗下多个业务板块均有大模型推理需求(如行政办公、生产监控、客户服务),各板块模型类型、并发量差异大,需实现集团算力资源的统一管理与调度,避免各板块重复建设,同时保障跨板块数据安全隔离。

落地价值:搭建神州鲲泰鲲鹏 + 昇腾架构的集团级,通过趋境科技 AMaaS 平台实现全集团算力资源的统一纳管、动态调度与隔离;各业务板块根据需求按需申请算力,模型与推理任务独立部署,算力资源利用率提升 3 倍以上,跨板块算力建设成本降低 40%;针对不同业务场景提供定制化推理优化方案,各板块推理业务效率平均提升 30%,项目交付周期缩短 20%。

五、走向企业级大模型推理新范式

神州鲲泰 × 趋境科技大模型推理智能算力调度解决方案,是智算算力底座与国际领先推理优化技术的深度融合,以低成本、高效率、高安全、易部署、可度量为核心优势,构建了 “硬件 - 引擎 - 平台” 的三层协同体系,精准破解了企业大模型推理落地过程中的算力适配难、资源管理乱、性能不稳定、成本居高不下等行业痛点,实现了大模型推理服务的开箱即用。

目前,该解决方案已在金融、央企、制造、轨道交通等多个行业成熟落地,帮助企业实现推理算力资源利用率提升 3 倍以上、推理性能提升 2-4 倍、算力成本降低 50%-60%,真正让大模型推理算力成为企业可获取、可利用、可度量的核心生产力。

未来,神州鲲泰与趋境科技将持续深化技术合作,围绕鲲鹏 + 昇腾智算硬件进行更深度的推理引擎优化,迭代 AMaaS 平台的智能化调度与管理能力,丰富金融、制造、政务等行业的定制化推理解决方案,推动大模型推理从 “单一场景适配” 向 “企业全场景价值赋能” 升级,让高效、安全、经济的大模型推理算力惠及更多企业,加速大模型技术的产业级落地与价值转化。