概述

NVIDIA® Mellanox® UFM®平台通过将增强的实时网络遥测与基于AI的网络智能和分析功能相结合,为数据中心网络管理带来了革命性变化,从而支持横向扩展的InfiniBand数据中心。

UFM平台使研究和工业数据中心运营商能够有效地配置、监控、管理和预防性地对现代数据中心结构进行故障排除和维护,以实现结构资源的更高利用率和竞争优势,同时降低运营成本。从工作负载优化和配置检查,到通过基于AI的网络异常检测和预测性维护来提高结构性能,UFM平台包括多个解决方案级别和一个全面的功能集,可满足现代横向扩展数据中心最广泛的要求。

查看产品简介
UFM平台优化超级计算运营支出

UFM平台的主要亮点

UFM Telemetry

NVIDIA MELLANOX UFM TELEMETRY

实时监控

构建丰富的实时网络遥测、工作负载、系统配置等数据库。
平台选项:软件、Docker容器或UFM Telemetry设备
UFM Enterprise

NVIDIA MELLANOX UFM ENTERPRISE

架构可视性和控制

将UFM Telemetry的优势与增强的网络监控和管理相结合。
平台选项:软件、Docker容器或UFM Enterprise设备
UFM Cyber AI

NVIDIA MELLANOX UFM CYBER-AI

网络智能与分析

增强了UFM Telemetry和UFM Enterprise的优势,可扩展预防性维护以降低超级计算的运营成本。
平台:需要本地专用的UFM Cyber-AI设备

UFM TELEMETRY

实时监控

UFM Telemetry

UFM遥测平台提供网络验证工具,以监测网络性能和状态、捕获和传输丰富的实时网络遥测信息,应用程序工作负载的使用、系统配置等,并将其流式传输到本地或基于云的数据库中以进行进一步分析。

主要特点:

  • 交换机、网卡、遥测电缆
  • 系统验证
  • 网络性能测试
  • 将遥测信息流传输到本地或基于云的数据库中

UFM ENTERPRISE

架构可视性和控制

UFM ENTERPRISE

中级UFM Enterprise平台将UFM Telemetry的所有优势与更强大的网络监视和管理功能、工作负载优化和定期配置检查相结合。它还执行自动网络发现和配置、流量监控以及拥塞发现。UFM Enterprise支持作业调度程序的配置以及与领先的作业调度程序、云和群集管理器(包括Slurm和Platform LSF)的集成。UFM还支持网络配置以及与OpenStack、Azure Cloud和VMware的集成。

主要特点:

  • UFM Telemetry内部
  • 自动化网络发现和验证
  • 安全的电缆管理
  • 拥塞跟踪可发现流量瓶颈
  • 问题发现与解决
  • 全局软件更新
  • 作业调度程序配置,与Slurm和Platform LSF集成
  • 高级报告和综合的REST API
  • 丰富的网络GUI
UFM Cyber AI

NVIDIA MELLANOX UFM CYBER-AI

网络智能与分析

UFM Cyber-AI设备增强了UFM Telemetry和UFM Enterprise的优势,可扩展预防性维护以降低超级计算的运营成本。

平台:需要本地专用的UFM Cyber-AI设备

主要特点:

  • 内置UFM Telemetry和UFM Enterprise
  • 检测性能下降问题
  • 检测使用情况随时间的变化
  • 检测异常集群行为
  • 由人工智能支持的现象之间的关联(可能看似无关)
  • 在需要进行预防性维护时发送提醒
  • 连续的系统数据收集可优化可预测性

UFM Cyber​​-AI工作原理

Cyber​​-AI平台的独特优势是基于以下过程:随着时间的推移捕获丰富的遥测信息并利用深度学习算法。具体工作方式如下:

UFM面板
  • UFM了解数据中心的“心跳”、操作模式、条件、使用情况和工作负载网络签名,然后构建更强大的遥测信息数据库并发现事件之间的相关性。
  • UFM转化心跳的变化并将其与未来性能下降或数据中心计算资源异常使用的指示相关联。
  • 现象之间的这种变化和相关性触发了预测分析的性能,并启动了指示异常系统和应用程序行为以及潜在系统故障的警报。
  • 系统管理员可以快速检测并应对此类潜在的安全威胁,并以有效的方式解决即将发生的故障,从而节省运营支出并维护最终用户SLA。

与已有数据中心管理工具进行集成

UFM提供一个开放、可扩展的对象模型来描述数据中心基础架构以及执行所有相关管理操作。UFM的API可实现与任务调度程序、云和集群管理器的集成,包括Slurm和Platform LSF。UFM还可以进行网络配置,并与OpenStack、Azure Cloud和VMware集成。

NVIDIA Mellanox Care - 监控与NOC服务

定期进行性能分析对于确保您的Mellanox解决方案与您的业务目标和最新的Mellanox技术保持一致至关重要。我们的监控和NOC服务会在任何潜在故障发生之前不断检查您的解决方案,通过在问题发生之前识别并解决问题,使您高枕无忧。最终,提高投资回报率并降低系统维护成本。

监控和NOC服务
  • 远程NOC、网络管理和监控服务
  • 专门的服务工程师
  • 1、2和3级支持
  • 持续的故障和问题管理
  • 问题报告和管理
  • 故障分析与报告
  • 性能监控 - 警报和实时警报
  • 可扩展、经济高效的服务

眼见为实

答疑解惑

准备购买

NVIDIA Mellanox Cookie政策

本网站使用Cookie来帮助提供根据您的偏好和兴趣而定制的内容、为您提供更好的浏览体验,并分析我们的流量。您可以删除和/或拦截来自本网站的Cookie,但这可能影响到网站的正常运行。请查看我们的隐私政策以了解更多信息。