AI学院

点亮AI之晖，解码AI奥秘，探索AI发展的可能

NVIDIA GPU H100架构深度解析

2025-07-09

NVIDIA H100 GPU 是英伟达于2022年3月GTC技术大会上发布的第九代数据中心级GPU，基于全新 Hopper架构，取代了前代Ampere架构（A100）。

从 “算力孤岛” 到 “最优解引擎”：揭秘 AI 集群跑出极致性能的全栈破局之道

2025-07-07

AI 算力集群的最优解本质是 “算力 - 通信 - 存储” 的协同优化，需从系统工程视角整合硬件架构、软件栈、算法设计及管理流程。通过上述策略，可将集群算力利用率从常见的 30%-50% 提升至 70% 以上，同时降低单位计算成本。最终目标是在预算约束下，实现 “更高算力利用率、更低训练成本、更快模型迭代” 的闭环优化。

10 万卡 H100 算力集群构建：从技术挑战到实施方案

2025-06-02

建设10万卡集群的必要性不言而喻，当前AI公司第一梯队的门票已经是3.2万卡集群。预计明年，这一数字将上升至10万卡(H100)集群，提升空间巨大。

H20 不同显存版本：性能差异与大模型适配性深度剖析

2025-03-31

英伟达 H20 的 96GB 与 141GB 显存版本差异显著。141GB 版本或具更高带宽，数据传输更快。性能上，处理多并发深度学习推理请求，96GB 版单卡每秒处理 20 - 30 个并发请求，每秒处理 Token 数 2000 - 3000 个；141GB 版分别为 30 - 40 个与 3000 - 4000 个。两者均适配主流大模型，如 DeepSeek、GPT - 3 等，但 141GB 版处理参数多、序列长的复杂任务更稳定高效，用户应按需选择。

软硬协同：主流型号部署 DeepSeek 的性能全景

2025-03-31

部署DeepSeek满血版，英伟达H200等性能卓越，H200单卡每秒处理50 - 80并发请求，处理Token数可观。国产如壁仞BR100等也各有表现。实际部署需综合任务规模、预算等，权衡选择适配硬件，以达最佳性能。

H200和H100哪个更适合深度学习?

2025-03-31

H200与H100均为深度学习高端GPU，H200凭借141GB HBM3e显存（比H100高76%）和4.8TB/s带宽，更适合超大规模模型（如GPT-4、Llama 3）的端到端训练，能效比提升30%，长期TCO降低50%。H100则以80GB显存、3.35TB/s带宽和2.5万美元单价，在中小型模型（如BERT）、中等推理任务中性价比更优。决策需考量模型规模（超大规模选H200）、预算（H100成本低）、扩展性（H200支持256卡集群）及中国市场出口限制。

NVIDIA H100与A100有什么区别？

2025-02-11

NVIDIA H100与A100的主要区别在于：H100采用更先进的Hopper架构和4纳米工艺，性能大幅提升，尤其适合大规模AI训练；而A100基于Ampere架构和7纳米工艺，性价比高，适用于传统AI任务和中小规模计算。选择需结合任务规模和预算考量。

"英伟达GPU稀疏算力革命：重塑AI效率，引领成本降低新纪元"

2024-12-17

英伟达GPU的稀疏算力技术，通过稀疏张量核心和细粒度结构化稀疏，有效处理神经网络中的零值矩阵，提升AI任务效率，降低计算成本和内存带宽需求，实现高达数倍的性能提升和成本降低，具有广泛的应用前景。

"深度解析：GPU算力综合指标，揭秘高性能计算的奥秘"

2024-12-17

GPU算力指的是GPU在执行计算任务时的性能表现，通常用每秒钟能够执行的计算量来衡量。主要分为浮点运算能力，核心数量及架构，内存带宽与显存，频率及特定应用性能。它是评估GPU在图形渲染、机器学习、科学计算等方面处理能力的重要指标。

GPU算力深度解析：从理论峰值到实际应用的全面评估

2024-12-16

GPU（图形处理器）的算力是衡量其每秒能执行多少浮点运算的指标，通常使用FLOPS（Floating-Point Operations Per Second，每秒浮点运算次数）来表示。GPU算力的计算方式主要基于以下几个关键因素：计算核心个数、核心频率以及核心单时钟周期能力

深入理解FP32与FP16算力精度：解锁深度学习的高效与精准

2024-12-16

本文深入探讨了FP32与FP16两种算力精度在科学计算和深度学习中的应用。FP32以高精度著称，适用于科学计算；而FP16则凭借高效内存和计算速度成为深度学习优选。此外，还介绍了混合精度训练及其他算力精度格式，以满足不同场景需求。

算力到底是什么？

2024-12-13

算力是计算机执行计算任务的能力，分为基础算力、智算、超算及新一代算力。单位包括OPS、TOPS、FLOPS、MIPS、DMIPS及Hash/s等，用于量化性能。算力在推动科技进步和经济发展中扮演重要角色。

首页
«
1
2
3
4
5
»
尾页

共 5 页 58 条数据