Архитектура NVIDIA Ampere
Архитектура NVIDIA Ampere, представленная в 2020 году, разработана для высокопроизводительных вычислений, искусственного интеллекта (ИИ) и машинного обучения (ML). Включает потребительские GPU GeForce RTX 30 и серверные ускорители A100.
Используемые технологии
Тензорные ядра (Tensor Cores) 3-го поколения
Оптимизированы для матричных операций, критичных в нейросетевом обучении. Поддерживают TF32 для ускоренного обучения и FP64 для вычислений двойной точности. TF32 сочетает скорость FP16 и точность FP32, что значительно ускоряет процесс обучения без необходимости изменения кода. FP64 расширяет возможности Ampere в научных и инженерных расчетах, позволяя выполнять сложные вычисления с высокой точностью. Эти ядра также поддерживают структурную разреженность, что удваивает пропускную способность операций матричного умножения.
RT-ядра (RT Cores) 2-го поколения
Аппаратные блоки трассировки лучей, обеспечивающие удвоенную скорость обработки отражений и теней по сравнению с Turing. Улучшенный алгоритм обработки BVH (Bounding Volume Hierarchy) снижает задержки при расчётах освещения, а поддержка функции Shader Execution Reordering (SER) позволяет более эффективно распределять вычислительные ресурсы. RT-ядра также оптимизированы для использования с DLSS, что повышает производительность в сценах с интенсивной трассировкой лучей.
CUDA-ядра
Обеспечивают параллельные вычисления. В Ampere увеличена плотность FP32-блоков, что повышает производительность в инженерных и научных задачах. Улучшенная архитектура позволяет исполнять больше инструкций FP32 за такт, что особенно важно для симуляций, финансовых расчетов и аналитики больших данных. В комбинации с оптимизированным кэшированием и увеличенной пропускной способностью памяти это делает Ampere эффективным решением для широкого спектра вычислительных нагрузок.
Архитектурные улучшения
8-нм технологический процесс
Производство на фабриках Samsung с плотностью транзисторов выше, чем у 12-нм чипов Turing. Например, GA102 (RTX 3090) содержит 28 млрд транзисторов.
PCIe 4.0
Поддержка интерфейса PCI Express 4.0, удваивающего пропускную способность до 32 ГБ/с.
NVLink 3-го поколения
Обеспечивает пропускную способность до 600 ГБ/с в серверных решениях, позволяя объединять до 8 GPU.
Multi-Instance GPU (MIG)
Разделяет GPU на 7 изолированных экземпляров в A100, что оптимально для облачных сервисов и HPC.
Структурная разреженность (Structural Sparsity)
Оптимизирует вычисления ИИ, позволяя ускорять операции за счёт отбрасывания избыточных данных.
Оптимизация вычислений
Streaming Multiprocessor (SM)
Включает переработанную архитектуру с увеличенным числом блоков FP32 и возможностью одновременной работы RT- и шейдерных задач.
Shader Execution Reordering (SER)
Уменьшает задержки в трассировке лучей, повышая эффективность вычислений в сложных сценах.
RTX IO
Обеспечивает ускоренную загрузку и декомпрессию данных SSD в GPU, снижая нагрузку на процессор.
Применение
Архитектура используется в обучении нейросетей, моделировании и развитии технологий искусственного интеллекта (A100, NVIDIA DGX). Также она применяется в вычислительной физике, климатическом моделировании и финансовых прогнозах.
Основные модели
- NVIDIA A100 – серверный ускоритель для ИИ и научных вычислений.
- GeForce RTX 3090/3080 – решения для профессионалов в графике и контенте.