Выпуск нового в оборудования, учет рыночных тенденций и внимательное отношение к потребностям пользователей помогают нам разрабатывать новые продукты для более эффективного решения задач корпоративных клиентов. На смену устаревшей серии GTX10 и дефицитной RTX30 пришли наследницы серии Quadro — GPU A4000 и А5000. Именно за счет серверов с новыми видеокартами мы расширили свой серверный парк и предлагаем вам оценить производительность и экономичность нового решения.
Все новые GPU NVIDIA создаются на базе текущей архитектуры Ampere.
Ampere использует 8-нм техпроцесс от Samsung и поддерживает высокоскоростную память GDDR6, HBM2 и GDDR6X. Память GDDR6X является шестым поколением памяти DDR SDRAM и может достигать скорости до 21 Гбит/с. В А5000 и А4000 Nvidia использует ядра RT 2-го поколения и тензорные ядра 3-го поколения, позволяющие обеспечить двукратный прирост производительности по сравнению со старыми ядрами Turing. GPU карты используют стандарт PCIe Gen 4, что позволяет убрать узкие места при обмене данными с GPU.
В Ampere используется новая версия CUDA 8+. На чипе теперь есть два потоковых мультипроцессора FP32, что обеспечивает рост производительности FP32 по сравнению с картами на базе Turing. Старшие GPU A5000 и выше поддерживают NVLink 3.0 для объединения карт парами - это приводит к кратному увеличению производительности.
Видеокарты NVIDIA RTX A4000 и RTX A5000 были анонсированы в апреле 2021 года.
Quadro RTX 4000 | GTX 1080 ti | NVIDIA RTX A4000 | NVIDIA RTX A5000 | RTX 3090 | |
---|---|---|---|---|---|
Архитектура | Turing | Pascal | Ampere | Ampere | Ampere |
Техпроцесс | 12 nm FinFET | 16 нм FinFET | 8 нм | 8 нм | 8 нм |
Графический процессор | TU104 | GP102 | GA102 | GA104 | GA102 |
Количество транзисторов | 11,800 млн | 13,600 млн | 17,400 млн | 28,300 млн | 28,300 млн |
Пропускная способность памяти | 416.0 Гб/с | 484 Гб/с | 448 GB/s | 768 GB/s | 936.2 Гб/с |
Разрядность шины видеопамяти | 256 бит | 352 бит | 256 бит | 384 бит | 384 бит |
Память GPU | 8 Гб GDDR6 | 11 ГБ GDDR5X | 16 ГБ GDDR6 | 24 ГБ GDDR6 | 24 ГБ GDDR6X |
Память ECC | нет | нет | да | да | нет |
Ядра CUDA | 2304 | 3584 | 6 144 | 8192 | 10496 |
Тензорные ядра | 288 | 192 | 256 | 328 | |
Ядра RT | 36 | 48 | 64 | 82 | |
SP perf | 7.1 терафлопс | 19,2 терафлопс | 27,8 терафлопс | 35,6 терафлопс | |
RT Core performance | нет | нет | 37,4 терафлопс | 54,2 терафлопс | 69,5 терафлопс |
Tensor performance | 57.0 терафлопс | 153,4 терафлопс | 222,2 терафлопс | 285 терафлопс | |
Максимальная мощность | 160 Вт | 250 Вт | 140 Вт | 230 Вт | 350 Вт |
Интерфейс | PCIe 3.0 x16 | PCI Express 3.0 x16 | PCI-E 4.0 x16 | PCI-E 4.0 x16 | PCIe 4.0 x16 |
Разъемы | ДП 1.4 (3) | ДП 1.4 (4) | ДП 1.4 (4) | ДП 1.4 (4) | |
Форм-фактор | 1 слот | 2 слота | 1 слот | 2 слота | 2-3 слота |
Программное обеспечение vGPU | нет | нет | нет | есть неограниченно | есть с ограничениями |
Nvlink | нет | нет | нет | 2x RTX A5000 | есть |
Поддержка CUDA | 7.5 | 6.1 | 8.6 | 8.6 | 8.6 |
Поддержка VULKAN | есть, 1.2.131 | есть, 1.2.131 | есть | есть | есть, 1.2 |
Цена (руб.) | 115 000 | 66 000 | 125 000 | 190 000 | 215 000 |
На новых картах куда больше памяти, это позволяет эффективно работать с нейросетями и изображениями.
Другим существенным отличием RTX A4000 и RTX A5000 является аппаратное ускорение размытия движения, позволяющее значительно сократить время и затраты на при рендеринге.
В старших картах от RTX A5000 есть поддержка vGPU - NVIDIA RTX vWS что позволяет обеспечить совместное использование вычислительных ресурсов и виртуальных GPU несколькими пользователями.
В среднем новые видеокарты NVIDIA обгоняют по производительности старую линейку Quadro в 1,5-2 раза и потребляют меньше электричества.
Тестирование HOSTKEY
Мы провели собственное тестирование профессиональных видеокарт NVIDIA RTX A5000 и A4000 и сравнили их с RTX 3090 и Quadro RTX 4000 – представителем предыдущего поколения профессиональных видеокарт компании NVIDIA.
Описание тестовой среды:
- Процессор OctaCore Intel Xeon E-2288G, 3,5 GHz
- 32 GB DDR4-3200 ECC DDR4 SDRAM 1600 МГц
- Samsung SSD 980 PRO 1TB (1000 GB, PCI-E 4.0 x4)
- Серверная материнская плата Asus P11C-I Series (1 PCI-E x16, 1 M.2, 2 DDR4 DIMM, 2x Gigabit LAN + IPMI)
- Microsoft Windows 10 Professional 64-разрядная.
Tест V-Ray GPU RTX
Tест V-Ray GPU CUDA
Тесты V-Ray GPU CUDA и RTX позволяют измерить относительную производительность GPU при рендеринге. GPU RTX A4000 и RTX A5000 значительно превосходят по производительности Quadro RTX 4000 и GeForce GTX 1080 Ti (тест V-Ray GPU RTX на этой карте провести невозможно, т.к. она не поддерживает технологию RTX), но уступают RTX 3090, что объясняется высокой пропускной способностью памяти (936.2 Гб/с против 768.0 Гб/с у RTX A5000) и количеством потоковых процессоров (10496 против 8192 у RTX A5000).
«Собаки против кошек»
Для сравнения производительности GPU для нейросетей мы используем набор данных «Собаки против кошек» - тест анализирует содержимое фотографии и различает изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Мы запускали этот тест на разных GPU и в различных облачных сервисах, получили следующие результаты:
Полный цикл обучения
Полный цикл обучения тесовой нейросети занял от 5 до 30 минут. Результат NVIDIA RTX A5000 и A4000 составил 07:30 и 9:10 минут соответственно. Быстрее единичных NVIDIA RTX A5000 и A4000 работал только GPU сервер с 8 картами GeForce RTX 2080Ti и потреблением электричества около 2 кВт/час . Видеокарты Tesla V100 прошлого поколения доступны в сервисах Google Cloud Compute Engine, Microsoft Azure и Amazon Web Services и показали наилучший результат из протестированных там карт.
Сколько стоит обучить нейросеть в разных местах?
На графике представлена стоимость обучения модели с использованием различных сервисов для следующих конфигураций:
- AWS - AWS p3.2xlarge
- Google Cloud - GCP Compute Engine
- Microsoft Azure - Tesla V100
- HOSTKEY - RTX А4000, RTX A5000
Заключение
Новые профессиональные видеокарты NVIDIA RTX A5000 и A4000 являются оптимальным решением для использования в GPU-серверах и позволяют выполнять сложные вычисления, производить быструю обработку больших массивов данных.
Переход на новую архитектуру Ampere позволил значительно увеличить производительность новых профессиональных видеокарт компании NVIDIA. Улучшенные тензорные ядра и ядра RT значительно улучшают качество и возможности трассировки лучей в реальном времени. Объем памяти в 16 Гб у NVIDIA RTX A4000 и 24 Гб у RTX A5000 позволяет обрабатывать большие массивы данных. Мостик NVLink для A5000 объединяет две карты в одну, что позволяет работать с 48Гб высокопроизводительной памяти.
Лицензия на драйверы NVIDIA для профессиональных GPU никак не ограничивает их использование в центрах обработки данных, в отличие от их игровых версий.
HOSTKEY рекомендует использовать современные выделенные и виртуальные GPU сервера для рендеринга сцен, транскодинга видео, обучения нейросетей и обработки данных уже обученными сетями. Если есть стабильный большой объем данных для обработки - аренда выделенных GPU серверов может на порядок повысить скорость обработки за те же деньги или сэкономить на инфраструктуре существенные финансовые ресурсы.