Общение        29.12.2022   

Компьютерный ресурс У SM. Компьютерный ресурс У SM Какие игры пойдут на этом адаптере

Общие характеристики

Тип видеокарты

Современные видеоадаптеры можно условно разбить на три класса, которые будут определять производительность и стоимость видеокарты: бюджетные, бизнес-класс и топовые модели. Бюджетные карты не сильно бьют по карману, но не позволят играть в современные, требовательные к ресурсам игры. Модели бизнес-класса позволят играть во все современные игры, но с ограничением по разрешению изображения, частоте кадров и другим параметрам. Топовые модели дают вам возможность играть в самые передовые игры с максимальным качеством.

офисная Графический процессор NVIDIA GeForce GTX 280 Интерфейс

Тип слота, в который устанавливается видеокарта. Через слот происходит обмен данными между видеокартой и материнской платой. При выборе видеокарты необходимо исходить из того, какой слот используется в вашей материнской плате. Наиболее распространены два типа подключения видеокарт - AGP, PCI-E 16x и PCI-E 1x.Словарь терминов по категории Видеокарты

PCI-E 16x 2.0 Кодовое название графического процессора GT200 Техпроцесс 65 нм Количество поддерживаемых мониторов 2 Максимальное разрешение 2560x1600

Технические характеристики

Частота графического процессора

Частота графического процессора во многом определяет производительность видеосистемы. Однако при повышении частоты работы процессора увеличивается и его тепловыделение. Поэтому для современных высокопроизводительных видеосистем приходится устанавливать мощную систему охлаждения, которая занимает дополнительное место и зачастую создает сильный шум при работе.Словарь терминов по категории Видеокарты

602 МГц Частота шейдерных блоков 1296 МГц Объем видеопамяти 1024 МБ Тип видеопамяти GDDR3 Частота видеопамяти 2210 МГц Разрядность шины видеопамяти 512 бит Частота RAMDAC 400 МГц Поддержка режима SLI/CrossFire есть Поддержка 3-Way SLI есть

Подключение

Разъемы поддержка HDCP, TV-out, компонентный

Математический блок

Число универсальных процессоров 240 Версия шейдеров

Шейдеры - это микропрограммы, которые позволяют воспроизводить такие эффекты как, например, металлический блеск, поверхность воды, реалистичный объемный туман, всевозможные деформации объектов, эффект motion blur (размытие при движении) и т. д. Чем выше версия шейдеров, тем больше у видеокарты возможностей по созданию специальных эффектов.Словарь терминов по категории Видеокарты

4.0 Число текстурных блоков 80 Число блоков растеризации 32 Максимальная степень анизотропной фильтрации

На улице лето, за окном гроза, дует теплый влажный ветер, под боком в стенде стоит новая печка-грелка, извергающая на меня горячий воздух после снятия жара с 280-ти Ватт выделенного тепла, все одно к одному.

Мне нравятся Hi-End ускорители тем, что если его снять с компа сразу после работы (с руганью и дуя на обожженные пальцы), положить во всевозможные предохранительные пакеты, спасающие чудо технику прецизионного качества от повреждений, то даже после перевозки в течение часа — изделие будет теплым, как будто сейчас только что с фабрики или хлебопекарни. И даже иногда горячим. Так что все эти сотни Ватт — это вам не лампочку вывернуть и в кармане донести.

Мы внутри раздела в силу работы и служебных нужд иногда передаем друг другу видеокарты для тестов и прочих исследований, и подчас принимаешь ускоритель, а он внутри почти горячий еще… За время перевозки в машине не успел остыть… :)

Так вот, играм все нужно больше FPS, людям нужно больше красивой графики, а ускорителям нужно больше кушать, и потому компании-производители кулеров будут еще долго при делах, придумывая новые изощренные способы снять жар с огнедышащих драконов квадратной формы и вывести его за пределы корпуса (иногда и просто в корпус, чтобы там все спеклось). Скоро на видеокарты будем надевать такие же огромные 24-пиновые коннекторы, какими подрубаем питание к материнским платам. Уже пойдет речь о трехслотовых видеокартах, которым наверно потребуется уже особое крепление в корпусе. Да, вроде бы техпроцесс все уменьшается, но размеры видеокарт все растут и растут, ибо от них хотят все больше и больше.

Бедная Nvidia сделала очередного монстра, как в 2006 году — G80, чип очень дорогой — это видно по всем параметрам, судя по первой информации — карт в продажу после анонса пойдет очень мало, что говорит о невысоком проценте выхода годных. При этом, чтобы сбить спрос — цену на GTX 280 подняли до небес. Почему бедная? — ну потому что есть разница в ситуации в 2006 году и сейчас. Если тогда реально была нужда в новых супермощных картах, и G80 показал тогда реально революционный прорыв, то теперь это очередные плюс двадцать-тридцать процентов к… 9800 GTX. Да, даже не к 9800 GX2. Ниже мы все покажем детально. Хотя есть и тесты, где GTX 280 является полный лидером. И если ранее реально G80 (8800 GTX) — разбирался как горячие пирожки зимой, то теперь спрос явно будет не таким высоким. Хотя с учетом того, что в начале продаж карт вообще будет очень мало, Nvidia боится и такого спроса, потому цены подняты до 650 долларов США, что явно нелогично, ибо даже 9800 GX2 стоит дешевле.

Ну чтобы интригу разбавить практикой, мы перейдем к изучению карты. Теоретическую часть читатели уже изучили, поняли, что внутри одного такого квадратика со стороной в 3 см находится воплощение суперидей инженеров Nvidia, для которых потребовалось аж почти полтора миллиарда транзисторов, теперь посмотрим на то, а как он выглядит.

Платы

  • GPU: Geforce GTX 280 (GT200)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 600/1300 MHz (номинал — 600/1300 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 512bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 240
  • Число текстурных процессоров: 80 (BLF/TLF)
  • Число ROPs: 32
  • Размеры: 270x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: вынесены в отдельный чип NVIO.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-out.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
Сравнение с эталонным дизайном, вид спереди
Reference Nvidia Geforce GTX 280 1024MB PCI-E
Сравнение с эталонным дизайном, вид сзади
Reference Nvidia Geforce GTX 280 1024MB PCI-E Reference card Nvidia Geforce 9800 GTX

Очевидно, что перед нами совершенно новый дизайн, не похожий ни на что ранее вапускаемое Nvidia, поскольку PCB несет в себе 512-битную шину обмена с памятью. Это заставляет размещать на текстолите 16 микросхем памяти, поэтому потребовался дизайн с двухсторонним монтажом микросхем (по 8 штук на каждой стороне). Поэтому длина карты осталась большой, да и PCB весьма дорогая. Не забываем, что Nvidia снова прибегла к способу разделения блоков GPU, и вынесла все блоки, отвечающие за вывод информации, в отдельную микросхему NVIO, как это было в случае G80 (8800 GTX/Ultra).

Выше показаны GPU и тот самый NVIO. Понятно, что размеры кристалла у GPU намного меньше — он закрыт крышкой, однако можно себе представить площадь ядра, вмещающего в себя почти 1,5 миллиарда транзисторов.

Теперь о кулере. Система охлаждения принципиально не отличается от того варианта, что мы видели еще на Geforce 8800 GTS 512. Да и форма кулера та же самая. Просто выросла длина радиатора в соответствии с размерами самой карты, ну и сзади установлена пластина для охлаждения микросхем памяти на обороте карты. Все устройство собрано так, что создает единый общий большой радиатор из крышек (задняя и передняя крышки защелкиваются, поэтому при разборе видеокарты и снятии кулера есть определенные сложности и нужен некий опыт, чтобы обнажить саму карту, не нанеся повреждений). Опыт создания 9800 GX2 с такими же защелками понравился инженерам.

Напоминаем еще раз важный момент: длина ускорителя — 270 мм, как у 8800 GTX/Ultra, поэтому в корпусе должно быть достаточно места для установки такой конструкции. А также обратим внимание на ширину кожуха, которая неизменна вдоль всей длины, а следовательно на материнской плате за PCI-E x16 разъемом не должно быть никаких портов и высоких конденсаторов, причем на ширину 30 мм (то есть не только за самим слотом PCI-E, но за соседним с ним не должно быть никаких высоких частей на системной плате).

Видеокарты этой серии оснащены гнездом для подключения звукового потока с аудио-карты для передачи его затем на HDMI (с помощью переходника DVI-to-HDMI), то есть сама видеокарта не оснащена аудио-кодеком, но осуществляет прием сигнала от внешней звуковой карты. Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был аудио-шнурок для этих целей.

Также отметим, что питание ускорителя осуществляется с помощью ДВУХ разъемом, причем 6-пинового и 8-пинового. Поэтому также следует обращать внимание на наличие в комплекте поставки переходника питания на 8-пин.

У карты имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуются специальные адаптеры-переходники, поставляемые вместе с картой. Более подробно о ТВ-выходе можно почитать .

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть.

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос , с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться .

Мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) и получили следующие результаты:

Стоит особо обратить внимание на то, на сколько снижаются частоты при работе в 2D (левый маркер на скриншоте) — до 100(!) МГц по шейдерному блоку и по памяти! Это реально снижает потребление карты до 110 Вт. Когда как в 3D при полной нагрузке ускоритель ест все 280 Вт! И при этом нагрев ядра достигает 80 градусов, что укладывается в норму, особенно если учесть, что кулер остается тихим. В этом плане карта безупречна, только лишь нужен очень мощный блок питания. Полагаем, что всем понятно, что ниже 700Вт даже нет смысла пробовать.

Поскольку карта поставляется в ОЕМ-виде как сэмпл, то о комплекте поставки речь не идет.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Zotac 790i Ultra а чипсете Nvidia nForce 790i Ultra;
    • оперативная память 2 GB DDR3 SDRAM Corsair 2000MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.5; Nvidia версии 175.16 (9ххх серия) и 177.34 (GTX 280).

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка .
  • RightMark3D 2.0 с кратким описанием:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce GTX 280 GFGTX280 )
  • Nvidia Geforce 9800 GX2 со стандартными параметрами (далее GF9800GX2 )
  • Nvidia Geforce 9800 GTX со стандартными параметрами (далее GF9800GTX )
  • Nvidia Geforce 8800 Ultra со стандартными параметрами (далее GF8800U )
  • RADEON HD 3870 X2 со стандартными параметрами (далее HD3870X2 )
  • RADEON HD 3870 со стандартными параметрами (далее HD3870 )

Для сравнения результатов Geforce GTX 280 были выбраны именно эти модели видеокарт по следующим причинам: с Geforce 9800 GX2 её будет интересно сравнить, как с быстрейшей двухчиповой картой на GPU предыдущего поколения, с Geforce 9800 GTX — как с одночиповой, со старой моделью Geforce 8800 Ultra сравниваем для того, чтобы посмотреть разницу в пропускной способности, оценить влияние улучшений архитектуры. Ну а с RADEON HD 3870 и HD 3870 X2 сравнение интересно потому, что это быстрейшие одночиповое и двухчиповое решение от AMD на данный момент.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

Как обычно — не у всех видеокарт получаются значения, близкие к теоретическим. Чаще всего, результаты синтетики не дотягивают до теории, ближе всего к ним подбираются видеокарты на основе G80 и RV670, они не добирают до теории лишь 10-15%. А вот для видеокарт Nvidia, отличающихся улучшенными TMU, в нашем старом тесте теоретический максимум не достигается. Причём, не видно никаких улучшений в GT200, что G92 в нашем тесте выбирает лишь около 32 текселей за один такт из 32-битных текстур при билинейной фильтрации, что GT200 не дотягивает до теоретических способностей. Впрочем, возможно, виноват наш устаревший тест.

Тем не менее, Geforce GTX 280 слишком близок к Geforce 9800 GTX, а с одной текстурой он вообще проигрывает даже Geforce 8800 Ultra, несмотря на большую ПСП! А ведь в таких случаях карты ограничены пропускной способностью видеопамяти… В случае с большим количеством текстур на пиксель, способности блоков ROP раскрываются полнее, и в более тяжелых условиях карта на GT200 становится быстрейшей (если учесть некорректный результат теста двухчиповой видеокарты Nvidia). Двухчиповую же карту от AMD новинка опережает во всех протестированных режимах. Посмотрим на результаты в тесте филлрейта:

Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. Странно, что в случаях с 0 и 1 накладываемыми текстурами у Geforce GTX 280 получился такой низкий результат, обычно в таких режимах производительность ограничена ПСП, а также количеством и рабочей частотой блоков ROP. А с этим у нового решения всё в порядке…

Но получается всё так же, как и в предыдущем тесте — лишь в ситуациях с большим количеством текстур на пиксель, Geforce GTX 280 немного выигрывает у ближайших конкурентов, хотя должен бы отрываться сильнее.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:

Все современные чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Собственно, результаты в очередной раз подтверждают то, что чипы AMD быстрее обрабатывают геометрию, по сравнению с чипами Nvidia, а двухчиповые решения в AFR режиме эффективно удваивают частоту кадров. Geforce GTX 280 проигрывает двухчиповым картам, опережает решение на G80 и находится на одном уровне с быстрейшей из одночиповых карт на основе G92. Получается, что этот тест зависит исключительно от тактовой частоты GPU. Что интересно, эффективность выполнения теста в разных режимах у GT200 больше походит на ту, что показывает G80, но не G92.

Мы убрали из рассмотрения промежуточные тесты на скорость обработки геометрии с одним источником освещения, и сразу же переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:

В этом варианте разница между решениями AMD и Nvidia видна лучше, разрыв немного увеличился. Geforce GTX 280 показывает лучший результат из карт Nvidia, чуть-чуть опережая Geforce 9800 GTX и 8800 Ultra, кроме FFP теста, который сейчас уже никого не интересует. В целом, новый чип неплохо проявляет себя в данных геометрических тестах. Но в реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.

Тесты слишком просты для современных архитектур и не показывают их истинную силу. Это хорошо видно по первым двум тестам (Wood и Psychodelic), результаты которых почти на всех решениях одинаковые. Кроме того, в простых тестах производительность ограничена скоростью текстурных выборок, что видно по слабым результатам RADEON HD 3870 X2, показавшем результат на уровне одночиповых решений Nvidia.

В более сложных тестах Geforce GTX 280 показывает неплохие результаты, опережая и топовую карту на G92, и карту на G80. Причём, с увеличением сложности задачи, отрыв GT200 от предыдущих чипов явно растёт. Хотя двухчипового 9800 GX2 карта не догоняет ни в одном из тестов. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:

В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, поэтому карты расположились строго по скорости текстурирования, как было на самом первом графике. Единственный RADEON, даже будучи двухчиповым, отстаёт от всех решений на основе G92, G80 и GT200. Ну а рассматриваемая сегодня видеокарта проигрывает только двухчиповой 9800 GX2, опережая одночиповых собратьев, точно по теории.

Второй тест, более интенсивный вычислительно, явно лучше подходит для архитектуры R6xx и GT200, обладающих большим количеством вычислительных блоков. В этом тесте решение AMD показывает лучший результат, далее следует также двухчиповая карта, но от Nvidia. Но самое приятное в том, что Geforce GTX 280 проигрывает им совсем чуть-чуть! Неплохой результат, GT200 быстрее одного G92 в этом тесте в 1.7 раза, как Nvidia и писала в своих презентациях. А вот эффективности SLI для 9800 GX2 явно не достаёт.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Положение видеокарт в тесте «Frozen Glass» отличается от результатов предыдущих тестов. Несмотря на то, что это математические тесты, зависящие от частоты шейдерных блоков, Geforce GTX 280 выигрывает у 9800 GTX совсем немного, а двухчиповый 9800 GX2 далеко впереди них обоих. Видимо, производительность ограничена не только математикой, но и скоростью текстурных выборок. RADEON HD 3870 X2 показывает самый слабый результат.

Зато во втором тесте «Parallax Mapping» решение AMD заметно сильнее, хоть и снова позади лучших карт Nvidia. Но в этот раз оно проигрывает только новой видеокарте и двухчиповому решению. Улучшения в TMU и внутричиповых кэшах сказались на результате GTX 280, она обогнала двухчиповый RADEON и немного отстаёт от аналогичного решения на двух G92. Рассмотрим эти тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там видеокарты на основе G92 должны показать более высокие относительные результаты:

Положение немного изменилось, мы видим явный упор производительности в скорость текстурных блоков. Geforce GTX 280 во всех тестах прилично опережает решение AMD и немного — всех одночиповых собратьев. А вот впереди всех — двухчиповый Geforce 9800 GX2. Надо заметить, что для всех решений варианты шейдеров с большим количеством математических вычислений работают быстрее в 1.5-2 раза, по сравнению с их «текстурными» вариантами.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье
  • Fur — процедурный шейдер, визуализирующий мех

Хотя решения AMD обеспечивают эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений, Geforce 9800 GTX показывает результат на одном уровне с двухчиповой картой на базе RV670. Это можно объяснить ускоренными билинейными текстурными выборками в архитектуре G9x и большей эффективностью использования имеющихся ресурсов, обусловленную разницей между скалярной и суперскалярной архитектурами.

Двухчиповый Geforce 9800 GX2 почти удваивает производительность, являясь лидером в обоих тестах, ну а рассматриваемый сегодня Geforce GTX 280 логично расположился посередине между этими решениями. Хотелось бы большей разницы между скоростью GT200 и G92, конечно… Хотя бы в 1.6-1.7 раз.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Результаты в «High» получились почти в полтора раза ниже, чем в «Low». В остальном — Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок снова показывают огромное преимущество решений Nvidia над AMD. Производительность в этом тесте зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. Сравнение результатов Geforce 9800 GTX и 8800 Ultra указывает на это.

У героя обзора Geforce GTX 280 очень хорошие результаты в этом тесте, он лишь чуть-чуть отстал от двухчипового Geforce 9800 GX2, обогнав одночиповое решение на G92 на 60-70%. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, но на видеокартах Nvidia скорость снижается чуть сильнее, чем на AMD, за счет чего отрыв между ними сокращается, и HD 3870 вместе с X2 вариантом совсем немного подтягиваются вверх. Но преимущество карт Nvidia никуда не делось, оно подавляющее.

В остальном, с увеличением сложности шейдера и нагрузки на видеочип, разница между Geforce GTX 280 и всеми остальными картами Nvidia очень сильно растёт. Теперь новый GTX опережает старый в 2.5 раза! Вот что значит архитектура, переработанная для исполнения сложнейших шейдеров. Даже двухчиповый 9800 GX2 повержен с большим преимуществом.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Этот тест даже интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Повторилась ситуация предыдущего теста. Хотя решения AMD ранее были сильны в Direct3D 9 тестах parallax mapping, в обновленном D3D10 варианте без суперсэмплинга они не могут справиться с нашей задачей на уровне видеокарт Geforce. Кроме того, включение самозатенения вызывает на продукции AMD большее падение производительности, по сравнению с разницей для решений Nvidia.

Рассматриваемый нами сегодня Geforce GTX 280 уже без включения суперсэмплинга начинает опережать всех, включая Geforce 9800 GX2, обгоняя 9800 GTX и 8800 Ultra в тяжелом режиме более чем в два раза. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростью разных видеокарт уже несколько другая. Включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD улучшают свои показатели относительно решений Nvidia. HD 3870 продолжает отставать от всех Geforce, зато двухчиповый X2 почти на одном уровне с 8800 Ultra и 9800 GTX.

Что касается сравнения Geforce GTX 280 с предыдущими топами на базе одного чипа G80 или G92, они оба повержены с 2-3 кратным преимуществом! А в High режиме новая видеокарта намного быстрее и двухчиповой на G92. Снова просто отличный результат, показывающий, насколько хорошо GT200 разбирается с такими сложнейшими задачами.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Ранее, при анализе результатов наших синтетических тестов, мы не раз отмечали, что в вычислительно сложных задачах современная архитектура AMD показывает себя зачастую лучше конкурирующей от Nvidia. Но время идёт, и ситуация меняется, теперь в соперничестве RADEON HD 3870 и любого из Geforce, решение AMD уступает. Зато двухчиповый HD 3870 X2 хорош (спасибо AFR), почти на одном уровне с двухчиповым же Geforce 9800 GX2.

Но нас с вами сегодня интересует производительность Geforce GTX 280. И она просто отличная, видеокарта на основе нового чипа GT200 почти догоняет двухчиповые карты прошлого поколения, опережая «старую» Geforce 8800 Ultra и «почти новую» Geforce 9800 GTX на 60-70%, что примерно соответствует разнице в чистой мощности шейдерных блоков, их количеству и тактовой частоте.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В общем, в данном тесте скорость рендеринга явно ограничена производительностью шейдерных блоков. Со времени выхода RADEON HD 3870 X2 ошибка в драйверах AMD была исправлена, результат их решений AMD стал подобающим теории, и теперь RADEON HD 3870 в этом тесте показывает скорость даже выше, чем у всех Geforce 8800 и 9800.

Но не Geforce GTX 280, опережающий одночиповых предшественников от Nvidia более чем в 1.5 раза, что также близко к теоретической разнице в шейдерной производительности. Лидером же является двухчиповый RADEON HD 3870 X2. И вероятно, что с появлением новых решений AMD, пальма первенства в математических тестах перейдёт к ним.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Начинается самое интересное, ведь в Nvidia пообещали увеличение эффективности исполнения геометрических шейдеров. Впрочем, график показывает, что первый тест слабо использует эти возможности, и нам придётся подождать второго. Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое. Производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничение скорости мощностью потоковых процессоров в тесте не явное, задача ограничена также и ПСП и филлрейтом, хотя и в меньшей степени.

Geforce GTX 280 показывает результат на уровне двухчиповой RADEON HD 3870 X2, что более чем в два раза быстрее одиночной HD 3870. По скорости среди собратьев от Nvidia, результат анонсированной карты лёг точно между одиночной картой на базе чипа G92 и двухчиповой версией. В целом — не так плохо, хотя хотелось бы достижения производительности 9800 GX2. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится, посмотрим:

Разница между рассмотренными вариантами теста невелика, существенных изменений не произошло. Все видеокарты Nvidia показывают почти те же результаты при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер. Зато результаты обеих видеоплат AMD немного выросли, и RADEON HD 3870 отстаёт уже меньше, а двухчиповая HD 3870 X2 даже немного впереди Geforce GTX 280. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. Производительность Geforce 9800 GX2 в этот раз провалилась куда-то глубоко-глубоко, возможно, на новых драйверах ситуация будет иной. Обе карты производства AMD также отстают от всех решений Nvidia.

Если сравнивать все платы на G80, G92 и GT200, наглядно видно, что упор в тесте получается во что-то отличное от ПСП, филлрейта и вычислительной мощности — все карты практически равны. Хотя и несколько удивительно, что в тяжелом режиме GT200 немного проигрывает G92… Цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Ну вот, дождались! Впервые в геометрических тестах, соотношение скоростей между GT200 и всеми остальными изменилось так, как было задумано инженерами Nvidia, когда они устраняли недостатки предыдущих архитектур. Geforce GTX 280 более чем в два раза быстрее и Geforce 9800 GTX и 8800 Ultra. Мало того, он опережает и двухчиповый RADEON HD 3870 X2. Вероятно, выиграл бы и у 9800 GX2 по-честному, даже без помощи драйверных проблем последнего в этом тесте.

Что касается сравнения результатов в разных режимах, тут всё как всегда, в конкурентной борьбе одночиповой видеоплате AMD не помогает и то, что при переходе от использования «instancing» к геометрическому шейдеру при выводе, видеокарты Nvidia (кроме новой на GT200) теряют в производительности. У всех карт Geforce на основе чипов G92 и G80 скорость в «Balanced» режиме получается выше, чем в «Heavy» у RADEON HD 3870. При этом, получаемая в разных режимах картинка не отличается визуально.

Много интереснее поведение Geforce GTX 280 в «Balanced» и «Heavy». Это — первая видеокарта Nvidia, получившая прирост производительности от переноса части вычислений в геометрический шейдер в данном тесте. Снова налицо работа над ошибками у Nvidia, как это было ранее уже не раз! Кое-кому надо бы поучиться у них, а не продолжать наступать на одни и те же грабли уже которое поколение…

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Судя по предыдущим исследованиям, на результаты этого теста сильно влияет пропускная способность памяти, и чем проще режим, тем большее влияние на скорость она оказывает. Это хорошо заметно по сравнительным результатам Geforce 9800 GTX и Geforce 8800 Ultra, если в простом режиме вторая выигрывает за явным преимуществом в ПСП, в среднем результаты сближаются, а в самом сложном они уже почти равны.

Двухчиповая 9800 GX2 не особо вырывается вперёд, хотя HD 3870 X2 показывает двукратный прирост по сравнению с HD 3870. Вероятно, недостатки драйверов, точнее — режима AFR. Тем не менее, даже Geforce 8800 Ultra показывает результат лучше, чем HD 3870 X2, а за рассматриваемой сегодня Geforce GTX 280 можно закрепить формальное лидерство. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, в лёгком режиме продолжает лидировать GTX 280, но в сложном 9800 GX2 уже выходит вперёд. Впрочем, Geforce GTX 280 всё равно быстрее обоих конкурентов от AMD и немного впереди одночиповых собратьев линеек Geforce 8 и 9. Как и в прошлый раз, по мере усложнения задачи, результаты карт уплотняются.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

А вот тест «Waves» благосклоннее к продукции AMD, одночиповая модель семейства RADEON HD 3800 смотрится неплохо, опережая решение на базе G92 в лёгком режиме, немного уступая в тяжёлом. Ясно видно, что в этом тесте скорость зависит не столько от мощности TMU, сколько от ПСП и филлрейта, так как даже двухчиповая карта на двух G92 показала результат на уровне решения предпредыдущего поколения — Geforce 8800 Ultra. Наш герой Geforce GTX 280 впереди всех в легчайшем режиме, но в остальных двух уступает двухчиповому RADEON. Рассмотрим второй вариант этого же теста:

Изменений немного, но с увеличением сложности теста результаты видеоплат серии RADEON HD 3800 стали ещё чуть лучше относительно скорости карт Nvidia. Последние потеряли в скорости несколько больше. Все остальные выводы также остаются в силе — скорость более всего ограничивается ПСП, в лёгком режиме сильнее, а в тяжёлых большую роль начинают играть блоки TMU и «двухчиповость», поэтому 9800 GX2 догоняет GTX 280, а HD 3870 X2 и вовсе опережает. В тестах VTF положение плат AMD серьёзно улучшилось, если ранее мы замечали, что решения Nvidia лучше справляются с тестами текстурных выборок из вершинных шейдеров, теперь ситуация иная.

Выводы по синтетическим тестам

На основе результатов синтетических тестов Geforce GTX 280, а также других моделей видеокарт обоих основных производителей видеочипов, мы можем сделать вывод, что новое решение Nvidia получилось очень мощным. В синтетических тестах оно значительно опережает по скорости одночиповые варианты предыдущего поколения, иногда до двух раз и даже более, часто борется на равных с двухчиповыми продуктами. Это стало возможным благодаря улучшенной архитектуре GT200 с увеличенным количеством исполнительных блоков ALU, TMU и ROP. Все модификации и улучшения позволяют рассмотренной видеокарте показывать отличные результаты во всех синтетических тестах.

Совсем не только увеличенное количество исполнительных блоков повлияло на рост скорости, но и улучшенная по сравнению с G8x и G9x архитектура, отличающаяся более высокой эффективностью, вычислительной производительностью, важной для современных и будущих приложений с большим количеством сложных шейдеров всех типов. В архитектуру GT200 были внесены изменения почти во все блоки, мощнее стали и шейдерные процессоры, и текстурные и блоки ROP, и многое другое.

Кроме модификаций, направленных на дальнейшее увеличение производительности, Nvidia уделила внимание и устранению досадных недостатков в G8x/G9x. Благодаря этому, видеоплаты на основе чипа GT200 показывают лучшие результаты в условиях очень сложных шейдеров, и особенно — сложных геометрических шейдеров с созданием геометрии «на лету». Это первый видеочип от Nvidia, который получил прирост производительности от переноса части вычислений в геометрический шейдер в одном из наших синтетических тестов. И тем более приятно, что сама компания использует наш тест для внутренних целей.

В целом, новая видеокарта Geforce GTX 280 отлично сбалансирована, особенно для будущих приложений, более требовательных к шейдерной производительности. Она обладает большим количеством всех исполнительных блоков, очень широкой шиной обмена с памятью, а следовательно, и высокой ПСП, на ней установлено оптимальное для high-end решения количество локальной видеопамяти. Технических недостатков у решения не так много, единственное, чего хотелось бы — слегка большей рабочей частоты для видеочипа в целом и шейдерных блоков в частности. Но это — вопрос скорее к технологическому процессу…

Следующая часть нашей статьи содержит тесты нового решения компании Nvidia в современных игровых приложениях. Эти результаты должны примерно соответствовать выводам, сделанным при анализе результатов синтетических тестов, с поправкой на большее влияние филлрейта и ПСП. Скорость рендеринга в играх сильнее зависит от скорости текстурирования и филлрейта, чем от мощности ALU и блоков обработки геометрии. И, судя по результатам в синтетике, можно предположить, что скорость Geforce GTX 280 в играх будет где-то между Geforce 9800 GTX и 9800 GX2, но ближе к последнему. То есть, в среднем, GT200 должен быть быстрее G92 на 60-80%.

Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией

Однако вначале о технических особенностях. Являясь логичным развитием серий GeForce 8 и GeForce 9, представлявших первое поколение унифицированной визуальной вычислительной архитектуры NVIDIA, новинки семейства GeForce GTX 200 выполнены на базе второго поколения этой архитектуры.

Графические процессоры NVIDIA GeForce GTX 280 и 260 представляют собой наиболее массивные и сложные графические чипы из известных доселе – шутка ли, 1,4 миллиарда транзисторов в каждом! Наиболее производительное решение - GeForce GTX 280, обладает 240 шейдерными процессорами, 80 текстурными процессорами, поддерживает до 1 Гб видеопамяти. Подробные характеристики чипов GeForce GTX 280 и GeForce GTX 260 приведены в таблице ниже.

Спецификации NVIDIA GeForce GTX 280 и GTX 260

Графическое ядро
Нормы технологического процесса
Количество транзисторов
Тактовая частота графики (в т.ч. диспетчера, модулей текстур и ROP)
Тактовые частоты процессорных модулей
Количество процессорных модулей
Тактовая частота памяти (частота/данные)

1107 МГц / 2214 МГц

999 МГц / 1998 МГц

Ширина интерфейса памяти
Пропускная способность шины памяти
Объём памяти
Количество модулей ROP
Количество модулей текстурной фильтрации
Производительность модулей текстурной фильтрации

48,2 Гигатекселей/с

36,9 Гигатекселей/с

Поддержка HDCP
Поддержка HDMI

Есть (адаптер DVI-HDMI)

Интерфейсы

2 x Dual-Link DVI-I
1 x 7-контактный HDTV

RAMDAC, МГц
Шина
Форм-фактор

Два слота

Конфигурация разъёмов питания

1 x 8-контактный
1 x 6-контактный

2 x 6-контактных

Максимальное энергопотребление
Граничная температура GPU

Фактически современное графическое ядро семейства GeForce GTX 200 можно представить как универсальный чип, поддерживающий два разных режима – графический и вычислительный. Архитектуру чипов семейств GeForce 8 и 9 обычно представляют массивами масштабируемых процессоров (Scalable Processor Array, SPA). Архитектура чипов семейства GeForce GTX 200 основана на доработанной и улучшенной архитектуре SPA, состоящей из ряда так называемых "кластеров обработки текстур" (TPC, Texture Processing Clusters) в графическом режиме или "кластеров обработки потоков" в режиме параллельного вычисления. При этом каждый модуль TPC состоит из массива потоковых мультипроцессоров (SM, Streaming Multiprocessors), и каждый SM содержит восемь процессорных ядер, также называемых потоковыми процессорами (SP, Streaming Processor), или тредовыми процессорами (TP, Thread Processor). Каждый SM также включает в себя процессоры текстурной фильтрации для графического режима, также используемый для различных операций фильтрации в вычислительном режиме. Ниже представлена блок-схема GeForce 280 GTX в традиционном графическом режиме.

Переключаясь в вычислительный режим, аппаратный диспетчер потоков (вверху) управляет тредами TPC.

Кластер TPC при ближайшем рассмотрении: распределённая память для каждого SM; каждое процессорное ядро SM может распределять данные между другими ядрами SM посредством распределённой памяти, без необходимости обращения к внешней подсистеме памяти.

Таким образом, унифицированная шейдерная и компьютерная архитектура NVIDIA использует две совершенно разные вычислительные модели: для работы TPC используется MIMD (multiple instruction, multiple data), для вычислений SM - SIMT (single instruction, multiple thread), продвинутая версия, SIMD (single instruction, multiple data). Касаясь общих характеристик, по сравнению с предшествовавшими поколениями чипов семейство GeForce GTX 200 обладает следующими преимуществами:

  • Возможность обработки втрое большего количества потоков данных в единицу времени
  • Новый дизайн планировщика выполнения команд, с повышенной на 20% эффективностью обработки текстур
  • 512-битный интерфейс памяти (384 бита у предыдущего поколения)
  • Оптимизированный процесс z-выборки и компрессии для достижения лучших результатов производительности при высоких разрешениях экрана
  • Архитектурные усовершенствования для увеличения производительности при обработке теней
  • Полноскоростной блендинг буфера кадров (против полускоростного у 8800 GTX)
  • Вдвое увеличенный буфер команд для повышения производительности вычислений
  • Удвоенное количество регистров для более оперативного обсчёта длинных и сложных шейдеров
  • Удвоенная точность обсчета данных с плавающей запятой в соответствии со стандартом версии IEEE 754R
  • Аппаратная поддержка 10-битного цветового пространства (только с интерфейсом DisplayPort)
Так выглядит список основных характеристик новых чипов:
  • Поддержка NVIDIA PhysX
  • Поддержка Microsoft DirectX 10, Shader Model 4.0
  • Поддержка технологии NVIDIA CUDA
  • Поддержка шины PCI Express 2.0
  • Поддержка технологии GigaThread
  • Движок NVIDIA Lumenex
  • 128-битные вычисления с плавающей запятой (HDR)
  • Поддержка OpenGL 2.1
  • Поддержка Dual Dual-link DVI
  • Поддержка технологии NVIDIA PureVideo HD
  • Поддержка технологии NVIDIA HybridPower
Отдельно отмечено, что DirectX 10.1 семейством GeForce GTX 200 не поддерживается. Причиной назван тот факт, что при разработке чипов нового семейства, после консультаций с партнёрами, было принято сконцентрировать внимание не на поддержке DirectX 10.1, пока мало востребованного, а на улучшении архитектуры и производительности чипов. Основанная на пакете физических алгоритмов, реализация технологии NVIDIA PhysX представляет собой мощный физический движок для вычислений в реальном времени. В настоящее время поддержка PhysX реализована в более чем 150 играх. В сочетании с мощным GPU, движок PhysX обеспечивает значительное увеличение физической вычислительной мощи, особенно в таких моментах как создание взрывов с разлётом пыли и осколков, персонажей со сложной мимикой, новых видов оружия с фантастическими эффектами, реалистично надетых или разрываемых тканей, тумана и дыма с динамическим обтеканием объектов. Ещё одно немаловажное новшество – новые режимы экономии энергии. Благодаря использованию прецизионного 65 нм техпроцесса и новых схемотехнических решений удалось добиться более гибкого и динамичного контроля энергопотребления. Так, потребление семейства графических чипов GeForce GTX 200 в ждущем режиме или в режиме 2D составляет около 25 Вт; при воспроизведении фильма Blu-ray DVD - около 35 Вт; при полной 3D нагрузке TDP не превышает 236 Вт. Графический чип GeForce GTX 200 может вовсе отключаться благодаря поддержке технологии HybridPower с материнскими платами на HybridPower-чипсетах nForce с интегрированной графикой (например, nForce 780a или 790i), при этом поток графики незначительной интенсивности попросту обсчитывается GPU, интегрированным в системную плату. Помимо этого, GPU семейства GeForce GTX 200 также обладают специальными модулями контроля энергопотребления, призванными отключать блоки графического процессора, не задействованные в данный момент.

Пользователь может конфигурировать систему на базе двух или трёх видеокарт семейства GeForce GTX 200 в режиме SLI при использовании материнских плат на базе соответствующих чипсетов nForce. В традиционном режиме Standard SLI (с двумя видеокартами) декларируется примерно 60-90% прирост производительности в играх; в режиме 3-way SLI – максимальное количество кадров в секунду при максимальных разрешениях экрана.

Следующая инновация – поддержка нового интерфейса DisplayPort с разрешениями выше 2560 х 1600, с 10-битным цветовым пространством (предыдущие поколения графики GeForce обладали внутренней поддержкой 10-битной обработки данных, но выводился только 8-битные компонентные цвета RGB). В рамках анонса новой серии графических процессоров семейства GeForce GTX 200 компания NVIDIA предлагает совершенно по-новому взглянуть на роль центрального и графического процессоров в современной сбалансированной настольной системе. Такой оптимизированный ПК , базирующийся на концепции гетерогенных вычислений (то есть, вычислений потока разнородных разнотипных задач), по мнению специалистов NVIDIA, обладает гораздо более сбалансированной архитектурой и значительно большим вычислительным потенциалом. Имеется в виду сочетание центрального процессора со сравнительно умеренной производительностью с наиболее мощной графикой или даже SLI-системой, что позволяет добиться пиковой производительности в наиболее тяжёлых играх, 3D и медиа приложениях. Иными словами, вкратце концепцию можно сформулировать так: центральный процессор в современной системе берёт на себя служебные функции, в то время как бремя тяжёлых вычислений ложится на графическую систему. Примерно те же выводы (правда, более комплексные и численно обоснованные) наблюдаются в серии наших статей, посвящённых исследованиям зависимости производительности от ключевых элементов системы, см. статьи Процессорозависимость видеосистемы. Часть I - Анализ ; Процессорозависимость видеосистемы. Часть II – Влияние объема кэш-памяти CPU и скорости оперативной памяти ; Ботозависимость, или зачем 3D-играм мощный CPU ; Процессорозависимость видеосистемы. Переходная область. "Критическая" точка частоты CPU . Впрочем, интенсивные вычисления с помощью современных графических видеокарт давно не новость, но именно с появлением графических процессоров семейства GeForce GTX 200 компания NVIDIA ожидает значительного повышения интереса к технологии CUDA. CUDA (Compute Unified Device Architecture) - вычислительная архитектура, нацеленная на решение сложных задач в потребительской, деловой и технической сферах - в любых приложениях, интенсивно оперирующих данными, с помощью графических процессоров NVIDIA. С точки зрения технологии CUDA новый графический чип GeForce GTX 280 это ни что иное как мощный многоядерный (сотни ядер!) процессор для параллельных вычислений. Как было указано выше, графическое ядро семейства GeForce GTX 200 можно представить как чип, поддерживающий графический и вычислительный режимы. В одном из этих режимов – "вычислительном", тот же GeForce GTX 280 превращается в программируемый мультипроцессор с 240 ядрами и 1 Гб выделенной памяти – этакий выделенный суперкомпьютер с производительностью под терафлоп, что в разы повышает результативность работы с приложениями, хорошо распараллеливающими данные, например, кодирование видео, научные вычисления и пр. Графические процессоры семейств GeForce 8 и 9 стали первыми на рынке, поддерживающими технологию CUDA, сейчас их продано более 70 млн. штук и интерес к проекту CUDA постоянно растёт. Подробнее узнать о проекте и скачать файлы, необходимые для начала работы можно . В качестве примера на приведённых ниже скриншотах показаны примеры прироста производительности вычислений, полученные независимыми пользователями технологии CUDA.

Подводя итог нашему краткому исследованию архитектурных и технологических улучшений, реализованных в новом поколении графических процессоров NVIDIA, выделим главные моменты. Второе поколение унифицированной архитектуры визуальных вычислений, реализованное в семействе GeForce GTX 200, является значительным шагом вперёд по сравнению с предшествовавшими поколениями GeForce 8 и 9.

По сравнению с предыдущим лидером GeForce 8800 GTX новый флагманский процессор GeForce GTX 280 обладает в 1,88 раза большим количеством процессорных ядер; способен обрабатывать примерно в 2,5 больше тредов на чип; обладает удвоенным размером файловых регистров и поддержкой вычислений с плавающей запятой с удвоенной точностью; поддерживает 1 Гб памяти с 512-битным интерфейсом; оборудован более эффективным диспетчером команд и улучшенными коммуникационными возможностями между элементами чипа; улучшенным модулем Z-буфера и компрессии, поддержкой 10-битной цветовой палитры и т.д. Впервые новое поколение чипов GeForce GTX 200 изначально позиционируется не только в качестве мощного 3D графического акселератора, но также в качестве серьёзного компьютерного решения для параллельных вычислений. Ожидается, что видеокарты GeForce GTX 280 с 1 Гб памяти появятся в рознице по цене порядка $649, новинки на базе GeForce GTX 260 с 896 Мб памяти – по цене около $449 (или даже $399). Проверить, насколько рекомендованные цены совпадают в реальной розницей, можно будет уже совсем скоро, поскольку по всем данным анонс семейства GeForce GTX 200 отнюдь не "бумажный", решения на этих чипах объявили многие партнёры NVIDIA, и в самом ближайшем времени новинки объявятся на прилавках. Теперь переходим к описанию первой видеокарты GeForce GTX 280, попавшей в нашу лабораторию, и к результатам её тестирования.

Experience high definition worlds, lifelike characters, and forces of nature so powerful that your palms sweat and your heart races with every frame. Beyond games, watch Blu-ray movies and transcode video up to 7X faster than traditional CPUs 1 .

GEFORCE GTX 200 GPUs GAMING BEYOND BEYOND GAMING
Introducing NVIDIA GeForce GTX 280 and GeForce GTX 260

NVIDIA talks with developers about GeForce GTX 200 performance for their games

NVIDIA GeForce GTX 200 GPUs take gaming and effects beyond levels previously seen before

Medusa demo by NVIDIA and NVIDIA® PhysX™ Technology, and NaturalMotion.

More than just games - NVIDIA GeForce GTX 200 GPUs accelerate the latest consumer applications
  • 2nd Generation NVIDIA Unified Architecture: Second generation architecture delivers up to 50% more gaming performance over the first generation through 240 enhanced processing cores that provide incredible shading horsepower.
  • NVIDIA PhysX™-Ready 1: GeForce GPU support for NVIDIA PhysX technology, enabling a totally new class of physical gaming interaction for a more dynamic and realistic experience with GeForce.
  • 3-way NVIDIA SLI® Technology 2: Industry leading 3-way NVIDIA SLI technology offers amazing performance scaling by implementing 3-way AFR (Alternate Frame Rendering) for the world’s fastest gaming solution under Windows Vista with solid, state-of-the-art drivers.
  • NVIDIA CUDA™ Technology 3: CUDA technology unlocks the power of the GPU’s processing cores to accelerate the most demanding system tasks – such as video encoding – delivering up to 7x performance over traditional CPUs.
  • NVIDIA PureVideo® HD Technology 4 The combination of high-definition video decode acceleration and post-processing that delivers unprecedented picture clarity, smooth video, accurate color, and precise image scaling for movies and video.
  • NVIDIA HybridPower™ Technology 5 Lets you switch from the GeForce GTX 280 graphics card to the motherboard GeForce GPU when running non graphically-intensive applications for a quiet, low power PC experience.

1 The GeForce GTX 280 GPU ships with hardware support for NVIDIA PhysX technology. NVIDIA PhysX drivers are required to experience in-game GPU PhysX acceleration. Refer to for more information.
2 NVIDIA SLI-certified versions of GeForce PCI Express GPUs only. A GeForce GTX 280 GPU must be paired with another GeForce GTX 280 GPU (graphics card manufacturer can be different). SLI requires sufficient system cooling and a compatible power supply. Visit www.slizone.com for more information and a listing of SLI-Certified components.
3 Requires application support for CUDA technology.
4 Feature requires supported video software. Features may vary by product.
5 Requires NVIDIA HybridPower™-enabled motherboard.

Note: The below specifications represent this GPU as incorporated into NVIDIA"s reference graphics card design. Graphics card specifications may vary by Add-in-card manufacturer. Please refer to the Add-in-card manufacturers" website for actual shipping specifications.

GPU Engine Specs:

CUDA Cores 240
Graphics Clock (MHz) 602 MHz
Processor Clock (MHz) 1296 MHz
Texture Fill Rate (billion/sec) 48.2

Memory Specs:

Memory Clock (MHz) 1107
Standard Memory Config 1 GB
Memory Interface Width 512-bit
Memory Bandwidth (GB/sec) 141.7

Feature Support:

NVIDIA SLI®-ready* 2-way/3-Way
NVIDIA 3D Vision Ready
NVIDIA PureVideo® Technology** HD
NVIDIA PhysX™-ready
NVIDIA CUDA™ Technology
HybridPower™ Technology
GeForce Boost
Microsoft DirectX 10
OpenGL 2.1
Certified for Windows 7

Display Support:

Maximum Digital Resolution 2560x1600
Maximum VGA Resolution 2048x1536
Standard Display Connectors HDTV
Dual Link DVI
Multi Monitor
HDCP
HDMI Via adapter
Audio Input for HDMI SPDIF

Standard Graphics Card Dimensions:

Height 4.376 inches (111 mm)
Length 10.5 inches (267 mm)
Width Dual-slot

Thermal and Power Specs:

Maximum GPU Temperature (in C) 105 C
Maximum Graphics Card Power (W) 236 W
Minimum Recommended System Power (W) 550 W
Supplementary Power Connectors 6-pin & 8-pin

The number of processor cores may vary by model.
- Feature requires supported video software. Features may vary by product.
- Playback of HDCP-protected content requires other HDCP-compatible components.
- Certain GeForce GPUs ship with hardware support for NVIDIA PhysX technology. NVIDIA PhysX drivers are required to experience in-game GPU PhysX acceleration. Refer to www..
- NVIDIA SLI certified versions of GeForce PCI Express GPUs only. A GeForce GPU must be paired with an identical GPU, regardless of graphics card manufacturer. SLI requires sufficient system cooling and a compatible power supply. Visit www.slizone.com for more information and a listing of SLI-Certified components.
- Requires external DisplayPort transmitter. 10-bit per component scanout requires future GeForce driver support.
- Memory interface width may vary by model.
- Requires NVIDIA HybridPower™- enabled motherboard.

Наиболее производительным одночиповым решением доселе являлся GeForce GTX 280 - обладает 240 шейдерными процессорами, 80 текстурными процессорами, поддерживает до 1 Гб видеопамяти. Фактически современное графическое ядро семейства GeForce GTX 200 можно представить как универсальный чип, поддерживающий два разных режима – графический и вычислительный. Архитектуру чипов семейств GeForce 8 и 9 обычно представляют массивами масштабируемых процессоров (Scalable Processor Array, SPA). Архитектура чипов семейства GeForce GTX 200 основана на доработанной и улучшенной архитектуре SPA, состоящей из ряда так называемых "кластеров обработки текстур" (TPC, Texture Processing Clusters) в графическом режиме или "кластеров обработки потоков" в режиме параллельного вычисления.

При этом каждый модуль TPC состоит из массива потоковых мультипроцессоров (SM, Streaming Multiprocessors), и каждый SM содержит восемь процессорных ядер, также называемых потоковыми процессорами (SP, Streaming Processor), или тредовыми процессорами (TP, Thread Processor). Каждый SM также включает в себя процессоры текстурной фильтрации для графического режима, также используемый для различных операций фильтрации в вычислительном режиме.

Ниже представлена блок-схема GeForce 280 GTX в традиционном графическом режиме.

Переключаясь в вычислительный режим, аппаратный диспетчер потоков (вверху) управляет тредами TPC.

Кластер TPC при ближайшем рассмотрении: распределённая память для каждого SM; каждое процессорное ядро SM может распределять данные между другими ядрами SM посредством распределённой памяти, без необходимости обращения к внешней подсистеме памяти.

Таким образом, унифицированная шейдерная и компьютерная архитектура NVIDIA использует две совершенно разные вычислительные модели: для работы TPC используется MIMD (multiple instruction, multiple data), для вычислений SM - SIMT (single instruction, multiple thread), продвинутая версия, SIMD (single instruction, multiple data).
Касаясь общих характеристик, по сравнению с предшествовавшими поколениями чипов семейство GeForce GTX 200 обладает следующими преимуществами:

Возможность обработки втрое большего количества потоков данных в единицу времени
Новый дизайн планировщика выполнения команд, с повышенной на 20% эффективностью обработки текстур
512-битный интерфейс памяти (384 бита у предыдущего поколения)
Оптимизированный процесс z-выборки и компрессии для достижения лучших результатов производительности при высоких разрешениях экрана
Архитектурные усовершенствования для увеличения производительности при обработке теней
Полноскоростной блендинг буфера кадров (против полускоростного у 8800 GTX)
Вдвое увеличенный буфер команд для повышения производительности вычислений
Удвоенное количество регистров для более оперативного обсчёта длинных и сложных шейдеров
Удвоенная точность обсчета данных с плавающей запятой в соответствии со стандартом версии IEEE 754R
Аппаратная поддержка 10-битного цветового пространства (только с интерфейсом DisplayPort)

Так выглядит список основных характеристик новых чипов:

Поддержка NVIDIA PhysX
Поддержка Microsoft DirectX 10, Shader Model 4.0
Поддержка технологии NVIDIA CUDA
Поддержка шины PCI Express 2.0
Поддержка технологии GigaThread
Движок NVIDIA Lumenex
128-битные вычисления с плавающей запятой (HDR)
Поддержка OpenGL 2.1
Поддержка Dual Dual-link DVI
Поддержка технологии NVIDIA PureVideo HD
Поддержка технологии NVIDIA HybridPower

Отдельно отмечено, что DirectX 10.1 семейством GeForce GTX 200 не поддерживается. Причиной назван тот факт, что при разработке чипов нового семейства, после консультаций с партнёрами, было принято сконцентрировать внимание не на поддержке DirectX 10.1, пока мало востребованного, а на улучшении архитектуры и производительности чипов.

Основанная на пакете физических алгоритмов, реализация технологии NVIDIA PhysX представляет собой мощный физический движок для вычислений в реальном времени. В настоящее время поддержка PhysX реализована в более чем 150 играх. В сочетании с мощным GPU, движок PhysX обеспечивает значительное увеличение физической вычислительной мощи, особенно в таких моментах как создание взрывов с разлётом пыли и осколков, персонажей со сложной мимикой, новых видов оружия с фантастическими эффектами, реалистично надетых или разрываемых тканей, тумана и дыма с динамическим обтеканием объектов.

К реализации физических эффектов в играх уже давно стремятся многие девелоперы и разработчики игр. С каждым годом это направление становится все актуальнее. В современных играх взаимодействие объектов с окружающей средой осуществляется силами двух движков, набравших наибольшую популярность - Havok и PhysX.

Havok является старейшим движком, на котором пишется немало игр под PC и консоли. Еще в далеком 2006 году, тогда еще независимая ATI, демонстрировала ускорение физических эффектов силами видеокарт Radeon X1900XT. Однако позже Havok купила компания Intel, которая заявила, что физические эффекты будут рассчитываться данным движком силами процессоров.

PhysX был разработан компанией AGEIA, которая реализовывала "физику" акселераторами собственной разработки. Но так сложилось, что, не смотря на большую популярность этого движка среди разработчиков игр, реализация физических эффектов в играх силами специализированных ускорителей оказалась весьма спорной.

И вот в прошлом году компания NVIDIA купила AGEIA PhysX. Были сделано заявление, что посредством оптимизации драйверов движок PhysX будет адаптирован под использование видеокарт GeForce 8800GT и выше.

Ещё одно немаловажное новшество – новые режимы экономии энергии. Благодаря использованию прецизионного 65 нм техпроцесса и новых схемотехнических решений удалось добиться более гибкого и динамичного контроля энергопотребления. Так, потребление семейства графических чипов GeForce GTX 200 в ждущем режиме или в режиме 2D составляет около 25 Вт; при воспроизведении фильма Blu-ray DVD - около 35 Вт; при полной 3D нагрузке TDP не превышает 236 Вт. Графический чип GeForce GTX 200 может вовсе отключаться благодаря поддержке технологии HybridPower с материнскими платами на HybridPower-чипсетах nForce с интегрированной графикой (например, nForce 780a или 790i), при этом поток графики незначительной интенсивности попросту обсчитывается GPU, интегрированным в системную плату. Помимо этого, GPU семейства GeForce GTX 200 также обладают специальными модулями контроля энергопотребления, призванными отключать блоки графического процессора, не задействованные в данный момент.

Пользователь может конфигурировать систему на базе двух или трёх видеокарт семейства GeForce GTX 200 в режиме SLI при использовании материнских плат на базе соответствующих чипсетов nForce. В традиционном режиме Standard SLI (с двумя видеокартами) декларируется примерно 60-90% прирост производительности в играх; в режиме 3-way SLI – максимальное количество кадров в секунду при максимальных разрешениях экрана.

В рамках анонса новой серии графических процессоров семейства GeForce GTX 200 компания NVIDIA предлагает совершенно по-новому взглянуть на роль центрального и графического процессоров в современной сбалансированной настольной системе. Такой оптимизированный ПК, базирующийся на концепции гетерогенных вычислений (то есть, вычислений потока разнородных разнотипных задач), по мнению специалистов NVIDIA, обладает гораздо более сбалансированной архитектурой и значительно большим вычислительным потенциалом. Имеется в виду сочетание центрального процессора со сравнительно умеренной производительностью с наиболее мощной графикой или даже SLI-системой, что позволяет добиться пиковой производительности в наиболее тяжёлых играх, 3D и медиа приложениях.

прочем, интенсивные вычисления с помощью современных графических видеокарт давно не новость, но именно с появлением графических процессоров семейства GeForce GTX 200 компания NVIDIA ожидает значительного повышения интереса к технологии CUDA.

CUDA (Compute Unified Device Architecture) - вычислительная архитектура, нацеленная на решение сложных задач в потребительской, деловой и технической сферах - в любых приложениях, интенсивно оперирующих данными, с помощью графических процессоров NVIDIA. С точки зрения технологии CUDA новый графический чип GeForce GTX 280 это ни что иное как мощный многоядерный (сотни ядер!) процессор для параллельных вычислений.

Как было указано выше, графическое ядро семейства GeForce GTX 200 можно представить как чип, поддерживающий графический и вычислительный режимы. В одном из этих режимов – "вычислительном", тот же GeForce GTX 280 превращается в программируемый мультипроцессор с 240 ядрами и 1 Гб выделенной памяти – этакий выделенный суперкомпьютер с производительностью под терафлоп, что в разы повышает результативность работы с приложениями, хорошо распараллеливающими данные, например, кодирование видео, научные вычисления и пр.

Графические процессоры семейств GeForce 8 и 9 стали первыми на рынке, поддерживающими технологию CUDA, сейчас их продано более 70 млн. штук и интерес к проекту CUDA постоянно растёт. Подробнее узнать о проекте и скачать файлы, необходимые для начала работы можно здесь. В качестве примера на приведённых ниже скриншотах показаны примеры прироста производительности вычислений, полученные независимыми пользователями технологии CUDA.

По сравнению с предыдущим лидером GeForce 8800 GTX новый флагманский процессор GeForce GTX 280 обладает в 1,88 раза большим количеством процессорных ядер; способен обрабатывать примерно в 2,5 больше тредов на чип; обладает удвоенным размером файловых регистров и поддержкой вычислений с плавающей запятой с удвоенной точностью; поддерживает 1 Гб памяти с 512-битным интерфейсом; оборудован более эффективным диспетчером команд и улучшенными коммуникационными возможностями между элементами чипа; улучшенным модулем Z-буфера и компрессии, поддержкой 10-битной цветовой палитры и т.д.

Впервые новое поколение чипов GeForce GTX 200 изначально позиционируется не только в качестве мощного 3D графического акселератора, но также в качестве серьёзного компьютерного решения для параллельных вычислений.

Характеристики NVIDIA GeForce GTX 280

Наименование GeForce GTX 280
Ядро GT200 (D10U-30)
Техпроцесс (мкм) 0.065
Транзисторов (млн) 1400
Частота работы ядра 602
Частота работы памяти (DDR) 1107
Шина и тип памяти GDDR3 512-bit
ПСП (Гб/с) 141,67
Унифицированные шейдерные блоки 240
Частота унифицированных шейдерных блоков 1296
TMU на конвейер 80
ROP 32
Shaders Model 4.0
Fill Rate (Mtex/s) 48160
DirectX 10
Интерфейс PCIe 2.0

Революции не произошло, новый графический процессор GT200 и протестированная сегодня видеокарта GeForce 280GTX(285GTX , 295GTX) являются дальнейшим развитием унифицированной шейдерной архитектуры от компании NVIDIA. Новый графический процессор содержит большее количество функциональных блоков, чем у предшественников, что даёт ему право называться мощнейшим GPU на сегодняшний день.