Тесты gtx 280 пользователями после покупки. Компьютерный ресурс У SM

Наиболее производительным одночиповым решением доселе являлся GeForce GTX 280 - обладает 240 шейдерными процессорами, 80 текстурными процессорами, поддерживает до 1 Гб видеопамяти. Фактически современное графическое ядро семейства GeForce GTX 200 можно представить как универсальный чип, поддерживающий два разных режима – графический и вычислительный. Архитектуру чипов семейств GeForce 8 и 9 обычно представляют массивами масштабируемых процессоров (Scalable Processor Array, SPA). Архитектура чипов семейства GeForce GTX 200 основана на доработанной и улучшенной архитектуре SPA, состоящей из ряда так называемых "кластеров обработки текстур" (TPC, Texture Processing Clusters) в графическом режиме или "кластеров обработки потоков" в режиме параллельного вычисления.

При этом каждый модуль TPC состоит из массива потоковых мультипроцессоров (SM, Streaming Multiprocessors), и каждый SM содержит восемь процессорных ядер, также называемых потоковыми процессорами (SP, Streaming Processor), или тредовыми процессорами (TP, Thread Processor). Каждый SM также включает в себя процессоры текстурной фильтрации для графического режима, также используемый для различных операций фильтрации в вычислительном режиме.

Ниже представлена блок-схема GeForce 280 GTX в традиционном графическом режиме.

Переключаясь в вычислительный режим, аппаратный диспетчер потоков (вверху) управляет тредами TPC.

Кластер TPC при ближайшем рассмотрении: распределённая память для каждого SM; каждое процессорное ядро SM может распределять данные между другими ядрами SM посредством распределённой памяти, без необходимости обращения к внешней подсистеме памяти.

Таким образом, унифицированная шейдерная и компьютерная архитектура NVIDIA использует две совершенно разные вычислительные модели: для работы TPC используется MIMD (multiple instruction, multiple data), для вычислений SM - SIMT (single instruction, multiple thread), продвинутая версия, SIMD (single instruction, multiple data).
Касаясь общих характеристик, по сравнению с предшествовавшими поколениями чипов семейство GeForce GTX 200 обладает следующими преимуществами:

Возможность обработки втрое большего количества потоков данных в единицу времени
Новый дизайн планировщика выполнения команд, с повышенной на 20% эффективностью обработки текстур
512-битный интерфейс памяти (384 бита у предыдущего поколения)
Оптимизированный процесс z-выборки и компрессии для достижения лучших результатов производительности при высоких разрешениях экрана
Архитектурные усовершенствования для увеличения производительности при обработке теней
Полноскоростной блендинг буфера кадров (против полускоростного у 8800 GTX)
Вдвое увеличенный буфер команд для повышения производительности вычислений
Удвоенное количество регистров для более оперативного обсчёта длинных и сложных шейдеров
Удвоенная точность обсчета данных с плавающей запятой в соответствии со стандартом версии IEEE 754R
Аппаратная поддержка 10-битного цветового пространства (только с интерфейсом DisplayPort)

Так выглядит список основных характеристик новых чипов:

Поддержка NVIDIA PhysX
Поддержка Microsoft DirectX 10, Shader Model 4.0
Поддержка технологии NVIDIA CUDA
Поддержка шины PCI Express 2.0
Поддержка технологии GigaThread
Движок NVIDIA Lumenex
128-битные вычисления с плавающей запятой (HDR)
Поддержка OpenGL 2.1
Поддержка Dual Dual-link DVI
Поддержка технологии NVIDIA PureVideo HD
Поддержка технологии NVIDIA HybridPower

Отдельно отмечено, что DirectX 10.1 семейством GeForce GTX 200 не поддерживается. Причиной назван тот факт, что при разработке чипов нового семейства, после консультаций с партнёрами, было принято сконцентрировать внимание не на поддержке DirectX 10.1, пока мало востребованного, а на улучшении архитектуры и производительности чипов.

Основанная на пакете физических алгоритмов, реализация технологии NVIDIA PhysX представляет собой мощный физический движок для вычислений в реальном времени. В настоящее время поддержка PhysX реализована в более чем 150 играх. В сочетании с мощным GPU, движок PhysX обеспечивает значительное увеличение физической вычислительной мощи, особенно в таких моментах как создание взрывов с разлётом пыли и осколков, персонажей со сложной мимикой, новых видов оружия с фантастическими эффектами, реалистично надетых или разрываемых тканей, тумана и дыма с динамическим обтеканием объектов.

К реализации физических эффектов в играх уже давно стремятся многие девелоперы и разработчики игр. С каждым годом это направление становится все актуальнее. В современных играх взаимодействие объектов с окружающей средой осуществляется силами двух движков, набравших наибольшую популярность - Havok и PhysX.

Havok является старейшим движком, на котором пишется немало игр под PC и консоли. Еще в далеком 2006 году, тогда еще независимая ATI, демонстрировала ускорение физических эффектов силами видеокарт Radeon X1900XT. Однако позже Havok купила компания Intel, которая заявила, что физические эффекты будут рассчитываться данным движком силами процессоров.

PhysX был разработан компанией AGEIA, которая реализовывала "физику" акселераторами собственной разработки. Но так сложилось, что, не смотря на большую популярность этого движка среди разработчиков игр, реализация физических эффектов в играх силами специализированных ускорителей оказалась весьма спорной.

И вот в прошлом году компания NVIDIA купила AGEIA PhysX. Были сделано заявление, что посредством оптимизации драйверов движок PhysX будет адаптирован под использование видеокарт GeForce 8800GT и выше.

Ещё одно немаловажное новшество – новые режимы экономии энергии. Благодаря использованию прецизионного 65 нм техпроцесса и новых схемотехнических решений удалось добиться более гибкого и динамичного контроля энергопотребления. Так, потребление семейства графических чипов GeForce GTX 200 в ждущем режиме или в режиме 2D составляет около 25 Вт; при воспроизведении фильма Blu-ray DVD - около 35 Вт; при полной 3D нагрузке TDP не превышает 236 Вт. Графический чип GeForce GTX 200 может вовсе отключаться благодаря поддержке технологии HybridPower с материнскими платами на HybridPower-чипсетах nForce с интегрированной графикой (например, nForce 780a или 790i), при этом поток графики незначительной интенсивности попросту обсчитывается GPU, интегрированным в системную плату. Помимо этого, GPU семейства GeForce GTX 200 также обладают специальными модулями контроля энергопотребления, призванными отключать блоки графического процессора, не задействованные в данный момент.

Пользователь может конфигурировать систему на базе двух или трёх видеокарт семейства GeForce GTX 200 в режиме SLI при использовании материнских плат на базе соответствующих чипсетов nForce. В традиционном режиме Standard SLI (с двумя видеокартами) декларируется примерно 60-90% прирост производительности в играх; в режиме 3-way SLI – максимальное количество кадров в секунду при максимальных разрешениях экрана.

В рамках анонса новой серии графических процессоров семейства GeForce GTX 200 компания NVIDIA предлагает совершенно по-новому взглянуть на роль центрального и графического процессоров в современной сбалансированной настольной системе. Такой оптимизированный ПК, базирующийся на концепции гетерогенных вычислений (то есть, вычислений потока разнородных разнотипных задач), по мнению специалистов NVIDIA, обладает гораздо более сбалансированной архитектурой и значительно большим вычислительным потенциалом. Имеется в виду сочетание центрального процессора со сравнительно умеренной производительностью с наиболее мощной графикой или даже SLI-системой, что позволяет добиться пиковой производительности в наиболее тяжёлых играх, 3D и медиа приложениях.

прочем, интенсивные вычисления с помощью современных графических видеокарт давно не новость, но именно с появлением графических процессоров семейства GeForce GTX 200 компания NVIDIA ожидает значительного повышения интереса к технологии CUDA.

CUDA (Compute Unified Device Architecture) - вычислительная архитектура, нацеленная на решение сложных задач в потребительской, деловой и технической сферах - в любых приложениях, интенсивно оперирующих данными, с помощью графических процессоров NVIDIA. С точки зрения технологии CUDA новый графический чип GeForce GTX 280 это ни что иное как мощный многоядерный (сотни ядер!) процессор для параллельных вычислений.

Как было указано выше, графическое ядро семейства GeForce GTX 200 можно представить как чип, поддерживающий графический и вычислительный режимы. В одном из этих режимов – "вычислительном", тот же GeForce GTX 280 превращается в программируемый мультипроцессор с 240 ядрами и 1 Гб выделенной памяти – этакий выделенный суперкомпьютер с производительностью под терафлоп, что в разы повышает результативность работы с приложениями, хорошо распараллеливающими данные, например, кодирование видео, научные вычисления и пр.

Графические процессоры семейств GeForce 8 и 9 стали первыми на рынке, поддерживающими технологию CUDA, сейчас их продано более 70 млн. штук и интерес к проекту CUDA постоянно растёт. Подробнее узнать о проекте и скачать файлы, необходимые для начала работы можно здесь. В качестве примера на приведённых ниже скриншотах показаны примеры прироста производительности вычислений, полученные независимыми пользователями технологии CUDA.

По сравнению с предыдущим лидером GeForce 8800 GTX новый флагманский процессор GeForce GTX 280 обладает в 1,88 раза большим количеством процессорных ядер; способен обрабатывать примерно в 2,5 больше тредов на чип; обладает удвоенным размером файловых регистров и поддержкой вычислений с плавающей запятой с удвоенной точностью; поддерживает 1 Гб памяти с 512-битным интерфейсом; оборудован более эффективным диспетчером команд и улучшенными коммуникационными возможностями между элементами чипа; улучшенным модулем Z-буфера и компрессии, поддержкой 10-битной цветовой палитры и т.д.

Впервые новое поколение чипов GeForce GTX 200 изначально позиционируется не только в качестве мощного 3D графического акселератора, но также в качестве серьёзного компьютерного решения для параллельных вычислений.

Характеристики NVIDIA GeForce GTX 280

Наименование GeForce GTX 280
Ядро GT200 (D10U-30)
Техпроцесс (мкм) 0.065
Транзисторов (млн) 1400
Частота работы ядра 602
Частота работы памяти (DDR) 1107
Шина и тип памяти GDDR3 512-bit
ПСП (Гб/с) 141,67
Унифицированные шейдерные блоки 240
Частота унифицированных шейдерных блоков 1296
TMU на конвейер 80
ROP 32
Shaders Model 4.0
Fill Rate (Mtex/s) 48160
DirectX 10
Интерфейс PCIe 2.0

Революции не произошло, новый графический процессор GT200 и протестированная сегодня видеокарта GeForce 280GTX(285GTX , 295GTX) являются дальнейшим развитием унифицированной шейдерной архитектуры от компании NVIDIA. Новый графический процессор содержит большее количество функциональных блоков, чем у предшественников, что даёт ему право называться мощнейшим GPU на сегодняшний день.

Введение

Прошло полтора года - столько времени GeForce 8800 GTX оставалась на позициях, которые nVidia называла high-end GPU. Конечно, через шесть месяцев после объявления и (какое совпадение!) перед выходом R600 мы получили 8800 Ultra с чуть более высокими тактовыми частотами, но никаких революционных изменений в ней не было. Затем, два с половиной месяца назад, появление 9800 GTX пробудило надежды существенного прироста производительности, но, как оказалось, карта давала весьма ограниченный прирост по сравнению со старой доброй GTX и уступала версии Ultra. nVidia пришлось очень нелегко в том, чтобы убедить владельцев новых видеокарт в существенном преимуществе дополнительных мегагерц или вообще устанавливать два GPU на одну видеокарту.


Наконец, nVidia снизошла и услышала наши молитвы: GTX 280 первая видеокарта на действительно доработанной архитектуре G8x. Теперь мы уже знаем принцип работы компании: представить новую архитектуру на проверенном техпроцессе. Из-за очень большого числа транзисторов чип дорого обходится в производстве, карты получаются тоже очень дорогими, но захват рынка всё же происходит. Затем, в последующие годы, nVidia совершенствует свою архитектуру на всех сегментах рынка, используя более тонкий техпроцесс, но менее оптимизированный на высокие тактовые частоты. Наконец, когда новый техпроцесс будет освоен, nVidia переносит его и на high-end, который к тому времени становится более доступным. Мы видели подобный подход с G70/G71 и G80/G92, теперь история повторяется с GT200 - настоящий "монстр" с 1,4 млрд. транзисторов, изготавливающийся по 65-нм техпроцессу.


Новое поколение, новое название. Похоже, переход за номер "10 000" в линейке производителям не нравится. Если ATI решила эту проблему, введя римские цифры, nVidia решила полностью изменить номенклатуру карт. Теперь мы получили GeForce 200 GTX. Но возникает любопытный вопрос: что случилось с картой GeForce 100 GTX?

GTX 260 GTX 280
Частота GPU 576 МГц 602 МГц
Частота памяти 999 МГц 1 107 МГц
Частота потоковых процессоров 1 242 МГц 1 296 МГц
Число потоковых процессоров 192 240
Число текстурных блоков 64 80
Число блоков растровых операций (ROP) 28 32
Контроллер памяти 448 битов (7 каналов по 64 бита) 512 битов (8 каналов по 64 бита)
Тип памяти GDDR3 GDDR3

Как мы видим, nVidia представляет новую архитектуру, но её нельзя назвать совсем уж "с нуля". Зарождение G80 началось с "чистой страницы", но затем архитектура доказала свою высокую эффективность. Целью GT200 было исправить все "ошибки молодости" архитектуры, а также подготовить её к будущим играм. Мы получили примерно то, чем G70 стал для NV40, внеся множество мелких улучшений, а также шагнув вперёд по вычислительной мощности. Так получилось и в случае 8800 GTX с мощностью вычислений с плавающей запятой 518 GFlops, а GTX 280 уже приблизилась к терафлопу - с впечатляющей мощностью 933 GFlops. В реальности отрыв ещё больше, поскольку значение 518 GFlops у G80 рассчитано на выполнение двух операций с плавающей запятой за такт (одна MAD и одна MUL) - что, из-за ограничений G80, на практике достичь было невозможно. С выпуском GT200 nVidia гарантирует, подтверждая тестами, что проблемы решены. Чтобы почти удвоить вычислительную мощность предыдущего GPU, nVidia ощутимо подняла число мультипроцессоров - с 16 до 30.

nVidia и AMD соглашаются друг с другом в том, что будущим играм потребуется существенно более высокая вычислительная производительность по сравнению с текстурированием, поэтому вряд ли удивляет то, что число текстурных блоков увеличилось скромнее. С 64 у 9800 GTX, мы получили увеличение GTX 280 до 80 (и если сравнивать 8800 GTX и GTX 280 на этот раз, мы ушли от теоретического соотношения арифметических инструкций к числу отфильтрованных текселей 14,1:1 на 19,4:1). Что же это значит на практике?

Для оценки арифметической производительности можно использовать синтетические тесты с процедурными текстурами (они требуют немало вычислений). Конечно, nVidia нравится 3DMark Vantage и его тест Perlin Noise, где мы замерили прирост производительности 129% при переходе от 9800 GTX до GTX 280. Но, учитывая важность, которую nVidia приписывает этому тесту, и лёгкость, с которой можно оптимизировать под него новые драйверы (кстати, по-разному для GTX 280 и 9800 GTX), чтобы тест делал то, что от него хочет производитель (см. на эту тему), давайте проанализируем результаты забытой версии RightMark 3D с Pixel Shader 2.0 (Direct3D 9.0). Поскольку результаты разных тестов существенно различаются по абсолютным значениям, мы выразили результаты в процентах и взяли за основу 9800 GTX.

Как видим, улучшения намного скромнее, хотя они присутствуют - меньше для процедурных шейдеров и больше для сложных эффектов освещения, где мы наблюдаем прирост до 78%. Теперь давайте перейдём к версии 2 пакета RightMark и его шейдерам 4.0 (Direct3D 10.0).

Здесь прирост виден, но он ближе к повышению приведённого выше соотношения арифметических расчётов с плавающей запятой к фильтрации текселей, чем к числам, которые даёт 3DMark Vantage.

ROP

С блоками растровых операций (ROP) нас ждал приятный сюрприз - их число возросло с 24 у G80 (16 у G92) до 32. Чтобы обеспечить их загрузку, nVidia использовала 512-битную шину, которая, учитывая характеристики GPU, явно будет здесь более полезна, чем на R600.

Мы наблюдаем 78% прирост производительности GTX 280 над 9800 GTX, что близко к теоретическим значениям, поскольку увеличение ROP сопровождало падение частоты (675 МГц у 9800 GTX).

И поскольку мы начали говорить об AMD, следует отметить, что этой компании нужно как можно быстрее пересмотреть свои high-end GPU, которые ограничиваются 16 текстурными блоками и 16 ROP ещё с объявления X800 в 2004 году! Если GPU AMD остаются конкурентоспособными по вычислительной мощности, с другой точки зрения, их серьёзно обходит nVidia, которые вносит улучшения с каждым новым поколением. Будем надеяться, что новая архитектура AMD, которая будет представлена совсем скоро, закроет эту брешь.

Кстати, приведённые результаты HD 3870 X2 показывают, что пусть ATI уступает по числу блоков на чип, не забывайте, что новая стратегия производителя заключается в использовании карт на двух GPU против карт на одном GPU у nVidia! По этой причине, а также из-за чуть более высокой (825 МГц) частоты, 3870 X2 лидирует в этом тесте, синтетическом, но релевантном.

А что насчёт Direct3D 10.1?

После кампании, которую nVidia уже некоторое время проводит по поводу его бесполезности, нас вряд ли удивило отсутствие поддержки нового API Microsoft в 200 GTX. Нас это не удивило, но огорчило. По информации nVidia, поддержка API изначально планировалась, но опрошенные разработчики были уверены в том, что она "не важна". Конечно, Direct3D 10.1 не добавляет ничего революционного - как мы уже отметили в обзоре карт Radeon HD 38x0 , однако корректирует недостатки, присутствующие в спецификациях Direct3D 10. Да и есть несколько новых интересных функций, которые могут стать полезными для движков рендеринга, такие как отложенное затенение (deferred shading), которое становится всё более популярным, а также алгоритмы для рендеринга прозрачных поверхностей без сортировки.

Да, это может показаться несколько избыточным в данной ситуации, когда Direct3D 10 ещё не показал своего превосходство на девятой версией, но объяснения nVidia кажутся невнятными. Мысль о бесполезности Direct3D 10.1 в данное время нельзя назвать ложной (хотя Assassin"s Creed доказывает обратное), однако мы попадаем в замкнутый круг - без поддержки со стороны nVidia вполне очевидно, что разработчики не будут серьёзно относиться к ATI. Мы уже наблюдали подобную ситуацию и раньше, но она была обратной: какие разработчики использовали Shader Model 3, когда вышла NV40? Особенно на первых GeForce 6, где основные функции, подобные Vertex Texture Fetch и динамическому ветвлению в шейдерах, были слабо реализованы. Но, конечно, в то время nVidia считала себя авангардом 3D API.

Поэтому наше мнение с предыдущей статьи не изменилось. Пусть даже DirectX 10.1 нельзя использовать прямо сейчас, нам нравится, когда в новых 3D-процессорах используются последние технологии, с которыми могут знакомиться разработчики. Мы ругали ATI в то время, а теперь нашу критику получила nVidia.

Архитектура в деталях

Архитектура SIMT?

Вы наверняка знакомы с терминами SIMD (одна инструкция, много данных) и MIMD (много инструкций, много данных), но в GT200 nVidia описывает мультипроцессоры шейдеров как "блоки SIMT". Чем же они являются на самом деле? Сокращение расшифровывается как Single Instruction Multiple Threads (одна инструкция, много потоков), и основное отличие от режима SIMD заключается в том, что обрабатываемые векторы не имеют чётко заданной ширины. При достаточном числе потоков процессор работает как скалярный. Чтобы разобраться, давайте вспомним, как блоки пиксельных шейдеров работали в предыдущих архитектурах.

Растеризатор генерирует квады - квадраты пикселей 2x2, где каждый пиксель задаётся вектором с четырьмя значениями с плавающей запятой одинарной точности (R, G, B, A) или (X, Y, Z, W) - наиболее часто используемый формат в 3D-вычислениях. Квады затем поступают в потоковые процессоры (ALU), которые работают в 16-канальном режиме SIMD, то есть одинаковая инструкция применяется ко всем 16 числам с плавающей запятой. Конечно, мы несколько всё упростили, но принцип понят можно; на самом деле у GeForce 6 и 7 есть режим co-issue для выполнения двух инструкций на вектор.

После G80 данный режим работы был изменён - растеризатор по-прежнему генерировал квады, которые записывались в буфер. Когда 8 квадов (32 пикселей, "warp" по терминологии CUDA) накапливались в буфере, они могли выполниться мультипроцессором в режиме SIMD. В чём разница? В том, как теперь организуются данные: вместо работы над четырьмя векторами по четыре операции с плавающей запятой, которые могут выглядеть, например, (R, G, B, A, R, G, B, A, R, G, B, A, R, G, B, A), мультипроцессор работает над векторами с 32 числами с плавающей запятой, каждое из которых представляет одинаковый компонент из 32 потоков: например, (R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R), затем (G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G) и т.д.

В программировании SIMD первое выравнивание данных называется AoS (Array Of Structures), а второе - SoA (Structure of Arrays). Вторая организация даёт более высокую производительность. Если будет достаточно данных для заполнения вектора, процессор, с точки зрения программиста, выглядит как скалярный блок, так как SIMD-блоки всегда используются на 100% независимо от ширины обрабатываемых данных. Следовательно, AoS достигает пиковой производительности, только в том случае, когда одинаковая инструкция накладывается на все четыре компонента каждого вектора.


Нажмите на картинку для увеличения.

Каждый из восьми TPC (Texture Processor Clusters, кластеры текстурных процессоров) оснащён текстурным блоком и двумя потоковыми мультипроцессорами Streaming Multiprocessors (SM). У GT200 nVidia увеличила число блоков TPC до 10, каждый по-прежнему оснащён текстурным блоком, но уже тремя мультипроцессорами.



Нажмите на картинку для увеличения.

Это изменение свидетельствует об изменении ориентации современных шейдеров, акцент которых ставится на арифметические инструкции. Текстурные блоки каждого кластера TPC используют такую же модель, как у G84 и G92 - адресная мощность такая же, как и мощность фильтрации, в отличие от G80, где мощность фильтрации в два раза превышала адресную. Так, в простом режиме фильтрации текстур RGBA8, текстурные блоки G84/G92/GT200 в два раза производительнее G80. С более продвинутыми режимами фильтрации или текстурами RGBA16, изменение не влияет на результат.

Есть и другое улучшение, которое относится к GT200: nVidia утверждает, что теперь используется более эффективная система диспетчеризации для текстурных операций, что должно приблизить результат к пиковой производительности по сравнению с G92. Давайте посмотрим на результаты Fillrate Tester.

Переход с 64 на 80 текстурных блоков, с учётом разницы в частоте GPU, должен дать GTX 280 преимущество всего 11% над 9800 GTX. Но мы замерили 43% при использовании четырёх текстур и 118% при использовании двух! Улучшение в системе диспетчеризации вряд ли сможет объяснить разницу. Однако увеличение числа ROP (удвоение) тоже сыграло свою роль. В любом случае, вполне очевидно, что GTX 280 намного ближе к значениям теоретической скорости заполнения с одной или двумя текстурами (97%), чем 9800 GTX (между 80 и 91%), означая, что улучшения nVidia оправдали себя на практике. Как мы уже объясняли выше, плата AMD с двумя GPU, которая ещё и работает на более высоких тактовых частотах по сравнению с nVidia, всего на 32% уступает GTX 280 с четырьмя текстурами.

Теперь давайте посмотрим на результаты теста текстурирования RightMark3D 2.0 PS 4.0.

Результат первого теста шейдеров (Fur, мех) удивляет: 14% прирост, что немного, учитывая оптимизацию смешения, геометрических шейдеров и скорости заполнения, хотя всё зависит от реализации шейдеров. С другой стороны, 59% прирост в тесте Steep Parallax Mapping более впечатляет, на уровне с нашими ожиданиями.

Кроме увеличения числа, каждый мультипроцессор прошёл через несколько оптимизаций. Первая заключается в увеличении числа активных потоков на мультипроцессор - с 768 до 1 024 (с 24 32-поточных "варпов" до 32). Большее число потоков особенно полезно для компенсации задержек текстурных операций. В масштабах GPU мы получаем увеличение числа активных потоков с 12 288 до 30 720.

Число регистров на мультипроцессор удвоилось - с 8 192 до 16 384. С сопутствующим повышением числа потоков, число регистров, которые одновременно может использовать поток, увеличилось с 10 до 16. На G8x/G9x наш тестовый алгоритм использовал 67% вычислительных блоков; на GT200 это число должно быть 100%. Учитывая два текстурных блока, производительность должна быть существенно выше, чем у G80, которую мы тоже взяли для теста. К сожалению, CUDA 2.0 требует драйвер, который всё ещё находится в состоянии бета-версии, он не распознаёт GeForce 200 GTX. Когда в основной ветке драйверов появится поддержка, мы повторим тест.


Нажмите на картинку для увеличения.

Это не единственное улучшение, которое nVidia сделала со своими мультипроцессорами: компания заявила об оптимизации режима dual-issue. Как вы помните со времён G80, мультипроцессоры предположительно позволяют выполнять две инструкции за такт: одну MAD и одну MUL с плавающей запятой. Мы упомянули "предположительно", поскольку в то время мы не смогли проверить это поведение в наших синтетических тестах - мы не знаем, с чем было связано это ограничение, с аппаратной поддержкой или с драйверами. Несколько месяцев спустя, после нескольких версий драйверов, мы знаем, что MUL не всегда легко отделить на G80, так что проблема, скорее всего, аппаратная.

Но как работает режим dual-issue? Во времена G80 nVidia не дала детали, но затем, изучая патент, мы узнали чуть больше о способе выполнения инструкций на мультипроцессорах. Начнём с того, что патент чётко выделяет, что мультипроцессоры могут запускать выполнение только одной инструкции на каждый такт GPU. Так где же знаменитый режим dual-issue? Фактически, он сводится к специализации "железа": одна инструкция использует два такта GPU (четыре такта потокового процессора/ALU), её можно применить к "варпу" (выполнение 32 потоков на 8-канальных блоках SIMD), но начало конвейера мультипроцессора может запускать выполнение только одной инструкции каждый такт, если они относятся к разным типам: MAD в одном случае, SFU в другом.

Кроме трансцендентных операций и интерполяции значений каждой вершины, SFU способны выполнять умножение с плавающей запятой. Чередуя выполнение инструкции MAD и MUL, можно получить "перехлёст" времени выполнения инструкций. Таким образом, каждый такт GPU даёт результат MAD или MUL в "варпе" - то есть 32 скалярных значения. По описанию nVidia можно ожидать, что вы получите MAD и MUL каждые два такта GPU. На самом деле, результат такой же, но с аппаратной точки зрения начало конвейера существенно упрощается, он поддерживает подачу инструкций на выполнение по одной каждый такт.



Нажмите на картинку для увеличения.

То, что ограничивало подобную функцию на G8x/G9x, было исправлено на GT200? nVidia, к сожалению, не уточняет. Представители компании просто говорят о том, что они доработали такие блоки, как выделение регистров, планирование и запуск инструкций на выполнение. Но мы сделали предположение, близкое к реальности. Теперь давайте посмотрим, насколько изменения nVidia повлияли на практику - на синтетический тест GPUBench.

В целях сравнения мы добавили результаты 9800 GTX. На этот раз всё понятно: вы можете видеть более высокую скорость выполнения инструкций MUL по сравнению с инструкциями MAD. Но мы по-прежнему далеки от удвоения значений, примерно 32% по сравнению с MAD. Но и то хорошо. Следует отметить, что результаты для инструкций DP3 или DP4 не следует принимать во внимание, поскольку числа не были постоянными. То же самое касается инструкций POW, что, вероятно, связано с проблемой драйверов.

Последнее изменение, сделанное с потоковыми мультипроцессорами, касается поддержки двойной точности (64-битное число с плавающей запятой вместо 32-битного). Честно говоря, дополнительная точность редко используется в графических алгоритмах. Но, как мы знаем, GPGPU (использование GPU для расчётов) становится для nVidia всё более важным, и в некоторых научных приложениях двойная точность необходима.

nVidia - не первая компания, которая это заметила. Не так давно IBM модернизировала процессоры Cell, чтобы повысить производительность SPU на этом типе данных. По производительности, конечно, реализация GT200 оставляет желать лучшего - вычисления с плавающей запятой двойной точности реализованы на отдельном блоке потокового мультипроцессора. Блок позволяет выполнять одно вычисление MAD двойной точности за такт, что даёт пиковую производительность 1,296 x 10 (TPC) x 3 (SM) x 2 (Multiply+Add) = 77,78 Gflops, или где-то между 1/8 и 1/12 от производительности с одинарной точностью. AMD добавила такую же поддержку, используя одинаковые вычислительные блоки за несколько тактов, что дало ощутимо лучший результат - всего в два-четыре раза медленнее, чем расчёты с одинарной точностью.

ROP

Как мы уже говорили, число блоков растровых операций (ROP) увеличилось, но каких-либо новых функций мы не получили. Впрочем, стоит признать ROP у G8x уже довольно полные, с поддержкой 16- и 32-битных кадровых буферов с плавающей запятой со смешением и сглаживанием; сглаживание до 8x или 16x в режиме CSAA; Z-рендеринг в восемь раз быстрее и т.д. Вряд ли нужно что-то добавлять. Поэтому nVidia занялась оптимизацией производительности. Для смешения в кадровых буферах RGBA8 мы получили на G8x/G9x производительность, уменьшенную в два раза, с 12 пикселями на такт. У GT200 это ограничение было снято, а добавление 512-битной шины, с пропускной способностью больше 140 Гбайт/с, новые ROP могут сделать карты GeForce непобедимыми по пропускной способности. Ниже приведены результаты для пиксельного Z-заполнения.

По чистой производительности результаты не разочаровывают, мы поставили новый рекорд: 75 537 мегапикселей в секунду! Впрочем, значение всё же можно признать разочарованием в том отношении, что мы получили четырёхкратный, а не восьмикратный прирост базовой скорости заполнения. Для 9800 GTX мы получили 5,2 увеличение - чуть лучше, но, опять же, ниже теоретического значения.

Результаты Fillrate Tester

Производительность геометрических шейдеров предыдущих процессоров nVidia Direct3D 10 не очень впечатляла из-за неправильно оцененных и слишком маленьких внутренних буферов. Помните, что по спецификациям Direct3D 10 геометрический шейдер способен создавать до 1 024 значений с плавающей запятой одинарной точности на входящую вершину. Поэтому, с существенной нагрузкой на геометрию, буферы быстро заполнялись и предотвращали дальнейший расчёт геометрии. У GT200 размер буферов был увеличен в шесть раз, что существенно повышает производительность в некоторых случаях, как мы увидим. Чтобы выжать максимум из размера буферов, nVidia пришлось поработать над диспетчеризацией потоков геометрических шейдеров.

На первом шейдере Galaxy прирост очень скромный - 4%. С другой стороны, на Hyperlight он составил 158% - свидетельство улучшений работы с подобными типами шейдеров, хотя всё зависит от реализации и от мощности (число точек/чисел с плавающей запятой, сгенерированных на одну входящую вершину). В целом, GTX 280 закрыла разрыв и обошла 3870 X2 на том же шейдере.

Теперь давайте взглянем на результаты теста Rightmark 3D Point Sprites (Vertex Shading 2.0).

Почему мы говорим об этом тесте в разделе, посвящённом геометрическим шейдерам? Просто потому, что с момента Direct3D 10 за обработку точечных спрайтов отвечают геометрические шейдеры, что объясняет удвоение производительности между 9800 GTX и GTX 280!

Разные улучшения

nVidia оптимизировала несколько аспектов архитектуры. Кэш-память пост-трансформации была увеличена. Роль этой кэш-памяти заключается в том, чтобы избежать повторной трансформации одной вершины несколько раз с индексированными примитивами или полосками треугольников, записывая результат вершинных шейдеров. Из-за повышения числа ROP производительность отсечения Early-Z была существенно улучшена. GT200 способна отсекать до 32 пикселей по маске за такт перед применением пиксельного шейдера. Кроме того, nVidia заявляет об оптимизации передачи данных и команд между драйвером и началом конвейера GPU.

Поскольку от практически удвоения числа потоковых процессоров (ALU) можно ждать определённых улучшений, давайте сначала посмотрим, как карты работают в тесте вершинных шейдеров Rightmark Vertex Shaders.

Удивительно, несмотря на разные регулировки и повторные тестовые прогоны, GTX 280 не только показала меньшую производительность, чем 9800 GTX, но и упала на 12%! nVidia получила такие же результаты, и мы смогли их изменить, только включив сглаживание 4x - удивительный шаг для геометрического теста. Но следует заметить, что, несмотря на возросшую мощность обработки (и выросшую производительность трансформации), движок настройки (setup engine) не изменился. Как и в случае 9800 GTX, карта способна генерировать только один треугольник за такт. И преимущество 9800 GTX по частоте (675 МГц против 600 МГц) объясняет разницу.

Как обычно бывает в случае RightMark 2.0, первый тест шейдеров не показал улучшения на новой видеокарте, а второй дал 25% прирост.

Мы уже весьма подробно поговорили об улучшениях в расширенных пиксельных шейдерах (в частности, в разделе арифметических тестов), но давайте посмотрим на простые шейдеры, а именно на тест попиксельного затенения Fillrate Tester, который мы используем уже четыре года.

Прошло уже немало лет, поэтому мы могли бы ожидать прирост производительности GTX 280 побольше 40%. Мы не будем показывать все результаты ShaderMark (который использует Pixel Shader 3.0), но и там улучшение составило от 20 до 26% для последних шести шейдеров, а максимальный прирост - не больше 43%.

Все результаты оказались удивительными, они демонстрируют разрыв между теоретическим увеличением мощности (которое должно повлиять на вершинные и пиксельные шейдеры, даже старые) и реальным приростом в приложениях. Конечно, драйверы пока ещё не полностью оптимизированы, и не следует забывать, что при запуске даже самого специфического теста очень сложно изолировать какую-либо часть конвейера, чтобы на неё не влияли остальные, особенно в современных архитектурах.

Спецификации: ещё выше!

Как часто случалось, nVidia подготовила к анонсу две видеокарты: экстремальную high-end версию GeForce GTX 280 и чуть более доступную, но всё ещё high-end видеокарту GeForce GTX 260. Давайте посмотрим на характеристики этих видеокарт по сравнению с конкурентами.

Спецификации основных видеокарт
GPU HD 3870 X2 9800 GX2 8800 Ultra GTX 260 GTX 280
Частота GPU 825 МГц 600 МГц 612 МГц 576 МГц 602 МГц
Частота ALU 825 МГц 1 500 МГц 1 512 МГц 1 242 МГц 1 296 МГц
Частота памяти 900 МГц 1 000 МГц 1 080 МГц 999 МГц 1 107 МГц
Ширина шины памяти 2x256 битов 2x256 битов 384 бита 448 битов 512 битов
Тип памяти GDDR3 GDDR3 GDDR3 GDDR3 GDDR3
Объём памяти 2 x 512 Мбайт 2x512 Мбайт 768 Мбайт 896 Мбайт 1 024 Мбайт
Число ALU (потоковых процессоров) 640 256 128 192 240
Число текстурных блоков 32 128 32 64 80
Число ROP 32 32 24 28 32
Производительность шейдеров 1 TFlops (1152) GFlops (581) GFlops 715 GFlops 933 GFlops
Пропускная способность памяти 115,2 Гбайт/с 128 Гбайт/с 103,7 Гбайт/с 111,9 Гбайт/с 141,7 Гбайт/с
Число транзисторов 1 334 млн. 1 010 млн. 754 млн. 1 400 млн. 1 400 млн.
Техпроцесс 55 нм 65 нм 80 нм 65 нм 65 нм
Площадь кристалла 2 x 196 мм² 2 x 324 мм² 484 мм² 576 мм² 576 мм²
Поколение 2008 2008 2007 2008 2008
Поддерживаемая модель шейдеров 4.1 4.0 4.0 4.0 4.0

С 1 400 млн. транзисторов и площадью кристалла 576 мм², nVidia создала ещё одного "монстра" - самый крупный GPU, когда либо производившийся, который побил уже впечатляющий рекорд G80 (он на 16% меньше). В принципе, площадь кристалла меняется мало с поколениями (хотя для "массовых" процессоров она снижается). Очевидно, что производство GT200 обходится nVidia очень дорого, даже на хорошо отработанном, но не самом тонком техпроцессе, что и объясняет существование такого крупного чипа.

Ещё один интересный момент: продолжая использовать GDDR3 nVidia отстаёт уже не на одно, а на два поколения от конкурента, поскольку GDDR5 появится в Radeon HD 4870, который выйдет в ближайшее время. Однако следует отметить, что благодаря 512-битной шине памяти, увеличение пропускной способности всё ещё составляет 64% по сравнению с 86,4 Гбайт/с у 8800 GTX. Мы, наконец, увидели появление high-end видеокарты с объёмом памяти больше 512 Мбайт (не считая относительно старую и не самую распространённую 8800 Ultra)! С 1 Гбайт (и 896 Мбайт для GTX 260, что тоже неплохо), производительность в разрешении 2 560 x 1 600 должна быть очень даже достойной.

Наконец, частоты оказались весьма консервативными, особенно для потоковых процессоров (ALU), которые, кроме всего прочего, медленнее, чем на 8800 Ultra.

GTX 280 или GTX 260?

С 30% большей производительностью расчётов с плавающей запятой и на 27% большей пропускной способностью памяти, теоретический разрыв между двумя новыми видеокартами nVidia вполне заметен. На практике карты очень похожи друг на друга, а также и на последние high-end модели GeForce 9 - печальное последствие универсальных "чёрных коробок", корпусов, которые nVidia использует на последних видеокартах. Только крупный 8-см радиальный вентилятор, немного наклонённый, чтобы продувать основание, а также разъёмы дополнительного питания, без которых уже не обойтись, выставляются наружу. Для питания используется два шестиконтактных разъёма PCI Express или один шести- и один восьмиконтактный: с такой мощностью придётся работать блоку питания, если вы хотите установить GeForce GTX 280 или GTX 260. Но и здесь ничего нового, поскольку ATI приучила нас к подобным требованиям в прошлом году, выпустив 2900 XT.



Нажмите на картинку для увеличения.

Разъёмы SLI и звуковой вход HDMI, которые присутствуют, скрыты за съёмными заглушками. Единственное реальное отличие от GeForce 9800 GTX заключается в том, что хотя во второй слотовой заглушке есть вентиляционная решётка для выброса горячего воздуха, часть воздуха от карты выходит через вторую решётку, поступая наверх, поэтому он остаётся внутри корпуса - не очень хорошая новость. Длина карт по-прежнему составляет 26,7 см (10,5") - стандарт для high-end моделей за последние два года, а вес чуть не дотягивает до килограмма - 915 грамм, что чуть легче, чем 940 грамм HD 3870 X2.



Нажмите на картинку для увеличения.

Для тестов мы получили видеокарты Leadtek, которые, традиционно для high-end моделей в момент запуска, используют эталонный дизайн, а производителя можно узнать разве что по паре наклеек на корпусе. В комплект GTX 280 входит игра NeverWinter Nights 2 (не самый свежий вариант, который бы показал мощь видеокарты), переходник DVI-VGA, кабель HDTV (YUV и S-Video), два переходника с Molex на шестиконтактную вилку PCI Express и переходник с Molex на восьмиконтактную вилку PCI Express.

Для данного теста мы использовали эталонную конфигурацию, а также тестировали игры исключительно с помощью Fraps, в реальных условиях. Большинство игр, которые помогали нам раньше, включены в обзор, мы традиционно их обновили (установив последние патчи), однако мы добавили две новые игры: Mass Effect, космическую сагу-RPG от Bioware, которая, несмотря на корни Xbox 360, была успешна портирована. Без этой игры мы бы вряд ли могли обойтись (тем более, что она закрывает разрыв после того, как мы отказались от Fable). Вторая игра - Race Driver: GRID, которая, несмотря на интерфейс, является кошмаром для тестеров (подобно предыдущей Colin McRae Dirt от того же издателя, Codemasters). Данная игра визуально очень привлекательная, она использует последнюю версию Ego Engine.

Все синтетические тесты DirectX 9 проводились под Windows XP из-за их нестабильности под Vista (Fillrate Tester, RightMark 1050, ShaderMark 2.1 и SPECviewperf 10). RightMark 3D 2.0 (DirectX 10) запускался, вполне понятно, под Windows Vista (без SP1, поскольку с ним тест тоже был нестабилен), а для всех игр мы использовали Vista SP1, как и для тестов CUDA, измерений шума и температуры, а также для разгона. Мы отключили UAC, Aero, SuperFetch и индексацию, чтобы получать повторяемые результаты.

Для теста мы использовали только два разрешения: 1 920 x 1 200 (24/26") и, конечно, 2 560 x 1 600, поддерживаемое 30" мониторами (Samsung 305T в нашем случае). Причина в том, что, как нам кажется, подобные high-end видеокарты будут использовать только для таких разрешений. Если ваш монитор имеет меньшее разрешение (вплоть до 22"), то вам вряд ли стоит тратиться на подобные модели, чтобы получить плавную и красивую картинку, как мы уже .


Тестовая конфигурация
Материнская плата Asus P5E3 Deluxe (Intel X38)
Процессор Intel Core 2 Quad QX6850 (3 ГГц)
Память Crucial 2 x 1 Гбайт DDR3 1333 МГц 7-7-7-20
Жёсткий диск Western Digital WD5000AAKS
Оптический привод Asus 12x DVD
Блок питания Cooler Master RealPower Pro 850W
Программное обеспечение
ОС Windows XP, Vista, Vista SP1
Драйверы nVidia ForceWare 177.34 beta (GTX 260 и GTX 280 под Vista)
ForceWare 177.26 beta (GTX 280 под XP)
ForceWare 175.16 WHQL (9800 GTX, 9800 GX2, 8800 Ultra)
Драйверы AMD Catalyst 8.5 WHQL (HD 3870 X2)


Нажмите на картинку для увеличения.

Зачем тестировать последние high-end видеокарты на игре, которая, как известно, упирается в CPU? Причина простая: нужно убедиться, что новые видеокарты ведут себя, по крайней мере, не хуже, чем предыдущее поколение, а также проверить проработанность драйвера. Как мы уже не раз убеждались, Flight Simulator X может скрывать некоторые сюрпризы.


Как видим, новые GeForce GT200 отнюдь не радуют. Ни одна из них не смогла выдать больше 23 fps, что смущает, пусть даже это Flight Simulator X. Но 9800 GX2 и 8800 Ultra подобрались вплотную к порогу 30 fps, что намного лучше. Мы уверены, что в следующей версии драйверов ситуация должна улучшиться, так как несколько парадоксально покупать последнее поколение видеокарт nVidia, чтобы получить падение производительности. Даже в игре, где производительность CPU играет важную роль.



Нажмите на картинку для увеличения.


Если видеокарта GTX 280 хорошо показала себя в Call of Duty 4, обогнав 9800 GTX на 41% (1 920 x 1 200) и 91% (2 560 x 1 600 + фильтры), то 9800 GX2 оказалась тяжёлым соперником. Она даже обогнала 280 на разрешении 1 920 x 1 200 (на солидные 17%), вероятно из-за большего числа текстурных блоков - единственное теоретическое значение, по которому последние видеокарты nVidia с двумя GPU обгоняют других. На 30" пропускная способность памяти и её удвоенное количество дали GTX 280 лидерство, но только после включения сглаживания 4x (играть всё ещё можно). Мы начали подозревать, что на данных видеокартах можем получить результаты, очень близкие друг к другу. Обратите внимание, что GTX 260 на 21-26% отстаёт от "старшей" модели, что вполне ожидаемо по спецификациям. Видеокарта явно обходит 8800 Ultra, но ощутимо уступает 9800 GX2 в данном тесте.



Нажмите на картинку для увеличения.


В игре Test Drive Unlimited нет никакого сомнения в превосходстве новых high-end видеокарт nVidia, пусть даже 9800 GX2 оказалась очень близка (отставание меньше 8% на первых трёх режимах и 17% на максимальном). Ещё одна хорошая новость для производителя - превосходство GTX 280 становится заметным от разрешения 1 920 x 1200, где производительность в два раза превышает 9800 GTX (с фильтрацией и сглаживанием). Однако переход на 30" не усилил лидерство, а, наоборот, уменьшил, однако отрыв всё ещё составляет 50% без фильтров и 76% с ними. Что касается GTX 260, то её отрыв от 8800 Ultra на том же разрешении тоже снизился, до 11% в среднем.



Нажмите на картинку для увеличения.

Crysis по-прежнему привлекает к себе удивительно много внимания. Ниже представлены наши тесты (мы тестировали игру на новой сцене, которая не так загружает GPU, как предыдущая).


Из-за высоких требований игры (на этот раз мы тестировали её на тех же разрешениях, что и другие игры), иерархия на диаграмме соответствует результатам без фильтров, поскольку они бесполезны. Можно ли играть в Crysis на разрешении 1 920 x 1 200 на новой GTX 280? Да, но не так плавно, как на 9800 GX2 на нашей тестовой сцене. Только включение сглаживания позволило 280 выйти вперёд, но частота кадров слишком низкая, чтобы играть в режиме детализации "Very High". И проблема в том, что хотя на трёх из четырёх тестовых прогонах GTX 280 обгоняла 9800 GX2 в Crysis, играть вряд ли получится. И это несмотря на боле, чем удвоенную производительность на 2 560 x 1 600 и тот факт, что новые карты оказались единственными, за исключением 8800 Ultra, кто мог выводить игру с активным сглаживанием. В целом, мы были разочарован.



Нажмите на картинку для увеличения.


Перед нами ещё одна "тяжёлая" игра, но, в любом случае, играть можно и на разрешении 2 560 x 1 600 без фильтров. Однако видеокарта в World in Conflict уступила "тёмной лошадке" на разрешении 1 920 x 1 200: Radeon HD 3870 X2! Опять же, после включения фильтров карта AMD на двух GPU, которая замечательно подходит для этой игры, обеспечила более высокую производительность, ненамного обогнав GTX 280. На 30" дисплее карта AMD сохранила своё преимущество, а объём памяти GTX 280 вновь хорошо показал себя на последнем режиме, хотя вряд ли на нём можно комфортно играть. И это ещё не всё: на этом же разрешении в лидеры вышла карта nVidia, но 9800 GX2, а не GT200. Поэтому, если вы играете в World in Conflict и Crysis, то GTX 280 вряд ли вам понадобится...



Нажмите на картинку для увеличения.


Данная игра со временем стала уже не такой прожорливой, особенно по сравнению с некоторыми свежими играми. Однако Supreme Commander всё ещё актуальна, особенно для игр по сети. На поле боя, но с не слишком большим числом юнитов (чтобы производительность не упиралась в CPU), GTX 280 так ни разу и не смогла обойти 9800 GX2, которая лидирует на 39% на разрешении 2 560 x 1 600. Да, результаты GTX 280 вряд ли можно назвать ужасными, поскольку они на 45% превышают 9800 GTX и 8800 Ultra, хотя мы ожидали большего.



Нажмите на картинку для увеличения.


Две новинки интересно проанализировать в Unreal Tournament 3. Если результаты в 1 920 x 1 200 не удивляют, то в 2 560 x 1 600 "тёмная лошадка" 9800 GX2 вновь вышла вперёд. К сожалению, ограниченный объём памяти на этой видеокарте не позволил нам протестировать её с фильтрами, хотя GTX 280 справилась с этой задачей и обеспечила плавную игру. Средний отрыв от видеокарты предыдущего поколения 9800 GTX составил 59%. GTX 260 хорошо показала себя, выдав около 83% производительности GTX 280 на трёх из четырёх разрешений, что даёт этой видеокарте хорошее соотношение цена/производительность, как мы увидим ниже.



Нажмите на картинку для увеличения.


Будучи портированной с Xbox 360, игра Mass Effect очень хорошо работает на Radeon HD 3870 X2, за исключением того, что она не справилась со сглаживанием. Однако она вполне хороша для 1 920 x 1 200 и 2 560 x 1 600. Но это не помешало тому, что GTX 280 не смогла выйти в лидеры, поскольку 9800 GX2 не очень хорошо показывает себя в этой игре, заметно уступая (34% на 1 920 x 1 200 + фильтры и 62% на 2 560 x 1 600). Отрыв GTX 280 от 9800 GTX составил 220% на разрешении 1 920 x 1 200 + фильтры, а GeForce GTX 260 идёт чуть позади "старшей" модели.



Нажмите на картинку для увеличения.


Игра слишком новая для появления профиля SLI (он необходим для работы карт с двумя GPU, такими как 9800 GX2), поэтому 9800 GX2 среди аутсайдеров. Это как раз помогает GTX 280 выйти вперёд. Производительность видеокарты очень хороша: если она обходит GTX 260 всего примерно на 20%, лидерство над 9800 GTX увеличивается до 50% (за исключением 1 920 x 1 200 и 2 560 x 1 600 + фильтры). Что более важно, две новых видеокарты оказались единственными, которые позволяют играть в разрешении 2 560 x 1 600 + 4X сглаживание, режим, очень приятный для глаз.

BadaBOOM Media Converter, Folding@Home

BadaBOOM Media Converter является программой перекодирования видео, разработанной Elemental Technologies, которая преобразовывает Video DVD (только MPEG2) в формат H.264 для большинства портативных медиаплееров, включая iPhone, iPod и PSP (только с предварительно заданными профилями). Программа оптимизирована для CUDA (через видеоплатформу RapiHD от ETI), поэтому она позволяет удобно сравнить мощность совместимых GeForce (все модели GeForce 8 и 9), которые ускоряют эту требовательную задачу - когда то объявленную AMD через AVIVO. Однако кодировщик Elemental не такой "глючный" и даёт более высокую скорость компрессии.



Нажмите на картинку для увеличения.

На предыдущей версии, которая была совместима только с GT 200, мы смогли сжать тестовое видео (400 Мбайт) в формат iPhone (640 x 365) с максимальным качеством за 56,5 секунд на GTX 260 и 49 секунд на GTX 280 (на 15% быстрее). В целях сравнения, кодировщик iTunes H.264 работает восемь минут, используя ресурсы CPU (потребляя больше мощности в целом, но существенно меньше на пиках). Впрочем, следует помнить, что перед нами далеко не самый оптимизированный компрессор H.264, да и BadaBOOM явно не хватает гибкости в работе, пусть даже результат весьма хороший.

Folding@Home

У нас появилась возможность протестировать пре-бета клиент Folding@Home на CUDA, чья финальная версия должна появиться в ближайшие дни. К сожалению, он тоже работает только на GeForce 200.



Нажмите на картинку для увеличения.

Здесь, опять же, nVidia имеет более, чем годовую задержку по сравнению с ATI, чьи видеокарты Radeon участвуют в проекте, но GeForce 200 (поскольку мы не смогли протестировать другие видеокарты nVidia) дают более высокую производительность. На нашей тестовой конфигурации мы получили 560 ns в день на GTX 280 и 480 ns в день на GTX 260. Для сравнения PS3 даёт производительность около 150-200 ns в день по сравнению с менее 10 для процессора и 200 для простого Radeon HD 3870.

Однако важно понимать, что производительность может легко меняться в зависимости от клиента на данной архитектуре (оптимизация кода ещё далеко не завершеня для клиентов ATI и nVidia). Mike H считает, что тот же самый HD 3870 может дать 300 ns в день, но не меньше 250. Ещё одна проблема в том, что при смене протеина, требующаяся для клиента GeForce, производительность тоже меняется. В общем, на сегодня мы бы хотели подчеркнуть случайную природу и временный характер приведённых выше результатов. Мы уверены, что с появлением клиента, который будет поддерживать CUDA-совместимые видеокарты GeForce (все, начиная с GeForce 8, включая модели начального уровня), для проекта появятся интересные возможности, поскольку установочная база насчитывает примерно 7 000 TFlops.



Нажмите на картинку для увеличения.

1 400 млн. транзисторов по 65-нм техпроцессу заставляют ожидать высокое энергопотребление видеокарты. Давайте посмотрим на энергопотребление системы, включающее потери на блоке питания (энергопотребление всей системы и 20% потерь на блоке питания).

Первое, что стоит отметить: в играх энергопотребление новых видеокарт очень высокое, но не рекордное. GTX 280 демонстрирует энергопотребление, сравнимое с 8800 Ultra, но уступающее 9800 GX2. А то, что видеокарта 3870 X2 потребляет меньше энергии, связано с недостаточной нагрузкой в протестированной игре. В том же Fillrate Tester мы заметили более высокие пики энергопотребления: 404 Вт для 3870X2 против всего 340 Вт для GTX 280 и 279 Вт для 9800 GTX. Энергопотребление GTX 260 лишь ненамного превышает 9800 GTX, что радует. Что касается максимального энергопотребления самих карт, то nVidia указывает 236 Вт для GTX 280 и 182 Вт для GTX 260.

С другой стороны, инженеры nVidia хорошо поработали над энергопотреблением в режиме бездействия. У видеокарт есть чип, который постоянно замеряет процент использования GPU, и в соответствие с данной информацией драйвер автоматически регулирует частоты, напряжение и активность каждого участка чипа. Следует признать, что результаты GT 200 действительно впечатляют, устраняя историческое отставание чипов nVidia от GPU AMD и даже обгоняя последнюю по минимальному энергопотреблению. GTX 260 получает 20-Вт падение в энергопотреблении на входе блока питания по сравнению с 9800 GTX, да и GTX 280 потребляет существенно меньше энергии - около 25 Вт в 2D (частоты падают до 300 МГц для GPU и 100 МГц для памяти) и примерно 35 Вт во время воспроизведения дисков Blu-ray. Результат действительно великолепен, он в той или иной степени отменяет преимущество технологии HybridPower, для которой нужно менять материнскую плату, чтобы полностью отключать внешнюю 3D-карту, теряя при этом игровую 3D-производительность!

Учитывая низкое энергопотребление в режиме бездействия и высокое, но не чрезмерное энергопотребление под нагрузкой, мы были уверены, что GT200 от nVidia будет соответствовать репутации относительно тихих high-end видеокарт со времён GeForce 7800 GTX. Мы ошибались.

После старта Windows вентилятор GT200 работал тихо (516 об/мин или 30% от максимальной скорости). Затем, после запуска игры, он превращал компьютер в пылесос, достигая уровня шума, который вряд ли можно назвать терпимым - особенно у GTX 280. GTX 260 показала себя чуть лучше, но тоже сильно шумела на 1 250 об/мин (причём шумел воздушный поток, а не сам вентилятор). Впрочем, наши значения шума в режиме бездействия замерялись после проведения всех тестов, после всего нескольких минут бездействия. Проблема в том, что GTX 280 никогда не спускается обратно на минимальный уровень, да и вентилятор GTX 260, который шумит меньше, всё равно вращается на 700 об/мин - относительно громко.

Результаты сложно понять, учитывая низкое энергопотребление GT200 в режиме бездействия, они могут быть связаны как с ошибкой в BIOS (хотя она тогда проявлялась на обеих видеокартах) или в драйверах, что оставляет надежду на исправление. С другой стороны, вентилятор всегда можно заметить вручную с помощью специального ПО, если вы будете следить за температурой (см. следующую страницу). В общем, вентиляторы данных видеокарт нас сильно разочаровали, особенно с учётом того, что часть горячего воздуха возвращается обратно в корпус и нагревает другие компоненты, включая сам GPU.

Наконец, мы обратили, что и аналогично тестам энергопотребления, результаты 3870 X2 под нагрузкой слишком хорошие. Тому есть причина: Test Drive Unlimited одна из немногих игр, в которой у этой видеокарты работает только один GPU, что снижает нагрев.

Теперь давайте посмотрим на температуру GPU, которую мы записали (для Radeon HD 3870 X2 она указана для активного GPU, вторая температура никогда не превышает 56°C под нагрузкой).

Неудивительно, что 260 GTX и 280 GTX очень хорошо охлаждаются - мы получили самые низкие температуры в режиме бездействия и одни из самых низких под нагрузкой. Неудивительно, поскольку данные видеокарты потребляют не самый высокий уровень энергии, и, как мы уже упоминали, используют агрессивную систему охлаждения. Мы так никогда и не подошли к уровню 105°C, когда частоты автоматически уменьшаются для защиты видеокарты. То есть, как мы и предполагали, nVidia имеет хороший запас для снижения уровня шума видеокарты как в режиме бездействия, так и под нагрузкой.

Разгон

В тестах разгона мы смогли разогнать GeForce GTX 260 с частот 576/1242/999 МГц (GPU/ALU/память) до 648/1397/1184 МГц, то есть на 12% и 18%, соответственно. Результат неплохой, он позволил выжать ещё 16% или 8,4 кадров в секунду в тестах 2 560 x 1 600 в Test Drive Unlimited - всего на 6% медленнее, чем GTX 280!

Вполне понятно, что мы разогнали и GTX 280: с частот 602/1296/1107 МГц до 655/1410/1290 при сохранении очень хорошей стабильности, с приростом 9% и 16%. Test Drive Unlimited вновь выиграла от прироста, увеличив частоту кадров на 13% - весьма неплохо по сравнению с 16%, которые мы получили у 9800 GTX. В целом, результаты приятные, особенно для разгона, который иногда определяется больше долей везения.

Заключение

Каково будет наше заключение по поводу новых видеокарт? Начнём с того, что параллель с GeForce 7800 GTX слишком очевидна. Карты построены на уже проверенной архитектуре, с исправленными слабыми местами, которые обнаружили инженеры nVidia, и с существенным приростом вычислительной мощности. Поэтому никаких неприятных сюрпризов по поводу архитектуры мы не выявили, за возможным исключением отсутствия поддержки Direct3D 10.1 или немного разочаровывающей производительности с числами с плавающей запятой двойной точности.

С другой стороны, в отличие от современной ситуации, во времена 7800 GTX у nVidia не было такой мощной видеокарты с двумя GPU, какой является 9800 GX2. Это можно считать недостатком во время объявления новых продуктов. У GTX 280 практически удвоилась чистая теоретическая производительность по сравнению с предыдущим поколением (и даже практическая производительность благодаря улучшению эффективности, хотя некоторые наши синтетические тесты не показали такое увеличение скорости, на какое мы надеялись). Но GTX 280 не так хорошо работает по сравнению с 9800 GX2, которая часто обгоняет новинку в игровых тестах. Конечно, вряд ли имеет смысл рекомендовать карту предыдущего поколения, которая имеет в два раза меньше полезной памяти и намного более высокое энергопотребление в режиме бездействия (если не считать других недостатков), её результаты в тестах всё же отняли часть славы у новой экстремальной high-end видеокарты. В этом сложно винить nVidia, поскольку на уже гигантском ядре сложно увеличивать число потоковых процессоров (АЛУ). Да и сравните с производительностью конкурента.

Есть ещё несколько огорчений. И самое основное среди них - очень высокий уровень шума, который сложно для GTX 280 и 260 сложно объяснить, поскольку их энергопотребление ниже, чем у видеокарт с двумя GPU под нагрузкой и очень незначительное в режиме бездействия. Не забывайте и про отсутствие поддержки DirectX 10.1, что можно назвать явно политическим выбором, который замедлит или даже предотвратит распространение этого стандарта среди разработчиков, а это несколько обидно в свете игры Assassin"s Creed. Да и цена GTX 280 ($650 на мировом рынке), благодаря которой карта позиционируется на самый экстремальный high-end, тоже весьма проблематична в свете очень агрессивной цены на "младшую" GTX 260 - а производительность последней всего на 18% уступает "старшей" модели. Цена для GTX заявлена почти в два раза ниже - $400! В итоге на дату начала продаж (26 июня) видеокарта станет весьма привлекательным решением, тем более, что она использует такой же GPU GT200.

Наконец, мы не можем не упомянуть очень интересных перспектив приложений CUDA. Хотя последние полтора года почти никто не упоминал CUDA в качестве позитивных особенностей GeForce 8, но сегодня ситуация изменилась, первые три интересные приложения уже готовы или почти готовы. Мы имеем в виду кодировщик видео BadaBOOM и бета-клиент Folding@Home GeForce, которые оставляют CPU и конкурирующие Radeon далеко позади, а также и поддержку GeForce PhysX, которая немало бы дала разработчикам. Они смогли бы объявить о поддержке технологии в следующих играх, хотя нам ещё предстоит оценить, какую разницу даст реализация на практике. Всё это существенно расширяет сферу применения CUDA-совместимых GeForce GPU (начиная с GeForce 8), если выход оптимизированного ПО для разных вычислений продолжится, и если AMD не попытается "перетянуть одеяло на себя".

nVidia GeForce GTX 280

Заключение по GTX 280 будет таково. Новая экстремальная high-end видеокарта GTX 280 от nVidia ($650) немного уступает в сравнении с 9800 GX2, которая регулярно выходит в лидеры в игровых тестах, несмотря на все недостатки карт с двумя GPU. Но, в реальности, настоящей угрозой является "младшая" модель GTX 260, особенно с учётом того, что за цену GTX 280 вы почти что сможете купить две GTX 260 в SLI!

Преимущества .

  • общая высокая производительность;

Недостатки .

  • Нет поддержки DirectX 10.1;
  • слабая производительность по сравнению с 9800 GX2;
  • высокий уровень шума;
  • высокая цена GTX 280 по сравнению с конкурентами nVidia.

nVidia GeForce GTX 260

Карта намного более привлекательная благодаря очень приятной цене. GTX 260 достойно себя показывает в игровых тестах и имеет большинство преимуществ GTX 280 без высокой цены. Карта начнёт продаваться на следующей неделе на мировом рынке за $400.

Мы вынуждены обратить внимание, что представительство nVidia в России работает неудовлетворительно: мы до сих пор не получили никакой информации ни о ценах, ни о доступности карт в нашей стране. Будем надеяться, что в России не станут задирать на них цены.

Преимущества .

  • Улучшенная архитектура GeForce 8;
  • производительность всего на 18% уступает GTX 280;
  • очень низкое энергопотребление в режиме бездействия;
  • ускорение CUDA-совместимых программ.

Недостатки .

  • Нет поддержки DirectX 10.1;
  • высокий уровень шума.




Общие характеристики

Тип видеокарты

Современные видеоадаптеры можно условно разбить на три класса, которые будут определять производительность и стоимость видеокарты: бюджетные, бизнес-класс и топовые модели. Бюджетные карты не сильно бьют по карману, но не позволят играть в современные, требовательные к ресурсам игры. Модели бизнес-класса позволят играть во все современные игры, но с ограничением по разрешению изображения, частоте кадров и другим параметрам. Топовые модели дают вам возможность играть в самые передовые игры с максимальным качеством.

офисная Графический процессор NVIDIA GeForce GTX 280 Интерфейс

Тип слота, в который устанавливается видеокарта. Через слот происходит обмен данными между видеокартой и материнской платой. При выборе видеокарты необходимо исходить из того, какой слот используется в вашей материнской плате. Наиболее распространены два типа подключения видеокарт - AGP, PCI-E 16x и PCI-E 1x.Словарь терминов по категории Видеокарты

PCI-E 16x 2.0 Кодовое название графического процессора GT200 Техпроцесс 65 нм Количество поддерживаемых мониторов 2 Максимальное разрешение 2560x1600

Технические характеристики

Частота графического процессора

Частота графического процессора во многом определяет производительность видеосистемы. Однако при повышении частоты работы процессора увеличивается и его тепловыделение. Поэтому для современных высокопроизводительных видеосистем приходится устанавливать мощную систему охлаждения, которая занимает дополнительное место и зачастую создает сильный шум при работе.Словарь терминов по категории Видеокарты

602 МГц Частота шейдерных блоков 1296 МГц Объем видеопамяти 1024 МБ Тип видеопамяти GDDR3 Частота видеопамяти 2210 МГц Разрядность шины видеопамяти 512 бит Частота RAMDAC 400 МГц Поддержка режима SLI/CrossFire есть Поддержка 3-Way SLI есть

Подключение

Разъемы поддержка HDCP, TV-out, компонентный

Математический блок

Число универсальных процессоров 240 Версия шейдеров

Шейдеры - это микропрограммы, которые позволяют воспроизводить такие эффекты как, например, металлический блеск, поверхность воды, реалистичный объемный туман, всевозможные деформации объектов, эффект motion blur (размытие при движении) и т. д. Чем выше версия шейдеров, тем больше у видеокарты возможностей по созданию специальных эффектов.Словарь терминов по категории Видеокарты

4.0 Число текстурных блоков 80 Число блоков растеризации 32 Максимальная степень анизотропной фильтрации

Так уж сложилось, что в последнее время на рынке 3D-ускорителей «балом правит» компания NVIDIA. Именно она выпускает самые быстрые современные видеокарты, порождая множество споров об их целесообразности, так как пользователям давно уже приходится мириться с тем, что "быстро" одновременно означает "очень горячо" и "очень дорого".

Объекты данного материала самые яркие представители этой категории. Мы познакомим вас с абсолютно новым High-End видеоадаптером GeForce GTX 280, и его предшественником в лице GeForce 9800 GX2. Обе эти карты сейчас самые дорогие на рынке, но при этом и самые быстрые. Старая карта демонстрирует такую мощь благодаря двум графическим чипам G92, а в основе новой - GPU последнего поколения GT200. Но обе отличаются огромными габаритами, "горячим нравом" и высоким энергопотреблением. Кто же быстрее и мощнее из этих двух монстров, мы и выясним ниже.

Особенности архитектуры GT200

После G80 NVIDIA не торопилась с кардинальными изменениями в архитектуре своих графических процессоров. Популярный G92 практически повторял предшественника, лишь ROP и текстурные блоки были немного улучшены. Новый же чип представляет собой следующее поколение универсальной шейдерной архитектуры, хотя, на самом деле, в основе его все так же лежит базовая архитектура G80.


Ядро GT200 состоит из десяти больших кластеров TPC (Texture Processing Clusters), что на два кластера больше, чем у представителей прошлого поколения. Строение этих вычислительных блоков аналогично предшественникам, но потоковых процессоров (SP) стало больше. На каждый TPC приходится по три потоковых мультипроцессорных юнита (SM), каждый из которых состоит из трех стрим-процессоров. Итого, в общем, получаем 240 универсальных потоковых процессоров. Для каждого SM-юнита выделена своя память объемом 16 КБ.


Основные изменения в шейдерных блоках коснулись модернизации локального регистрового файла, что дало прирост производительности при выполнении сложных программ-шейдеров. Также новый чип обладает возможностью выполнения двух инструкций за такт в одном шейдере. Точность вычислений с плавающей запятой увеличено до 64 бит.

Блоки TMU и ROP остались такими же, как и G92, но их количество было увеличено: до 80 текстурных блоков (по восемь на каждый TPC) и до 32 блоков растеризации, по восемь на каждый широкий ROP. Благодаря улучшениям текстурных блоков, NVIDIA говорит о 22% превосходстве в текстурировании относительно предшественника. Эффективность блоков ROP увеличена в возможности вывода до 32 пикселей с блендингом за такт, тогда как тот же G80 мог выводить только 24 пикселя и 12 с блендингом. Все вышесказанное касается старшего представителя на базе GT200 - GeForce GTX 280. Более доступное решение GeForce GTX 260 отличается чуть меньших числом функциональных блоков.

Но не только возможности по обработке графических задач были улучшены в новом чипе. Благодаря технологии CUDA, GT200 теперь может похвастаться поддержкой и других вычислительных задач. В таком режиме он работает как мультипроцессор с 240 вычислительными ядрами. Это позволит использовать эти видеокарты в специализированных расчетах. Справедливости ради, стоит отметить, что акселераторы Radeon уже давно обладают такой возможностью.

Большие вычислительные возможности чипа подтолкнули компанию на организацию расчетов физики в играх силами GPU. Эта технология является развитием технологии PhysX компании Ageia, которую недавно купила NVIDIA. Хотя тот факт, что энтузиастам удалось "взломать" драйверы NVIDIA и ввести поддержку аппаратного расчета физической модели в видеокарты Radeon, говорит о том, что PhysX не относится к каким-либо аппаратным особенностям графического чипа GT200, а является лишь соответствующей адаптацией программного API PhysX под универсальную щейдерную архитектуру.

Теперь, что касается еще одного нововведения. Шина памяти 512 бит (восемь 64-битных контроллеров памяти) при использовании GDDR3 позволила достичь пропускной способности в 141,67 Гб/с, и по этому критерию решение NVIDIA является лидером на рынке графических акселераторов. Но тут стоит отметить, что AMD пошла другим путем, и в своем новой графическом чипе RV770 ввела поддержку сверхбыстрой памяти GDDR5. Возможно, с выпуском новых GPU калифорнийцы также перейдут на использование прогрессивного типа памяти. Объем памяти у видеокарт GeForce GTX 280 составляет 1 ГБ, что для Hi-end решений становится уже нормой, учитывая аппетиты современных игровых приложений при выборе качественной графики. GeForce GTX 260 довольствуется лишь 896 мегабайтами памяти, при этом шина памяти составляет 448 бит.

GT200 выполняется по нормам 65-нм техпроцесса. В этом плане AMD пока лидирует - их новые чипы выполнены по 55-нм техпроцессу. Обладая огромных количеством транзисторов (1,4 млрд.) новый чип NVIDIA имеет громадную площадь в 576 кв. мм., а ширина кристалла достигает 2,4 см! С таким огромным ядром добиться выхода большого процента исправных чипов довольно тяжело, поэтому производство GT200 достаточно дорогое, что выливается в высокую окончательную стоимость готового продукта. Ниже приведено фото кристалла со схемой размещения его главных вычислительных блоков.


При таких размерах остро встает вопрос отведения тепла от кристалла. Да и энергопотребление у GT200 самое большое среди всех существующих чипов. Плата на базе GT200 в 3D потребляет до 236 Вт, а в 2D около 25 Вт: в зависимости от загрузки драйвер изменяет рабочую частоту чипа в большую или меньшую сторону. Опять же, подобные технологии уже давно прижились в продуктах ATI/AMD.

Также большой размер кристалла вынудил вынести блоки, отвечающие за интерфейсы (два RAMDAC, два Dual DVI, HDMI, DisplayPort, HDTV) в отдельный чип NVIO, что когда-то уже было с картами на базе G80. Из остальных интерфейсов отметим поддержку PCI Express 2.0 и двух разъемов для объединений видеокарт в режиме SLI и 3-way SLI.

Поддерживается технология HybridPower. При использовании материнской платы с данной технологией и встроенной видеокартой, внешняя в простое может быть отключена, а функции вывода изображения ложатся на плечи интегрированного графического ядра.

Никуда не делись возможности по аппаратному ускорению видео высокого разрешения, но и изменений нет. Все тот же PureVideo HD второго поколения, как и в предыдущих продуктах. Поддерживается вывод изображения через HDMI и DisplayPort.

А вот чего действительно не хватает в новом продукте, так это поддержки DirectX 10.1 и ShaderModel 4.1 - остался лишь "старый" DirectX 10.0. Конечно, программные преимущества обновленного API пока еще не используются разработчиками игр, но пора бы уже ввести поддержку соответствующих инструкций, тем более в новый топовый чип.

Подводя общие итоги по архитектуре, стоит отметить, что ничего кардинально со времен G92/G80 не поменялось, а все вычислительные блоки в среднем были увеличены в два раза. Остальные изменения коснулись лишь доработки функциональности этих самых блоков.

В таблицу, представленную ниже, занесены данные всех основных одночиповых решений различных поколений.

Видеокарта GeForce GTX 280 GeForce GTX 260 GeForce 9800 GTX GeForce 8800 GTS GeForce 8800 GTX
Ядро GT200 GT200 G92 G92 G80
Число транзисторов, млн. 1400 1400 754 754 681
Техпроцесс, нм 65 65 65 65 90
Число процессоров 240 192 128 128 128
Число TMU 80 64 64 64 32
Число ROP 32 28 16 16 24
Частота ядра, МГц 602 576 675 650 575
Частота процессоров, МГц 1296 1242 1688 1625 1350
Частота памяти, МГц 2214 2000 2200 1940 1800
Шина памяти, бит 512 448 256 256 384
Тип памяти GDDR3 GDDR3 GDDR3 GDDR3 GDDR3
Объем памяти, МБ 1024 896 512 512 768
Пропускная способность памяти, ГБ/с 142 112 70,4 62 86,4
Интерфейс PCI Express 2.0 PCI Express 2.0 PCI Express 2.0 PCI Express 2.0 PCI Express 1.1
Поддерживаемая версия DirectX 10 10 10 10 10
Энергопотребление, Вт 236 182 168 140 177

XpertVision GeForce GTX 280

Новый видеоадаптер от NVIDIA мы рассмотрим на примере продукта компании XpertVision, хотя на самом деле все карты, выпускаемые на данный момент, являются референсными, производимыми на "одном заводе". Делая свой выбор в пользу того или иного бренда, вы платите лишь за имя и комплектацию.


Видеокарта, которая попала к нам, как раз и отличалась весьма скудной комплектацией, что для такого дорого продукта очень непривычно:
  • Переходник DVI/D-Sub;
  • Переходник DVI/ HDMI;
  • Диск с драйверами;
  • Инструкция по установке.
Модель от XpertVision в качестве отличительных знаков имеет лишь наклейку на вентиляторе. Строгий черный кожух двуслотового кулера с наклонным вентилятором закрывает всю плату размером 270x100 мм. Задняя сторона тоже полностью закрыта металлической пластиной, которая служит и радиатором для чипов памяти и усиливает жесткость конструкции, предотвращая изгиб.



Вся информация о видеокарте нанесена на боковую стенку. Кстати, наклейки со штрих-кодом нанесены на место стыка верхней и нижней части кулера, так что снятие его чревато повреждением их и, соответственно, потерей гарантии.


С внешней боковой стороны расположены два разъема питания (6-pin и 8-pin). Разъемы SLI и S/PDIF (для подключения звука) закрыты резиновыми заглушками.


Сняв систему охлаждения, вряд ли можно будет увидеть что-то новое. Кулер по конструкции полностью повторяет аналоги на картах GeForce 8800GTS/9800GTX: медный сердечник посредством тепловых трубок передает тепло от ядра к тонким алюминиевым ребрам, которые продуваются турбиной. После чего отработанный воздух выходит наружу системного блока.


Да и сам дизайн платы недалеко ушел от дизайна PCB карт на базе G80, только защитной рамки вокруг чипа нет:



Ядро GT200, в связи со своими размерами обзавелось теплораспределительной крышкой, позволяющей также избежать сколов кристалла.


В качестве памяти используются микросхемы Hynix со временем доступа 0,8 мс (H5RS5223CFR-N2C) с номинальной частотой 2200 МГц и общим объемом 1024 МБ.

Мониторинг и разгон

Чип работает на частоте 602 МГц, при этом шейдерные блоки на 1296 МГц. Память GDDR3 функционирует на эффективных 2214 МГц (1107 МГц физических). Но такие частоты включаются лишь при загрузке GPU. В простое эти значения составляют лишь 300/100/200 МГц (ядро/шейдерный домен/память). При увеличении нагрузки ядро может быть установлено на частоту 400 МГц, память 594 МГц. А вот шейдерные блоки, судя по наблюдению, принимают лишь два дискретных значения.


Так же есть инерционность при переключении из высокочастотного режима в низкочастотный. При уменьшении нагрузки изменение частот происходит с запазданием в несколько секунд, вначале принимая средние значения, а потом уже опускаясь до минимальных.

RivaTuner 2.09 работает с новыми видеокартами, но скорость оборотов вентилятора не определяет. Эти данные можно просмотреть в утилите GPU-Z. Хотя управлять оборотами из меню RivaTuner можно, причем здесь положение ползунка соответствует активному на данный момент скоростному режиму в процентах.


Для измерения температуры мы традиционно использовали 10-минутный тест ATITool. Стоит отметить, что если вначале карта не нагрелась выше 81°C, то после двухчасового тестирования в играх, "волосатый куб" ATITool уже легко разогревал ядро до 85°C. При этом обороты поднимались до 92% от номинала. Это практически предел возможностей кулера, что свидетельствует о его низкой эффективности для охлаждения такой горячей карты.


Отдельно стоит отметить шумовые характеристики. GeForce GTX 280 можно смело назвать чемпионом по создаваемому шуму. Гул турбины слышен даже при работе в 2D. В 3D-режиме уровень шума достигает и превышает все мыслимые комфортные пороги. Сидеть за компьютером, в котором работает такая карта, не только неприятно, но и искренне становится жаль того, кто это "чудо" себе купит. В общем если вам не по душе постоянный гул от компьютера как от пылесоса, то готовьтесь в придачу к такой видеокарте купить сразу мощный альтернативный кулер.

Что касается разгона, то он оказался минимальный. Судя по артефактам, все упирается в охлаждение. Также нет возможности гнать отдельно растровый и шейдерный домены. Эта возможность в RivaTuner включается, но пока не работает. Частоты все равно изменяются синхронно, или даже могут сброситься до минимального порога. Видеокарту удалось разогнать до 633/1350/2520 МГц. По ядру это лишь на 5% выше номинала (что и разгоном то не назовешь), по памяти - 13% выше номинала. Учитывая изначально высокую ПСП этой видеокарты, можно предположить, что разгон памяти роли на итоговой производительности не играет.


Для разгона обороты вентилятора были подняты до 100% что позволило добиться даже более низкой температуры чем та, до которой карта прогревалась при 92% оборотах.ZOTAC GeForce 9800GX2

Главным соперником новой видеокарты GeForce GTX 280 выступает мультичиповый GeForce 9800 GX2, основанный на двух ядрах G92-450. Эта видеокарта до выхода представителя нового поколения занимала место самого производительного продукта. Посмотрим, сможет ли ее победить новое одночиповое решение. Самое интересное, что суммарное количество вычислительных блоков GeForce 9800 GX2 одинаково с одночиповым GeForce GTX 280.

В отличие от компании AMD, которая видит будущее в таки мультиядерных решениях, NVIDIA продолжает концентрировать силы на разработке одночиповых карт. Выпуск GeForce 9800 GX2 был вынужденным ответом на Radeon HD3870 X2, так как новое поколение находилось в стадии разработки, а лавры лидера никто и никому не собирался отдавать. Учитывая, что одноядерная GeForce 8800GTS 512MB запросто превосходит Radeon HD 3870 по производительности, не мудрствуя лукаво, NVIDIA взяла да и объединила две платы в SLI в пределах одного корпуса. Изначально жизненный путь GeForce 9800 GX2 должен был быть очень коротким, но как мы увидим ниже, не стоит возлагать большие надежды на новое поколение и "старичок" еще очень даже успешно конкурирует с новым High-End-видеоадаптером.

В качестве представителя GeForce 9800 GX2 к нам на тестирование попала видеокарта от компании ZOTAC.


Но опять же, все High-End-акселераторы на базе чипов NVIDIA повторяют референс и отличаются лишь комплектацией.

Комплектация:

  • Два переходника DVI/D-Sub;
  • Переходник питания с "молекса" на 6-pin;
  • Переходник питания с "молекса" на 8-pin;
  • Кабель HDMI;
  • Аудиокабель для подключения звука;
  • Диск с драйверами;
  • Полная версия игры LOST: Via Domus ;
  • Инструкция по установке.
Внешний вид видеокарты не сильно отличается от GTX 280. Все такой же массивный «кирпич» закованный в металлический корпус. Вот только теперь не видно турбины.



Устройство этой карты вы можете оценить по нижеприведенному слайду из документации NVIDIA.


Карты расположены по бокам конструкции и повернуты чипами и памятью вовнутрь, а между ними расположена система охлаждения, турбина которой, захватывая воздух через отверстия в платах, прогоняет его между ребрами радиатора и выбрасывает часть за пределы корпуса, а часть воздуха, причем большую, - обратно в системный блок (как в GeForce 9600 GT).


Для циркуляции воздушного потока в кожухе есть вентиляционные отверстия.



Одна из плат является главной - без установки драйвера работает только она одна. Поэтому при подключении монитора его нужно воткнуть в нижний разъем DVI под номером 1.


Кроме разъемов DVI имеется также HDMI, так что, переходники при подключении цифрового приемника видеосигнала не понадобятся. Внешние разъемы и коннекторы питания подсвечиваются. Энергопотребление платы ниже GeForce GTX 280 и составляет 197 Вт в пике. NVIDIA каждую плату в составе GeForce 9800 GX2 наделила своей памятью объемом 512 МБ, которая в SLI, как мы помним не суммируется.

Мониторинг и разгон

В соответствии со спецификацией данная видеокарта работает на частотах - 602/1512 МГц (ядро), 1998 МГц (физические 999 МГц) память. У данного видеоадаптера скорость оборотов турбины-кулера не определяется ни одной утилитой. Но в разделе управления кулером в RivaTuner скорость отображается в процентном соотношении и имеется возможность регулировать обороты турбины. Стартует вентилятор с немного более высоких оборотов чем у GeForce GTX 280, но зато и температура чипов немного меньше. В тесте ATITool температура ядер держалась на уровне 83-84°C.


Температурные датчики есть не только в каждом чипе, но и на каждой плате.

По шумовым характеристикам система охлаждения соответствует таковой у GeForce GTX 280. То есть, так же сильно гудит, но зато со своей задачей справляется немного лучше.

Разгон у этой карты оказался не выдающийся, особенно, учитывая результаты разгона GeForce 8800GTS в нашем прошлом обзоре . Рассматриваемая же модель стабильно работала на частотах 702/1728/2130 МГц (ядро/стрим-процессоры/память). Более высокие значения приводили к зависанию системы в некоторых тестах. Обороты были подняты до максимума, но это не помогло улучшить разгон. Установленный на обдув 120-мм вентилятор тоже не изменил ситуацию, хотя еще на пару градусов температура снизилась. Зависания обычно являются признаком нехватки мощности, но используемого на тестовом стенде блока питания на 1 кВт должно было хватать с лихвой.

Сравнительная таблица характеристик видеокарт
Видеокарта XpertVision GeForce GTX 280 1GB ZOTAC GeForce 9800GX2 512MB
Кодовое имя процессора GT200 2 x G92-450
Техпроцесс, нм 65 65
Частота ядра, МГц 602 602
Частота унифицированных шейдерных блоков, МГц 1296 1512
Количество унифицированных шейдерных блоков 240 2 x 128
Количество текстурных блоков TMU 80 2 x 64
Блоков блендинга ROP 32 2 x 16
Частота памяти, МГц 2214 1998
Разрядность интерфейса памяти, бит 512 2 x 256

Тестовый стенд:

  • Процессор: Core 2 Duo E8400 3 ГГц (разогнанный до 4 ГГц, 445 МГц FSB);
  • Кулер: Thermalright Ultra-120 eXtreme;
  • Материнская плата: Gigabyte P35-S3;
  • Память: 2х2GB OCZ PC6400 (890 МГц при таймингах 5-5-5-15);
  • Жесткий диск: 320GB Hitachi T7K250;
  • Блок питания: Chieftec CFT-1000G-DF;
  • Операционная система: Windows XP SP2, Windows Vista Ultimate SP1;
  • Драйвера: ForceWare 177.41 для GTX 280, ForceWare 175.19 для 9800GX2;
Использовались 32-разрядные операционные системы, поэтому, несмотря на общий объем памяти в 4 ГБ, задействовано лишь 3,5 ГБ. Тесты проводились в разрешении 1280х1024 и 1600х1200. Тестирование с включением сглаживания использовалось лишь в тех играх, где оно поддерживается непосредственно самим приложением. Для видеокарт использовались последние официальные драйвера, доступные на сайте NVIDIA.

Для сравнения с предыдущим поколением, в графики были добавлены результаты ASUS GeForce 8800 GTS 512MB из прошлого тестирования. Для этой карты использовались чуть более старые драйвера версии ForceWare 175.16.

Результаты тестирования в DirectX 9


В этом синтетическом тесте лидирует GeForce 9800 GX2. Она на 33% процента быстрее GeForce 8800 GTS и на 8% быстрее GeForce GTX 280 на номинальных частотах.

S.T.A.L.K.E.R. (DX9)

Традиционно первым игровым тестом выступает этот популярный отечественный шутер .


Все настройки графики на максимум, анизотропная фильтрация включена. Тест проводился на первой локации "Кордон".


Ситуация в этой игре повторяет расстановку сил в предыдущем тесте. Опять на первом месте двухчиповая видеокарта. Новичок уступает ей 10-14%, но обгоняет видеокарту 8-й серии на 30-40%, которая, благодаря неплохому потенциалу, в разгоне сокращает этот разрыв.

TimeShift (DX9)


Настройки графики максимальные, включена фильтрация AF16x. Небольшой игровой эпизод переигрывался по три раза для более точного результата.


В низком разрешении наблюдается паритет между двумя главными соперниками, но лучший разгон позволяет двухчиповой модели опередить новичка. А вот в более тяжелом режиме изначально лидирует GeForce 9800 GX2.

Unreal Tournament 3 (DX9)

Популярный сетевой шутер. На движке этой игры создано множество других популярных проектов, так что производительность в этом приложении очень показательна.


Настройки графики максимальные. Тест проводился на уровне ShangriLa без ботов. Для каждого режима тест проводился по три раза.


И снова паритет между соперниками в низком разрешении, и безоговорочное лидерство GeForce 9800GX2 в высоком. Примечательно, что игра неплохо реагирует на мультичиповые решения, карта с двумя G92 на 75% быстрее одного G92.

Call of Duty 4 (DX9)

Одна из лучших игр прошлого года.


Тестирование проводилось на уровне WarPig. Данный игровой эпизод отличается множеством ботов, взрывов, дыма в кадре. Результаты построены по итогам пятикратного прогона данного игрового эпизода, чтобы уменьшить погрешность.


В общем-то, все видно на графиках, снова GeForce GTX 280 занимает почетное второе место. Учитывая цену на эту карту, хотелось бы наконец-то увидеть, чтобы она хоть где-то обогнала представителя прошлой серии.

Legend: Hand of God (DX9)

Diablo-клон с красивой графикой.


Все настройки графики максимальные. Графический движок игры не отличается оптимизацией, тем более интересно, какие результаты будут на столь мощных видеокартах.


Говорить об однозначной победе GeForce GTX 280 в этой игре нельзя. Производительность всех видеокарт без активации сглаживания примерно на одном уровне. Кстати, эта игра явно безразлична к SLI. GeForce 8800GTS умудряется даже слегка обогнать GeForce 9800GX2. А вот активация фильтрации и сглаживания сразу выводит на первое место новичка. Видно, что у GT200 все же есть порох в пороховницах.

Race Driver: GRID (DX9)

Отличный автосимулятор с красивой графикой на движке Colin McRae Rally DIRT.


Настройки графики максимальные. Результатов GeForce 8800GTS с MSAA 4х нет, поскольку эта карта в прошлый раз тестировалась в другом режиме сглаживания.


Для тестов использовался стандартный GPU-бенчмарк.


Уверенная победа нового флагмана, в низком разрешении он обгоняет соперника на 20%, в высоком на 12%. Правда, разгон второго позволяет ему немного сократить разрыв, но даже в разгоне он не может достигнуть показателей старшей модели.
Результаты тестирования в DirectX 10

Devil May Cry4 (DX10)

Первый тест под DirectX 10. Игра хоть и новая, но отличается невысокими системными требованиями.


Тестирование проходило следующим образом: совершалась прогулка по определенному маршруту, включая прогулку по крышам, переулкам и небольшой площади, насыщенной NCP. По троекратным испытаниям получены средние результаты. В высоком разрешении 1600х1200 (реальное игровое разрешение 1600х900) игра просто не позволяет включить сглаживание, поэтому этих результатов для данного разрешения на диаграмме нет.


Не триумф, но уверенная победа GeForce GTX 280 во всех тестируемых режимах. Даже более удачный разгон не позволяет сопернику обогнать модель на GT200.

Еще одна игра, где уверенно лидирует GeForce GTX 280, причем наибольший отрыв данной видеокарты в тяжелых режимах со сглаживанием. Судя по двум последним играм в DirectX 10 новичок проявляет себя лучше, чем в играх под DirectX 9.

Crysis (DX10)

Тесты под DirectX 10 проводились в пропатченной версии 1.2. Проверим, подтверждается ли наше предположение, что основной потенциал GeForce GTX 280 раскрывается в DirectX 10.


После довольно радостных для GeForce GTX 280 результатов в этой игре под старым API, мы видим, что сейчас уже она не может соперничать с GeForce 9800GX2. Конечно есть двукратное превосходство новичка в высоком разрешении со сглаживанием, но этим показателям далеко до играбельного FPS. Как видим, новые флагманы 3D-ускорителей наконец-то могут обеспечить комфортную производительность в Crysis под DirectX 10, но только лишь в разрешении 1280х1024.

Выводы

Если вы ждали сенсации и прорыва от новых видеоадаптеров NVIDIA, то можете ждать дальше. Прорыва подобного выходу G80, не случилось. Новый чип представляет собой в два раза увеличенный по мощности старый добрый чип G92 с небольшими улучшениями вычислительных блоков. На деле это выливается в то, что предыдущий флагман компании на двух G92 в большинстве игр обгоняет новичка. И это при том, что на GeForce 9800GX2 еще и цена меньше.

Конечно потенциал у новой видеокарты есть, шина 512 бит и большой объем памяти помогают ей иногда поддерживать лидерство в тяжелых режимах. Но проблема именно в этом "иногда". Добавьте к этому более высокое энергопотребление новой видеокарты и ее горячий нрав. Вывод напрашивается сам собой. Если есть более дешевая, часто более быстрая и немного более прохладная (все же температура ее чипов меньше) GeForce 9800 GX2, то зачем нам что-то другое и более дорогое?

Но есть и довольно веский аргумент в пользу новой модели. Многочиповые решения имеют определенные проблемы с программной оптимизацией. В нашем тестировании была лишь одна игра, где явно видно, что потенциал двух G92 не используется. В Legend: Hand of God GeForce 9800GX2 даже уступила пару процентов одночиповому предшественнику с более высокими чатсотами. В остальных же играх двухчиповый GeForce всегда обгонял GeForce 8800GTS, и иногда довольно существенно. Так что не так страшен SLI, как его рисуют. По крайней мере, так обстоят дела на 32-разрядных операционных системах. На x64, по отзывам, дела с оптимизацией обстоят похуже. Последние борцы за одночиповые решения могут вспомнить и характерные "лаги" у двухчиповых карт. Да, такое имеет место быть. Но из всех протестированных игр это явно было заметно лишь в Crysis. В остальных играх игровой процесс если не идеален, то кратковременные просадки производительности не заметны. Видеокарта мощная, и если даже будет просадка от 100 до 50 FPS, то 90% игроков этого просто не почувствуют.

На фоне таких приятных умозаключений напрашивается еще один вопрос. А зачем нам тогда и GeForce 9800GX2 нужен? Если за ее цену можно спокойно взять две GeForce 8800 GTS и поставить их в SLI. При этом карты будут лучше охлаждаться, что позволит даже больше их разогнать. Ведь GeForce 9800 GX2 практически ничем не отличается от того же SLI, который можно получить на материнской плате.

Если же сравнивать цены на рассмотренные сегодня продукты с их уровнем производительности, то становится ясно, что 50-100% прироста производительности над одной 8800GTS выливаются в 2-3 кратное увеличение цены. При этом вы получаете печку с невыносимым уровнем шума. Платить 500-700 у.е. за топовый акселератор, чтобы играть затыкая уши? Бред. Так что, сразу же приготовьтесь менять стандартную систему охлаждения, и желательно на СВО.

Положа руку на сердце, стоит сказать, что продукты подобные GeForce 9800 GX2 и GeForce GTX 280 в соотношении "цена/производительность" не самые привлекательные варианты. Но High-End всегда таким был. Мы переплачиваем за возможность купить уже сейчас, то, что через год будет стоить в два раза дешевле. Но все же хотелось бы за такие деньги получить готовый к "употреблению" продукт, а не конструктор для энтузиастов. Если вы не считаетесь с финансами и всегда мечтали собрать себе SLI из двух или трех мощнейших видеокарт, при этом в придачу организовать СВО, то рассмотренные модели как раз то, что надо. Мощнее и горячее их пока нет. :)

В одном из ближайших материалов мы постараемся познакомить вас с новыми мощными видеоадаптерами от AMD и NVIDIA меньшей ценовой категории. Сравним их с данными топовыми моделями и выясним, какая модель все же самая эффективная в соотношении "цена/производительность".

Благодарим следующие компании за предоставленное тестовое оборудование:

  • DC-Link , в частности Александра aka Punisher, за видеокарту GeForce GTX 280 и блок питания Chieftec CFT-1000G-DF;
  • PCshop Group за видеокарту GeForce 9800GX2;
  • Магазин STORM за процессор Core 2 Duo E8400 и память OCZ PC6400.

На улице лето, за окном гроза, дует теплый влажный ветер, под боком в стенде стоит новая печка-грелка, извергающая на меня горячий воздух после снятия жара с 280-ти Ватт выделенного тепла, все одно к одному.

Мне нравятся Hi-End ускорители тем, что если его снять с компа сразу после работы (с руганью и дуя на обожженные пальцы), положить во всевозможные предохранительные пакеты, спасающие чудо технику прецизионного качества от повреждений, то даже после перевозки в течение часа — изделие будет теплым, как будто сейчас только что с фабрики или хлебопекарни. И даже иногда горячим. Так что все эти сотни Ватт — это вам не лампочку вывернуть и в кармане донести.

Мы внутри раздела в силу работы и служебных нужд иногда передаем друг другу видеокарты для тестов и прочих исследований, и подчас принимаешь ускоритель, а он внутри почти горячий еще… За время перевозки в машине не успел остыть… :)

Так вот, играм все нужно больше FPS, людям нужно больше красивой графики, а ускорителям нужно больше кушать, и потому компании-производители кулеров будут еще долго при делах, придумывая новые изощренные способы снять жар с огнедышащих драконов квадратной формы и вывести его за пределы корпуса (иногда и просто в корпус, чтобы там все спеклось). Скоро на видеокарты будем надевать такие же огромные 24-пиновые коннекторы, какими подрубаем питание к материнским платам. Уже пойдет речь о трехслотовых видеокартах, которым наверно потребуется уже особое крепление в корпусе. Да, вроде бы техпроцесс все уменьшается, но размеры видеокарт все растут и растут, ибо от них хотят все больше и больше.

Бедная Nvidia сделала очередного монстра, как в 2006 году — G80, чип очень дорогой — это видно по всем параметрам, судя по первой информации — карт в продажу после анонса пойдет очень мало, что говорит о невысоком проценте выхода годных. При этом, чтобы сбить спрос — цену на GTX 280 подняли до небес. Почему бедная? — ну потому что есть разница в ситуации в 2006 году и сейчас. Если тогда реально была нужда в новых супермощных картах, и G80 показал тогда реально революционный прорыв, то теперь это очередные плюс двадцать-тридцать процентов к… 9800 GTX. Да, даже не к 9800 GX2. Ниже мы все покажем детально. Хотя есть и тесты, где GTX 280 является полный лидером. И если ранее реально G80 (8800 GTX) — разбирался как горячие пирожки зимой, то теперь спрос явно будет не таким высоким. Хотя с учетом того, что в начале продаж карт вообще будет очень мало, Nvidia боится и такого спроса, потому цены подняты до 650 долларов США, что явно нелогично, ибо даже 9800 GX2 стоит дешевле.

Ну чтобы интригу разбавить практикой, мы перейдем к изучению карты. Теоретическую часть читатели уже изучили, поняли, что внутри одного такого квадратика со стороной в 3 см находится воплощение суперидей инженеров Nvidia, для которых потребовалось аж почти полтора миллиарда транзисторов, теперь посмотрим на то, а как он выглядит.

Платы

  • GPU: Geforce GTX 280 (GT200)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 600/1300 MHz (номинал — 600/1300 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 512bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 240
  • Число текстурных процессоров: 80 (BLF/TLF)
  • Число ROPs: 32
  • Размеры: 270x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: вынесены в отдельный чип NVIO.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-out.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
Сравнение с эталонным дизайном, вид спереди
Reference Nvidia Geforce GTX 280 1024MB PCI-E
Сравнение с эталонным дизайном, вид сзади
Reference Nvidia Geforce GTX 280 1024MB PCI-E Reference card Nvidia Geforce 9800 GTX

Очевидно, что перед нами совершенно новый дизайн, не похожий ни на что ранее вапускаемое Nvidia, поскольку PCB несет в себе 512-битную шину обмена с памятью. Это заставляет размещать на текстолите 16 микросхем памяти, поэтому потребовался дизайн с двухсторонним монтажом микросхем (по 8 штук на каждой стороне). Поэтому длина карты осталась большой, да и PCB весьма дорогая. Не забываем, что Nvidia снова прибегла к способу разделения блоков GPU, и вынесла все блоки, отвечающие за вывод информации, в отдельную микросхему NVIO, как это было в случае G80 (8800 GTX/Ultra).

Выше показаны GPU и тот самый NVIO. Понятно, что размеры кристалла у GPU намного меньше — он закрыт крышкой, однако можно себе представить площадь ядра, вмещающего в себя почти 1,5 миллиарда транзисторов.

Теперь о кулере. Система охлаждения принципиально не отличается от того варианта, что мы видели еще на Geforce 8800 GTS 512. Да и форма кулера та же самая. Просто выросла длина радиатора в соответствии с размерами самой карты, ну и сзади установлена пластина для охлаждения микросхем памяти на обороте карты. Все устройство собрано так, что создает единый общий большой радиатор из крышек (задняя и передняя крышки защелкиваются, поэтому при разборе видеокарты и снятии кулера есть определенные сложности и нужен некий опыт, чтобы обнажить саму карту, не нанеся повреждений). Опыт создания 9800 GX2 с такими же защелками понравился инженерам.

Напоминаем еще раз важный момент: длина ускорителя — 270 мм, как у 8800 GTX/Ultra, поэтому в корпусе должно быть достаточно места для установки такой конструкции. А также обратим внимание на ширину кожуха, которая неизменна вдоль всей длины, а следовательно на материнской плате за PCI-E x16 разъемом не должно быть никаких портов и высоких конденсаторов, причем на ширину 30 мм (то есть не только за самим слотом PCI-E, но за соседним с ним не должно быть никаких высоких частей на системной плате).

Видеокарты этой серии оснащены гнездом для подключения звукового потока с аудио-карты для передачи его затем на HDMI (с помощью переходника DVI-to-HDMI), то есть сама видеокарта не оснащена аудио-кодеком, но осуществляет прием сигнала от внешней звуковой карты. Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был аудио-шнурок для этих целей.

Также отметим, что питание ускорителя осуществляется с помощью ДВУХ разъемом, причем 6-пинового и 8-пинового. Поэтому также следует обращать внимание на наличие в комплекте поставки переходника питания на 8-пин.

У карты имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуются специальные адаптеры-переходники, поставляемые вместе с картой. Более подробно о ТВ-выходе можно почитать .

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть.

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос , с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться .

Мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) и получили следующие результаты:

Стоит особо обратить внимание на то, на сколько снижаются частоты при работе в 2D (левый маркер на скриншоте) — до 100(!) МГц по шейдерному блоку и по памяти! Это реально снижает потребление карты до 110 Вт. Когда как в 3D при полной нагрузке ускоритель ест все 280 Вт! И при этом нагрев ядра достигает 80 градусов, что укладывается в норму, особенно если учесть, что кулер остается тихим. В этом плане карта безупречна, только лишь нужен очень мощный блок питания. Полагаем, что всем понятно, что ниже 700Вт даже нет смысла пробовать.

Поскольку карта поставляется в ОЕМ-виде как сэмпл, то о комплекте поставки речь не идет.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Zotac 790i Ultra а чипсете Nvidia nForce 790i Ultra;
    • оперативная память 2 GB DDR3 SDRAM Corsair 2000MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.5; Nvidia версии 175.16 (9ххх серия) и 177.34 (GTX 280).

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка .
  • RightMark3D 2.0 с кратким описанием:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce GTX 280 GFGTX280 )
  • Nvidia Geforce 9800 GX2 со стандартными параметрами (далее GF9800GX2 )
  • Nvidia Geforce 9800 GTX со стандартными параметрами (далее GF9800GTX )
  • Nvidia Geforce 8800 Ultra со стандартными параметрами (далее GF8800U )
  • RADEON HD 3870 X2 со стандартными параметрами (далее HD3870X2 )
  • RADEON HD 3870 со стандартными параметрами (далее HD3870 )

Для сравнения результатов Geforce GTX 280 были выбраны именно эти модели видеокарт по следующим причинам: с Geforce 9800 GX2 её будет интересно сравнить, как с быстрейшей двухчиповой картой на GPU предыдущего поколения, с Geforce 9800 GTX — как с одночиповой, со старой моделью Geforce 8800 Ultra сравниваем для того, чтобы посмотреть разницу в пропускной способности, оценить влияние улучшений архитектуры. Ну а с RADEON HD 3870 и HD 3870 X2 сравнение интересно потому, что это быстрейшие одночиповое и двухчиповое решение от AMD на данный момент.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

Как обычно — не у всех видеокарт получаются значения, близкие к теоретическим. Чаще всего, результаты синтетики не дотягивают до теории, ближе всего к ним подбираются видеокарты на основе G80 и RV670, они не добирают до теории лишь 10-15%. А вот для видеокарт Nvidia, отличающихся улучшенными TMU, в нашем старом тесте теоретический максимум не достигается. Причём, не видно никаких улучшений в GT200, что G92 в нашем тесте выбирает лишь около 32 текселей за один такт из 32-битных текстур при билинейной фильтрации, что GT200 не дотягивает до теоретических способностей. Впрочем, возможно, виноват наш устаревший тест.

Тем не менее, Geforce GTX 280 слишком близок к Geforce 9800 GTX, а с одной текстурой он вообще проигрывает даже Geforce 8800 Ultra, несмотря на большую ПСП! А ведь в таких случаях карты ограничены пропускной способностью видеопамяти… В случае с большим количеством текстур на пиксель, способности блоков ROP раскрываются полнее, и в более тяжелых условиях карта на GT200 становится быстрейшей (если учесть некорректный результат теста двухчиповой видеокарты Nvidia). Двухчиповую же карту от AMD новинка опережает во всех протестированных режимах. Посмотрим на результаты в тесте филлрейта:

Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. Странно, что в случаях с 0 и 1 накладываемыми текстурами у Geforce GTX 280 получился такой низкий результат, обычно в таких режимах производительность ограничена ПСП, а также количеством и рабочей частотой блоков ROP. А с этим у нового решения всё в порядке…

Но получается всё так же, как и в предыдущем тесте — лишь в ситуациях с большим количеством текстур на пиксель, Geforce GTX 280 немного выигрывает у ближайших конкурентов, хотя должен бы отрываться сильнее.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:

Все современные чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Собственно, результаты в очередной раз подтверждают то, что чипы AMD быстрее обрабатывают геометрию, по сравнению с чипами Nvidia, а двухчиповые решения в AFR режиме эффективно удваивают частоту кадров. Geforce GTX 280 проигрывает двухчиповым картам, опережает решение на G80 и находится на одном уровне с быстрейшей из одночиповых карт на основе G92. Получается, что этот тест зависит исключительно от тактовой частоты GPU. Что интересно, эффективность выполнения теста в разных режимах у GT200 больше походит на ту, что показывает G80, но не G92.

Мы убрали из рассмотрения промежуточные тесты на скорость обработки геометрии с одним источником освещения, и сразу же переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:

В этом варианте разница между решениями AMD и Nvidia видна лучше, разрыв немного увеличился. Geforce GTX 280 показывает лучший результат из карт Nvidia, чуть-чуть опережая Geforce 9800 GTX и 8800 Ultra, кроме FFP теста, который сейчас уже никого не интересует. В целом, новый чип неплохо проявляет себя в данных геометрических тестах. Но в реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.

Тесты слишком просты для современных архитектур и не показывают их истинную силу. Это хорошо видно по первым двум тестам (Wood и Psychodelic), результаты которых почти на всех решениях одинаковые. Кроме того, в простых тестах производительность ограничена скоростью текстурных выборок, что видно по слабым результатам RADEON HD 3870 X2, показавшем результат на уровне одночиповых решений Nvidia.

В более сложных тестах Geforce GTX 280 показывает неплохие результаты, опережая и топовую карту на G92, и карту на G80. Причём, с увеличением сложности задачи, отрыв GT200 от предыдущих чипов явно растёт. Хотя двухчипового 9800 GX2 карта не догоняет ни в одном из тестов. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:

В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, поэтому карты расположились строго по скорости текстурирования, как было на самом первом графике. Единственный RADEON, даже будучи двухчиповым, отстаёт от всех решений на основе G92, G80 и GT200. Ну а рассматриваемая сегодня видеокарта проигрывает только двухчиповой 9800 GX2, опережая одночиповых собратьев, точно по теории.

Второй тест, более интенсивный вычислительно, явно лучше подходит для архитектуры R6xx и GT200, обладающих большим количеством вычислительных блоков. В этом тесте решение AMD показывает лучший результат, далее следует также двухчиповая карта, но от Nvidia. Но самое приятное в том, что Geforce GTX 280 проигрывает им совсем чуть-чуть! Неплохой результат, GT200 быстрее одного G92 в этом тесте в 1.7 раза, как Nvidia и писала в своих презентациях. А вот эффективности SLI для 9800 GX2 явно не достаёт.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Положение видеокарт в тесте «Frozen Glass» отличается от результатов предыдущих тестов. Несмотря на то, что это математические тесты, зависящие от частоты шейдерных блоков, Geforce GTX 280 выигрывает у 9800 GTX совсем немного, а двухчиповый 9800 GX2 далеко впереди них обоих. Видимо, производительность ограничена не только математикой, но и скоростью текстурных выборок. RADEON HD 3870 X2 показывает самый слабый результат.

Зато во втором тесте «Parallax Mapping» решение AMD заметно сильнее, хоть и снова позади лучших карт Nvidia. Но в этот раз оно проигрывает только новой видеокарте и двухчиповому решению. Улучшения в TMU и внутричиповых кэшах сказались на результате GTX 280, она обогнала двухчиповый RADEON и немного отстаёт от аналогичного решения на двух G92. Рассмотрим эти тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там видеокарты на основе G92 должны показать более высокие относительные результаты:

Положение немного изменилось, мы видим явный упор производительности в скорость текстурных блоков. Geforce GTX 280 во всех тестах прилично опережает решение AMD и немного — всех одночиповых собратьев. А вот впереди всех — двухчиповый Geforce 9800 GX2. Надо заметить, что для всех решений варианты шейдеров с большим количеством математических вычислений работают быстрее в 1.5-2 раза, по сравнению с их «текстурными» вариантами.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье
  • Fur — процедурный шейдер, визуализирующий мех

Хотя решения AMD обеспечивают эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений, Geforce 9800 GTX показывает результат на одном уровне с двухчиповой картой на базе RV670. Это можно объяснить ускоренными билинейными текстурными выборками в архитектуре G9x и большей эффективностью использования имеющихся ресурсов, обусловленную разницей между скалярной и суперскалярной архитектурами.

Двухчиповый Geforce 9800 GX2 почти удваивает производительность, являясь лидером в обоих тестах, ну а рассматриваемый сегодня Geforce GTX 280 логично расположился посередине между этими решениями. Хотелось бы большей разницы между скоростью GT200 и G92, конечно… Хотя бы в 1.6-1.7 раз.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Результаты в «High» получились почти в полтора раза ниже, чем в «Low». В остальном — Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок снова показывают огромное преимущество решений Nvidia над AMD. Производительность в этом тесте зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. Сравнение результатов Geforce 9800 GTX и 8800 Ultra указывает на это.

У героя обзора Geforce GTX 280 очень хорошие результаты в этом тесте, он лишь чуть-чуть отстал от двухчипового Geforce 9800 GX2, обогнав одночиповое решение на G92 на 60-70%. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, но на видеокартах Nvidia скорость снижается чуть сильнее, чем на AMD, за счет чего отрыв между ними сокращается, и HD 3870 вместе с X2 вариантом совсем немного подтягиваются вверх. Но преимущество карт Nvidia никуда не делось, оно подавляющее.

В остальном, с увеличением сложности шейдера и нагрузки на видеочип, разница между Geforce GTX 280 и всеми остальными картами Nvidia очень сильно растёт. Теперь новый GTX опережает старый в 2.5 раза! Вот что значит архитектура, переработанная для исполнения сложнейших шейдеров. Даже двухчиповый 9800 GX2 повержен с большим преимуществом.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Этот тест даже интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Повторилась ситуация предыдущего теста. Хотя решения AMD ранее были сильны в Direct3D 9 тестах parallax mapping, в обновленном D3D10 варианте без суперсэмплинга они не могут справиться с нашей задачей на уровне видеокарт Geforce. Кроме того, включение самозатенения вызывает на продукции AMD большее падение производительности, по сравнению с разницей для решений Nvidia.

Рассматриваемый нами сегодня Geforce GTX 280 уже без включения суперсэмплинга начинает опережать всех, включая Geforce 9800 GX2, обгоняя 9800 GTX и 8800 Ultra в тяжелом режиме более чем в два раза. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростью разных видеокарт уже несколько другая. Включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD улучшают свои показатели относительно решений Nvidia. HD 3870 продолжает отставать от всех Geforce, зато двухчиповый X2 почти на одном уровне с 8800 Ultra и 9800 GTX.

Что касается сравнения Geforce GTX 280 с предыдущими топами на базе одного чипа G80 или G92, они оба повержены с 2-3 кратным преимуществом! А в High режиме новая видеокарта намного быстрее и двухчиповой на G92. Снова просто отличный результат, показывающий, насколько хорошо GT200 разбирается с такими сложнейшими задачами.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Ранее, при анализе результатов наших синтетических тестов, мы не раз отмечали, что в вычислительно сложных задачах современная архитектура AMD показывает себя зачастую лучше конкурирующей от Nvidia. Но время идёт, и ситуация меняется, теперь в соперничестве RADEON HD 3870 и любого из Geforce, решение AMD уступает. Зато двухчиповый HD 3870 X2 хорош (спасибо AFR), почти на одном уровне с двухчиповым же Geforce 9800 GX2.

Но нас с вами сегодня интересует производительность Geforce GTX 280. И она просто отличная, видеокарта на основе нового чипа GT200 почти догоняет двухчиповые карты прошлого поколения, опережая «старую» Geforce 8800 Ultra и «почти новую» Geforce 9800 GTX на 60-70%, что примерно соответствует разнице в чистой мощности шейдерных блоков, их количеству и тактовой частоте.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В общем, в данном тесте скорость рендеринга явно ограничена производительностью шейдерных блоков. Со времени выхода RADEON HD 3870 X2 ошибка в драйверах AMD была исправлена, результат их решений AMD стал подобающим теории, и теперь RADEON HD 3870 в этом тесте показывает скорость даже выше, чем у всех Geforce 8800 и 9800.

Но не Geforce GTX 280, опережающий одночиповых предшественников от Nvidia более чем в 1.5 раза, что также близко к теоретической разнице в шейдерной производительности. Лидером же является двухчиповый RADEON HD 3870 X2. И вероятно, что с появлением новых решений AMD, пальма первенства в математических тестах перейдёт к ним.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Начинается самое интересное, ведь в Nvidia пообещали увеличение эффективности исполнения геометрических шейдеров. Впрочем, график показывает, что первый тест слабо использует эти возможности, и нам придётся подождать второго. Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое. Производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничение скорости мощностью потоковых процессоров в тесте не явное, задача ограничена также и ПСП и филлрейтом, хотя и в меньшей степени.

Geforce GTX 280 показывает результат на уровне двухчиповой RADEON HD 3870 X2, что более чем в два раза быстрее одиночной HD 3870. По скорости среди собратьев от Nvidia, результат анонсированной карты лёг точно между одиночной картой на базе чипа G92 и двухчиповой версией. В целом — не так плохо, хотя хотелось бы достижения производительности 9800 GX2. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится, посмотрим:

Разница между рассмотренными вариантами теста невелика, существенных изменений не произошло. Все видеокарты Nvidia показывают почти те же результаты при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер. Зато результаты обеих видеоплат AMD немного выросли, и RADEON HD 3870 отстаёт уже меньше, а двухчиповая HD 3870 X2 даже немного впереди Geforce GTX 280. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. Производительность Geforce 9800 GX2 в этот раз провалилась куда-то глубоко-глубоко, возможно, на новых драйверах ситуация будет иной. Обе карты производства AMD также отстают от всех решений Nvidia.

Если сравнивать все платы на G80, G92 и GT200, наглядно видно, что упор в тесте получается во что-то отличное от ПСП, филлрейта и вычислительной мощности — все карты практически равны. Хотя и несколько удивительно, что в тяжелом режиме GT200 немного проигрывает G92… Цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Ну вот, дождались! Впервые в геометрических тестах, соотношение скоростей между GT200 и всеми остальными изменилось так, как было задумано инженерами Nvidia, когда они устраняли недостатки предыдущих архитектур. Geforce GTX 280 более чем в два раза быстрее и Geforce 9800 GTX и 8800 Ultra. Мало того, он опережает и двухчиповый RADEON HD 3870 X2. Вероятно, выиграл бы и у 9800 GX2 по-честному, даже без помощи драйверных проблем последнего в этом тесте.

Что касается сравнения результатов в разных режимах, тут всё как всегда, в конкурентной борьбе одночиповой видеоплате AMD не помогает и то, что при переходе от использования «instancing» к геометрическому шейдеру при выводе, видеокарты Nvidia (кроме новой на GT200) теряют в производительности. У всех карт Geforce на основе чипов G92 и G80 скорость в «Balanced» режиме получается выше, чем в «Heavy» у RADEON HD 3870. При этом, получаемая в разных режимах картинка не отличается визуально.

Много интереснее поведение Geforce GTX 280 в «Balanced» и «Heavy». Это — первая видеокарта Nvidia, получившая прирост производительности от переноса части вычислений в геометрический шейдер в данном тесте. Снова налицо работа над ошибками у Nvidia, как это было ранее уже не раз! Кое-кому надо бы поучиться у них, а не продолжать наступать на одни и те же грабли уже которое поколение…

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Судя по предыдущим исследованиям, на результаты этого теста сильно влияет пропускная способность памяти, и чем проще режим, тем большее влияние на скорость она оказывает. Это хорошо заметно по сравнительным результатам Geforce 9800 GTX и Geforce 8800 Ultra, если в простом режиме вторая выигрывает за явным преимуществом в ПСП, в среднем результаты сближаются, а в самом сложном они уже почти равны.

Двухчиповая 9800 GX2 не особо вырывается вперёд, хотя HD 3870 X2 показывает двукратный прирост по сравнению с HD 3870. Вероятно, недостатки драйверов, точнее — режима AFR. Тем не менее, даже Geforce 8800 Ultra показывает результат лучше, чем HD 3870 X2, а за рассматриваемой сегодня Geforce GTX 280 можно закрепить формальное лидерство. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, в лёгком режиме продолжает лидировать GTX 280, но в сложном 9800 GX2 уже выходит вперёд. Впрочем, Geforce GTX 280 всё равно быстрее обоих конкурентов от AMD и немного впереди одночиповых собратьев линеек Geforce 8 и 9. Как и в прошлый раз, по мере усложнения задачи, результаты карт уплотняются.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

А вот тест «Waves» благосклоннее к продукции AMD, одночиповая модель семейства RADEON HD 3800 смотрится неплохо, опережая решение на базе G92 в лёгком режиме, немного уступая в тяжёлом. Ясно видно, что в этом тесте скорость зависит не столько от мощности TMU, сколько от ПСП и филлрейта, так как даже двухчиповая карта на двух G92 показала результат на уровне решения предпредыдущего поколения — Geforce 8800 Ultra. Наш герой Geforce GTX 280 впереди всех в легчайшем режиме, но в остальных двух уступает двухчиповому RADEON. Рассмотрим второй вариант этого же теста:

Изменений немного, но с увеличением сложности теста результаты видеоплат серии RADEON HD 3800 стали ещё чуть лучше относительно скорости карт Nvidia. Последние потеряли в скорости несколько больше. Все остальные выводы также остаются в силе — скорость более всего ограничивается ПСП, в лёгком режиме сильнее, а в тяжёлых большую роль начинают играть блоки TMU и «двухчиповость», поэтому 9800 GX2 догоняет GTX 280, а HD 3870 X2 и вовсе опережает. В тестах VTF положение плат AMD серьёзно улучшилось, если ранее мы замечали, что решения Nvidia лучше справляются с тестами текстурных выборок из вершинных шейдеров, теперь ситуация иная.

Выводы по синтетическим тестам

На основе результатов синтетических тестов Geforce GTX 280, а также других моделей видеокарт обоих основных производителей видеочипов, мы можем сделать вывод, что новое решение Nvidia получилось очень мощным. В синтетических тестах оно значительно опережает по скорости одночиповые варианты предыдущего поколения, иногда до двух раз и даже более, часто борется на равных с двухчиповыми продуктами. Это стало возможным благодаря улучшенной архитектуре GT200 с увеличенным количеством исполнительных блоков ALU, TMU и ROP. Все модификации и улучшения позволяют рассмотренной видеокарте показывать отличные результаты во всех синтетических тестах.

Совсем не только увеличенное количество исполнительных блоков повлияло на рост скорости, но и улучшенная по сравнению с G8x и G9x архитектура, отличающаяся более высокой эффективностью, вычислительной производительностью, важной для современных и будущих приложений с большим количеством сложных шейдеров всех типов. В архитектуру GT200 были внесены изменения почти во все блоки, мощнее стали и шейдерные процессоры, и текстурные и блоки ROP, и многое другое.

Кроме модификаций, направленных на дальнейшее увеличение производительности, Nvidia уделила внимание и устранению досадных недостатков в G8x/G9x. Благодаря этому, видеоплаты на основе чипа GT200 показывают лучшие результаты в условиях очень сложных шейдеров, и особенно — сложных геометрических шейдеров с созданием геометрии «на лету». Это первый видеочип от Nvidia, который получил прирост производительности от переноса части вычислений в геометрический шейдер в одном из наших синтетических тестов. И тем более приятно, что сама компания использует наш тест для внутренних целей.

В целом, новая видеокарта Geforce GTX 280 отлично сбалансирована, особенно для будущих приложений, более требовательных к шейдерной производительности. Она обладает большим количеством всех исполнительных блоков, очень широкой шиной обмена с памятью, а следовательно, и высокой ПСП, на ней установлено оптимальное для high-end решения количество локальной видеопамяти. Технических недостатков у решения не так много, единственное, чего хотелось бы — слегка большей рабочей частоты для видеочипа в целом и шейдерных блоков в частности. Но это — вопрос скорее к технологическому процессу…

Следующая часть нашей статьи содержит тесты нового решения компании Nvidia в современных игровых приложениях. Эти результаты должны примерно соответствовать выводам, сделанным при анализе результатов синтетических тестов, с поправкой на большее влияние филлрейта и ПСП. Скорость рендеринга в играх сильнее зависит от скорости текстурирования и филлрейта, чем от мощности ALU и блоков обработки геометрии. И, судя по результатам в синтетике, можно предположить, что скорость Geforce GTX 280 в играх будет где-то между Geforce 9800 GTX и 9800 GX2, но ближе к последнему. То есть, в среднем, GT200 должен быть быстрее G92 на 60-80%.

Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией