NVIDIA представляет архитектуру Kepler и новые видеокарты для ноутбуков

Н аконец-то, 28 нм GPU добрались и до ноутбуков. NVIDIA официально объявила о новом поколении видеокарт на архитектуре Kepler в рамках новой серии GeForce 600M. Однако только некоторые карты серии 600M будут на базе архитектуры Kepler, в то время как остальные будут по-прежнему принадлежать поколению Fermi.

NVIDIA сегодня официально объявила о начале выпуска новой архитектуры Kepler — преемника успешной линейки Fermi — для мобильных компьютеров. Новое 28 нм ядро должно повысить эффективность использования энергии в два раза по сравнению с предшественником. Пользователи должны принять к сведению, что только определенные карты GeForce 600M карты будут основаны на ядре Kepler.

Прежде всего, давайте начнем с нового модельного ряда. NVIDIA предложит видеокарты от GeForce GT 620M до GTX 675M, в этом диапазоне могут быть представители 28 нм Kepler, 28 нм Fermi или даже 40 нм ядро 500M Fermi.

Наиболее интересные модели карт, основанные на новой архитектуре GK107, такие как GeForce GT 640M LE, GeForce GT 640M, GT 650M и GTX 660M. Эти модели насчитывают 384 ядра CUDA, 32 TMU и 8 блоков ROP, обладающих 128-разрядной шиной памяти. Основным различием карт будет тактовая частота и связанный с ней тип памяти VRAM.

Еще один новый чип GF117 в карте GT 620M и в спец. версиях GT 630M. Архитектура здесь существенно оптимизирована и схожа на 28 нм версию GF108 (GeForce GT 540M), но без выделенных видео выходов. Таким образом, эти карты можно использовать только в сочетании с Optimus и, по-прежнему, с картами Fermi.

Карты топового класса GeForce GTX 670М и GTX 675M, к сожалению, все еще основаны на старом 40-нм чипе GF114. В результате, характеристики более или менее похожи на GeForce GTX 570 и GTX 580M, соответственно, можно считать, что мы имеем лишь переименование старых видеокарт. Разница лишь в чуть большей тактовой частоте 670М по сравнению с 570M.

Карта высокого класса, основанная на Kepler (возможно, GTX 680M), ожидается, будет представлена в конце этого года.

Источник

NVIDIA скоро прекратит поддержку видеокарт на архитектуре Kepler

В ближайшее время компания NVIDIA выпустит последние драйверы для видеокарт семейства Kepler. Версия R470 для моделей на этой архитектуре станет последней. Это, в частности, означает отсутствие поддержки оптимизаций для новейших игр в скором будущем.

Впервые компания представила видеокарты на архитектуре Kepler в 2012 году. Дебют состоялся в серии GTX 600, хотя в последней вышли и некоторые варианты, использующие решения Fermi, относящиеся к предыдущему поколению чипов. В дальнейшем производитель выпустил варианты с Kepler в серии GTX 700, в которую позже добавились некоторые новинки семейства Maxwell.

Как известно, NVIDIA уже прекратила поддержку архитектуры Fermi, для которой оказались финальными драйверы серии Release 390 (R390). Вполне ожидаемо Kepler стала следующей в очереди.

Обычно NVIDIA выпускает масштабные обновления драйверов раз в несколько месяцев. Например, серия R460 вышла в конце прошлого года. На данный момент уже вышла версия GeForce 466.47, поэтому не исключено, что серия R470 появится ещё до конца года. Изменения коснутся всех продуктов GeForce, Quadro и Tesla на архитектуре Kepler.

Помимо устранения багов и улучшения производительности, обновлённые драйверы обычно обеспечивают поддержку новейших игр, поступающих на рынок. Поскольку R470 станут последними драйверами для Kepler, можно ожидать, что видеокарты серий GTX 600 и 700 уже не будут в полной мере поддерживать игры, вышедшие после его релиза. При этом прекращение поддержки вряд ли окажет большое воздействие на рынок. По данным недавнего опроса Steam, сейчас GPU на базе Kepler пользуются менее 5 % геймеров. Судя по дорожной карте NVIDIA, следующими прекратится поддержка видеокарт семейств Maxwell (GTX 900) и Pascal (GTX 10), но сколько именно времени пройдёт до того, как они «выдохнутся», остаётся только гадать.

Источник

Кеплер (микроархитектура) — Kepler (microarchitecture)

Kepler — это кодовое название микроархитектуры графического процессора, разработанной Nvidia и впервые представленной в розничной продаже в апреле 2012 года в качестве преемника микроархитектуры Fermi . Kepler была первой микроархитектурой Nvidia, сфокусированной на энергоэффективности. Большинство графических процессоров серии GeForce 600 , большинство серий GeForce 700 и некоторые графические процессоры серии GeForce 800M были основаны на Kepler, и все они производились по 28-нм техпроцессу. Kepler также нашел применение в GK20A, компоненте графического процессора Tegra K1 SoC , а также в вычислительных модулях серии Quadro Kxxx, Quadro NVS 510 и Nvidia Tesla . За Kepler последовала микроархитектура Maxwell, которая использовалась вместе с Maxwell в сериях GeForce 700 и GeForce 800M .

Архитектура названа в честь Иоганна Кеплера , немецкого математика и ключевой фигуры научной революции 17 века .

СОДЕРЖАНИЕ

Обзор

Если целью предыдущей архитектуры Nvidia было проектирование, ориентированное на повышение производительности вычислений и тесселяции, то в архитектуре Kepler Nvidia сосредоточила свое внимание на эффективности, программируемости и производительности. Цель эффективности была достигнута за счет использования унифицированных часов графического процессора, упрощенного статического планирования инструкций и повышенного внимания к производительности на ватт. За счет отказа от тактовой частоты шейдеров, которая использовалась в их предыдущих проектах графических процессоров, эффективность повышается, хотя для достижения более высокого уровня производительности требуются дополнительные ядра. Это связано не только с тем, что ядра более энергоэффективны (два ядра Kepler используют 90% мощности одного ядра Fermi, согласно данным Nvidia), но и переход на унифицированную схему тактовой частоты графического процессора обеспечивает снижение энергопотребления на 50% в в этой области.

Цель программирования была достигнута с помощью Kepler’s Hyper-Q, Dynamic Parallelism и нескольких новых функций Compute Capabilities 3.x. Благодаря этому с помощью графических процессоров GK можно было достичь более высокого использования графического процессора и упрощенного управления кодом, что обеспечило большую гибкость программирования для графических процессоров Kepler.

Наконец, с целью повышения производительности дополнительный ресурс выполнения (больше CUDA Core, регистр и кеш) и способность Kepler достичь тактовой частоты памяти 6 ГГц увеличивает производительность Kepler по сравнению с предыдущими графическими процессорами Nvidia.

Функции

Графический процессор серии GK содержит функции как старого поколения Fermi, так и нового поколения Kepler. Члены на основе Кеплера добавляют следующие стандартные функции:

  • Интерфейс PCI Express 3.0
  • DisplayPort 1.2
  • HDMI 1.4a видеовыход 4K x 2K
  • Аппаратное ускорение видео Purevideo VP5 (декодирование до 4K x 2K H.264)
  • Блок аппаратного ускорения кодирования H.264 (NVENC)
  • Поддержка до 4 независимых 2D-дисплеев или 3-х стереоскопических / 3D-дисплеев (NV Surround)
  • Многопроцессор потоковой передачи нового поколения (SMX)
  • Полиморф-двигатель 2.0
  • Упрощенный планировщик инструкций
  • Безвязанные текстуры
  • Возможности вычислений CUDA от 3.0 до 3.5
  • GPU Boost (обновлено до 2.0 на GK110)
  • Поддержка TXAA
  • Изготовлено TSMC по 28 нм техпроцессу
  • Новые инструкции по перемешиванию
  • Динамический параллелизм
  • Hyper-Q (резерв функциональности MPI Hyper-Q только для Tesla)
  • Блок управления сетью
  • NVIDIA GPUDirect (резерв функциональности RDMA GPU Direct только для Tesla)

Многопроцессор потоковой передачи нового поколения (SMX)

Архитектура Kepler использует новую многопроцессорную потоковую архитектуру под названием «SMX». SMX являются причиной энергоэффективности Kepler, поскольку весь графический процессор использует единую унифицированную тактовую частоту. Хотя использование SMX единой унифицированной тактовой частоты увеличивает энергоэффективность из-за того, что несколько ядер Kepler CUDA с более низкой тактовой частотой потребляют на 90% меньше энергии, чем несколько ядер Fermi CUDA Core с более высокой тактовой частотой, для выполнения всей деформации за цикл требуются дополнительные процессоры. Удвоение от 16 до 32 на массив CUDA решает проблему выполнения деформации, внешний интерфейс SMX также удваивается с планировщиками деформации, блоком диспетчеризации и регистровым файлом, удвоенным до 64 КБ записей для подачи дополнительных исполнительных блоков. Из-за риска раздувания области штампа SMX PolyMorph Engines улучшены до 2.0, а не удваиваются вместе с исполнительными блоками, что позволяет им увеличивать полигон за более короткие циклы. Выделенные ядра FP64 CUDA также используются, поскольку все ядра Kepler CUDA не поддерживают FP64 для экономии места на кристалле. Благодаря усовершенствованию, которое Nvidia внесла в SMX, результаты включают повышение производительности и эффективности графического процессора. В GK110 кэш текстур размером 48 КБ разблокирован для вычислительных рабочих нагрузок. В вычислительной рабочей нагрузке кэш текстур становится доступным только для чтения кешем данных, специализирующимся на рабочих нагрузках невыровненного доступа к памяти. Кроме того, были добавлены возможности обнаружения ошибок, чтобы сделать его более безопасным для рабочих нагрузок, основанных на ECC. Количество регистров на поток также удвоено в GK110 и составляет 255 регистров на поток.

Упрощенный планировщик инструкций

Дополнительное сокращение занимаемого пространства кристалла и экономия энергии были достигнуты за счет удаления сложного аппаратного блока, который предотвращал риски, связанные с данными.

GPU Boost

GPU Boost — это новая функция, которая примерно аналогична турбо-ускорению процессора. Графический процессор всегда гарантированно работает на минимальной тактовой частоте, называемой «базовой тактовой частотой». Эта тактовая частота установлена ​​на уровне, который гарантирует, что графический процессор останется в пределах спецификаций TDP даже при максимальной нагрузке. Однако при более низких нагрузках есть место для увеличения тактовой частоты без превышения TDP. В этих сценариях функция ускорения графического процессора будет постепенно увеличивать тактовую частоту, пока графический процессор не достигнет предопределенной целевой мощности (которая по умолчанию составляет 170 Вт). Используя этот подход, графический процессор будет динамически увеличивать или уменьшать тактовую частоту, чтобы обеспечить максимально возможную скорость, оставаясь в пределах спецификаций TDP.

Целевое значение мощности, а также размер шагов увеличения тактовой частоты, которые будет выполнять графический процессор, регулируются с помощью сторонних утилит и предоставляют средства для разгона карт на основе Kepler.

Поддержка Microsoft Direct3D

Графические процессоры Nvidia Fermi и Kepler серии GeForce 600 поддерживают спецификацию Direct3D 11.0. Первоначально Nvidia заявила, что архитектура Kepler полностью поддерживает DirectX 11.1, включая путь Direct3D 11.1. Однако следующие функции Direct3D 11.1 «Современный интерфейс» не поддерживаются:

  • Независимая от цели растеризация (только 2D-рендеринг).
  • 16xMSAA Растеризация (только 2D-рендеринг).
  • Режим отрисовки ортогональных линий.
  • UAV (Unordered Access View) на этапах без пиксельного шейдера.

Согласно определению Microsoft, уровень функций Direct3D 11_1 должен быть полным, в противном случае путь Direct3D 11.1 не может быть выполнен. Встроенные функции Direct3D в архитектуре Kepler такие же, как и в архитектуре Fermi серии GeForce 400.

Следующая поддержка Microsoft Direct3D

Графические процессоры NVIDIA Kepler серии GeForce 600/700 поддерживают Direct3D 12 уровня функций 11_0.

Поддержка TXAA

TXAA — это эксклюзивный для графических процессоров Kepler новый метод сглаживания от Nvidia, предназначенный для прямой реализации в игровых движках. TXAA основан на методе MSAA и настраиваемых фильтрах разрешения. Он разработан для решения ключевой проблемы в играх, известной как мерцание или временное алиасинг . TXAA решает эту проблему, сглаживая сцену в движении, убеждаясь, что любая игровая сцена очищается от любых искажений и мерцания.

Похожее:  Ценовой взлет и завышенная стоимость

Инструкции по перемешиванию

На низком уровне GK110 видит дополнительные инструкции и операции для дальнейшего повышения производительности. Новые инструкции перемешивания позволяют потокам внутри деформации обмениваться данными без возврата в память, что делает процесс намного быстрее, чем предыдущий метод загрузки / совместного использования / сохранения. Атомарные операции также были переработаны, увеличена скорость выполнения атомарных операций и добавлены некоторые операции FP64, которые ранее были доступны только для данных FP32.

Hyper-Q

Hyper-Q расширяет очереди работы оборудования GK110 с 1 до 32. Важность этого заключалась в том, что наличие единственной очереди работ означало, что Ферми иногда мог быть недостаточно занят, поскольку в этой очереди не было достаточно работы, чтобы заполнить все SM. Имея 32 рабочие очереди, GK110 может во многих сценариях достичь более высокого коэффициента использования, имея возможность помещать различные потоки задач в то, что в противном случае было бы незанятым SMX. Простая природа Hyper-Q дополнительно подкрепляется тем фактом, что он легко отображается на MPI, общий интерфейс передачи сообщений, часто используемый в HPC. Поскольку у устаревших алгоритмов на основе MPI, которые изначально были разработаны для многопроцессорных систем, которые оказались узкими местами из-за ложных зависимостей, теперь есть решение. Увеличивая количество заданий MPI, можно использовать Hyper-Q в этих алгоритмах для повышения эффективности без изменения самого кода.

Динамический параллелизм

Возможность динамического параллелизма позволяет ядрам отправлять другие ядра. С Fermi только ЦП мог отправлять ядро, что влечет за собой определенные накладные расходы из-за необходимости обратной связи с ЦП. Предоставляя ядрам возможность отправлять свои собственные дочерние ядра, GK110 может сэкономить время, не возвращаясь к ЦП, и в процессе освободить ЦП для работы над другими задачами.

Блок управления сетью

Включение динамического параллелизма требует новой системы управления сетью и диспетчеризации. Новый блок управления энергосистемой (GMU) управляет сетями и определяет их приоритетность. GMU может приостанавливать отправку новых сеток и ожидающих очереди и приостановленных сеток до тех пор, пока они не будут готовы к выполнению, обеспечивая гибкость для включения мощных сред выполнения, таких как динамический параллелизм. Дистрибьютор CUDA Work Distributor в Kepler имеет готовые к отправке сети и может отправлять 32 активные сети, что вдвое превышает емкость Fermi CWD. Kepler CWD связывается с GMU через двунаправленную связь, которая позволяет GMU приостанавливать отправку новых сетей и удерживать ожидающие и приостановленные сети до тех пор, пока это не понадобится. GMU также имеет прямое соединение с модулями Kepler SMX, чтобы позволить сетям, которые запускают дополнительную работу на GPU через динамический параллелизм, отправлять новую работу обратно в GMU для определения приоритетов и отправки. Если ядро, отправившее дополнительную рабочую нагрузку, приостанавливает работу, GMU будет удерживать его в неактивном состоянии до завершения зависимой работы.

NVIDIA GPUDirect

NVIDIA GPUDirect — это возможность, которая позволяет графическим процессорам на одном компьютере или графическим процессорам на разных серверах, расположенных в сети, напрямую обмениваться данными без необходимости обращения к ЦП / системной памяти. Функция RDMA в GPUDirect позволяет сторонним устройствам, таким как твердотельные накопители, сетевые адаптеры и адаптеры IB, получать прямой доступ к памяти на нескольких графических процессорах в одной системе, значительно уменьшая задержку отправки и получения сообщений MPI в / из памяти графического процессора. Это также снижает требования к пропускной способности системной памяти и освобождает механизмы DMA графического процессора для использования другими задачами CUDA. Kepler GK110 также поддерживает другие функции GPUDirect, включая Peer-to-Peer и GPUDirect для видео.

Распаковка / сжатие видео

NVDEC

NVENC

NVENC — это энергоэффективный кодер с фиксированной функцией от Nvidia, который может принимать кодеки, декодировать, предварительно обрабатывать и кодировать контент на основе H.264. Форматы ввода спецификации NVENC ограничены выходом H.264. Но все же NVENC, благодаря своему ограниченному формату, может поддерживать кодирование до 4096×4096.

Как и Intel Quick Sync, NVENC в настоящее время предоставляется через собственный API, хотя у Nvidia есть планы по обеспечению использования NVENC через CUDA.

Спектакль

Теоретическая мощность обработки одинарной точности графического процессора Kepler в GFLOPS вычисляется как 2 (операций на инструкцию FMA на ядро ​​CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в ГГц). Обратите внимание, что, как и Fermi предыдущего поколения , Kepler не может извлечь выгоду из увеличенной вычислительной мощности за счет двойной выдачи MAD + MUL, как это было у Tesla .

Теоретическая мощность обработки с двойной точностью графического процессора Kepler GK110 / 210 составляет 1/3 от его производительности с одинарной точностью. Однако такая вычислительная мощность с двойной точностью доступна только на профессиональных картах GeForce Quadro , Tesla и high-end TITAN , в то время как драйверы для потребительских карт GeForce ограничивают производительность до 1/24 от производительности одинарной точности. Чипы GK10x с более низкой производительностью аналогично ограничены до 1/24 производительности одинарной точности.

Источник

Kepler — астрономический GPU

Что достоверно известно, так это то, что новая архитектура получила название в честь выдающегося немецкого астронома Иоганна Кеплера, жившего в эпоху Первой научной революции XVII века. Конечно, не случайно NVIDIA дает имена своим GPU в честь выдающихся ученых — Ферми, Тесла, Максвелла — большая часть нововведений затрагивает именно вычислительные возможности GPU . И бывшие видеоускорители твердо нацелились совершить революцию в секторе научных вычислений.

Выпуск каждого нового процессора, или видеокарты, или монитора, или вообще чего угодно, напоминает взрыв или рождение звезды в далеком космосе. В том плане, что звезда уже вспыхнула, а её свету нужны тысячи или миллионы лет, чтобы достичь Земли. Только по прошествии этого времени мы сможем увидеть происшедшее событие. Так и в случае новой компьютерной архитектуры, она уже разработана, её создатели уже вовсю работают над последующей, а пользователи ждут, пока на заводе по производству микросхем наладят изготовление устройств на её основе, напечатают достаточное количество чипов, упакуют их и доставят на прилавки магазинов.

Архитектура Kepler была полностью готова уже весной и сейчас, на TSMC занимаются отладкой техпроцесса и оборудования для производства карт по предоставленной NVIDIA схеме. В худшем случае, при проблемах с производством, архитектура будет немного доработана, как это случилось с Fermi. Но ничего принципиально другого не будет.

Да, эта статья будет мажорным продолжением минорной саги о задержке выпуска видеокарт на основе архитектуры Fermi.

Отсутствие информации об уже спроектированных чипах вызывает смешанную реакцию. Делать предположения об особенностях уже готовых архитектур, которые просто скрывают от общественности, немного неловко. Ведь кто-то из имеющих доступ к информации людей может прочитать материал и посмеяться. В принципе непонятно, кого они хотят обмануть своим молчанием? Неужели кто-то думает, что может что-то скрыть от конкурентов? Над проектами работает множество людей, специалисты переходят из фирмы в фирму, большинство вместе учились. Да для любого, самого никудышного промышленного шпиона разузнать то, о чем гадают люди на форумах, будет самой простейшей задачей. Это даже не государственная тайна, лишь бы было что-то важное — любая минимально приличная сумма денег сделает свое дело.

Может быть, просто боятся сглазить. Нарисуют, Бог знает что, а выход годных кристаллов будет 1%, ибо техпроцесс не тянет фантазии чип-мейкеров. Невыполненные обещания фирм, общественность имеет свойство рассматривать, как провал. Даже если то, что они сделали по факту, самое прогрессивное в отрасли. Так, например, было в свое время с фирмой Intel, обещания всех перевести на Itanium, процессоры частотой 20 GHz и так далее. А в итоге, процессоры по-прежнему x86 и частота где-то 2-3 GHz, как и раньше.

А были бы преимущества, будь спецификации известны заранее. Пользователи могли бы осмысленно планировать апгрейд и время покупки системы, компьютерные фирмы могли бы предлагать планы по апгрейду. Неужели производители боятся, что «крутые» спецификации новых продуктов отпугнут пользователей от покупки уже имеющихся в продаже? Так, NVIDIA всюду и всегда, говорит о невероятных перспективах и росте мощности GPU , а им никто не верит, говорят, завышают. Так можно вечно ждать и расчёт, скорее всего, на состоятельных людей.

Наверное, неудобно при заключении крупных контрактов на поставку текущих чипов. Чтобы было меньше вопросов к менеджерам по закупке, почему купили этот, а не тот. А того ещё вроде как нет. Хотя он, на самом деле есть, как летящий к нам свет ещё невидимой звезды.

Так или иначе, спецификации неизвестны, но будет познавательно их спрогнозировать и в будущем сравнить, насколько NVIDIA оправдала наши ожидания. Тем более что многое можно просто понять из известных параметров нового технического процесса, на котором будет производиться чип.

Мультизадачность и виртуальная память

Также это не очень нужно для любимых NVIDIA суперкомпьютеров, так как все узлы кластера считают одну задачу, и данные разбиваются программным образом на блоки, соответствующие размеру памяти GPU .

Вероятно, поддержка виртуальной памяти появится не сразу после выпуска, а несколько позже, после доводки драйверов и операционных систем. Не будет удивительно, если такую возможность будут поддерживать лишь следующие версии ОС. Тем не менее, это само по себе, в отрыве от производительности, станет важным шагом в направлении расширения неграфического использования GPU на персональных компьютерах.

Спецификации

Настала пора обсудить предполагаемые спецификации нового чипа, которые напрямую влияют на производительность: количество мультипроцессоров, частоты и т.п.

Ещё прошлой зимой в сеть утёк вариант параметров нового семейства. Многие сочли его надуманным, но при ближайшем рассмотрении он видится вполне точным, будет удивительно, если реальные спецификации будут сильно отличаться от данных.

Самое, пожалуй, неправдоподобное в этих спецификациях то, что доллар доживет до выхода Kepler. Остальные параметры согласуются с параметрами технического процесса, на который переходит TSMC. И они совсем не секрет, вполне официально объявлены производителем.

Таким образом, старшая модель должна иметь всего в полтора раза больше шейдерных ядер, чем нынешний флагман. На первый взгляд, это не очень большое увеличение мощности. То есть новый топ-класс будет сильно проигрывать, например, решению с двумя чипами на основе текущей архитектуры. Ведь для GPU увеличение количества шейдерных ядер обычно ведет к прямо пропорциональному увеличению производительности. Особенно в графических задачах. Но не все так просто, ведь сами ядра могут иметь повышенную производительность.

Многие предполагают, что новый чип будет иметь 1024 шейдерных ядра, то есть, вдвое больше, чем Fermi. Как Fermi имел примерно вдвое больше ядер, чем GT200. Но это маловероятно, этого не будет и если это случится, произойдёт самое большое чудо в вычислительном секторе IT-индустрии за последние 10 лет, со времен выхода процессора Pentium4.

Действительно, переход на новый технический процесс 28 нм, по сравнению с 40 нм, позволяет разместить почти в 2 раза больше транзисторов на кристалле той же площади. То есть, теоретически, можно разместить два Fermi на том же кристалле, но энергопотребление транзисторов уменьшилось только на 40% максимум (это можно понять из официального релиза TSMC, посвященного новому техпроцессу). То есть, такой удвоенный Fermi будет потреблять больше предела.

Похожее:  Настройка видеокарты nvidia для wot

Но это не единственная причина, почему удвоения числа шейдеров не состоится. Fermi, уже сам по себе довольно большой чип — 3 млрд. транзисторов и, чем больше чип, тем больше вероятность критических при его производстве ошибок, когда приходится выкидывать весь кристалл. В любом случае, такой большой чип из 6 млрд. транзисторов будет слишком похож на сыр с дырками, ибо множество шейдерных блоков придется отключать. Будет море моделей, из 32 мультипроцессоров может работать от 1 до 32, вот и будет 32 модели. Далее, такой большой чип сложно произвести равномерно, то есть, чтобы все модули смогли работать на высокой частоте. Половина заведётся, допустим, на частоте 1 GHz, вторая половина на 1.5 GHz и весь чип придется тактировать низкой частотой, что ведет к потерям как в производительности, так и денежным. А более мелкие чипы легче распределить по частотам. Одни получатся быстрыми, другие чуть медленнее.

Большой чип — большие проблемы, но это даже не главная причина, почему Kepler не будет большим. Новый, более совершенный техпроцесс позволяет при том же потреблении мощности и тепловыделении, за которое, в основном, ответственны токи утечки, поднять частоту чипа. На те же 40%, на сколько можно сократить потребление. То есть смысла расходовать драгоценные ватты на гигантский кристалл нет, когда можно получить увеличение производительности всего лишь увеличением частоты.

Архитектурные улучшения

Проблема с потреблением энергии препятствует простому удвоению производительности при переходе на более тонкий тех-процесс, как это было возможно ещё несколько лет назад. Производительность GPU должна была расти пропорционально увеличению числа шейдерных модулей, которое сулило использование в производстве новых техпроцессов, но сейчас большее значение приобретают усовершенствования в архитектуре.

Первое и главное усовершенствование, слух о котором просочился в интернет, это проведение вычислений с числами двойной точности на полной скорости. Сейчас, для перемножения чисел типа double нужно два такта, таким образом, теоретическая производительность уполовинивается относительно произведения количества шейдеров на частоту. Собственно, более тонкий техпроцесс благоприятствует выполнению более сложных операций за один такт. Теоретически, переход на 28 нм, сам по себе, позволяет выполнять за такт примерно в 1,4 раза больше операций, либо поднять частоту во столько же раз при сохранении того же объема работы. Но не все техпроцессы одинаковы, они отличаются качеством, и новый обещает быть более удачным, транзисторы будут переключаться быстрее, соединения лежать ровнее, чем на предыдущем, то есть можно достичь и увеличения частоты и некоторого увеличения операций за такт. Что как раз и нужно для полноскоростного умножения вдвое большего количества бит.

Но не только техпроцесс поможет ускорению вычислений, ведь саму электрическую схему умножения можно оптимизировать, применить более совершенный алгоритм, лучше расположить блоки. Может быть, какие-то патенты или алгоритмы реализации умножения даже были частью сделки с Intel, уж они-то очень давно занимаются оптимизацией этой операции. Да и NVIDIA, всерьез заинтересовавшись высокопроизводительными вычислениями, должна была инвестировать больше средств в разработку функциональных модулей для работы с используемыми в суперкомпьютерах типами данных.

При полноскоростном умножении, прирост будет минимум в три раза, даже без увеличения частоты. Так как ядер станет в полтора раза больше и все они будут выполнять операции с double числами за такт.

Можно и не говорить, что троекратный рост производительности при полуторном увеличении размера чипа, при том же потреблении энергии и разумной цене обрадует ученых, тех же астрономов. В честь одного из которых и названа новая архитектура.

Также очевидно, что производительность в double, в потребительских GeForce будет урезана ещё больше, если вообще поддержка этих не очень нужных для обычных пользователей вычислений там останется. Только самые отборные кристаллы смогут выполнять полноскоростное умножение на высокой частоте, они пойдут на производство Tesla для суперкомпьютеров, а в потребительском секторе неработающие модули вычислений с числами с двойной точностью будут безжалостно заблокированы. Чтобы можно было поднять частоту шейдеров, работающих с используемыми в играх числами одинарной точности.

Кстати, о числах float одинарной точности, которые используются в обычных пользовательских приложениях, в программах компьютерной графики, трассировки лучей, конвертации видео и многих других. Неужели прирост будет только в два раза?

Вычисления с типом float и возможные усовершенствования

Но надо надеяться на лучшее. Количество мультипроцессоров возросло всего в полтора раза, они снова имеют шанс, как в случае с Fermi, стать несколько более совершенными, то есть с большим объёмом локальной памяти, например, не 64 KB, а 128 KB, с увеличенным размером регистрового файла на мультипроцессор с 32 KB до 64 KB. Каждое из этих усовершенствований способно на широком классе задач поднять производительность в два раза. Например, 64 KB программируемого кэша на, я бы сказал, sub-процессор GPU , который одновременно исполняет 1000 нитей, все-таки маловато. 128 KB хватит и на объемный L1 кэш в 64 KB, и на солидный объем сверхбыстрой локальной памяти в 64 KB, или все можно отдать под солидный, даже по процессорным меркам, L1 кэш в 128 KB.

(a+b)*(c+d) , a*b+c*d или векторные операции (a,b)+(c,d)=(a+c,b+d) , (a,b)*(c,d)=(a*c,b*d)

Графические возможности

Если мультиоперандные инструкции для работы с вещественными числами одинарной точности не будут реализованы, то шейдерная производительность в графических тестах увеличится всего в два раза максимум. На самом деле, результаты этих тестов все меньше становятся интересными массовому пользователю, ибо происходит определенное насыщение. Визуально разница в картинке с увеличением детализации в рамках принятой сейчас в играх графической модели все менее заметна. Не велика разница, выполняется два шейдера или четыре, на миллионе треугольников или двух. Это заметно фанатам компьютерной графики, а массовый геймер совсем не обратит внимание.

Нужны качественные, а не количественные улучшения, чтобы на текущем уровне развития графики это было заметно. Для этого нужно, чтобы мощность возросла раз в 10 и то, все равно, для какого-нибудь рейтрейсинга не хватит. Или использовать новые специальные функции, как-то тесселяцию. Но что-то разработчики игр не торопятся использовать возможности Fermi, все ещё ориентируются на предыдущие поколения архитектур, а сейчас станут ориентироваться на встроенную графику. Так что, вряд ли NVIDIA запланировала много нового, в плане игровой графики в Kepler, т.к. смысла особого нет. Будет совсем большой разрыв с реальностью.

Возможные проблемы

NVIDIA должна была учесть предыдущие ошибки, вызвавшие низкий выход годных кристаллов, что вызвало необходимость дорабатывать Fermi. И по выше приведенной таблице видно, что NVIDIA уже подстраховалась с младшими бюджетными моделями GK104, 106, 108, сделав в них вдвое меньше мультипроцессоров, около десятка против двух десятков в топовых чипах. Зато каждый мультипроцессор в младших моделях производится с 4 блоками ядер CUDA , по 16 ядер в каждом и один из них, который с ошибками производства, отключается. Так получилось 48 ядер CUDA . Это позволяет поднять выход годных кристаллов и, соответственно, прибыль.

Проблемы могут появиться скорее с частотами. У TSMC есть несколько вариантов 28 нм техпроцесса. AMD и NVIDIA используют разный. NVIDIA, из-за своего высокочастотного шейдерного домена использует так называемый High Performance process. Он позволяет достичь более высоких частот, ценой большего потребления, но его труднее отлаживать. Задержке с отладкой этого процесса есть официальное объяснение, почему новые чипы AMD появятся раньше. Что ж, если его не отладят к сроку, то вероятно, что NVIDIA придется снизить частоты своего модельного ряда и вначале запустить низкочастотные модели. То есть, прирост производительности, по сравнению с текущими видеокартами, будет не очень большим. Ещё вариант, выход GPU Tesla с поддержкой вычислений типа double будет серьезно отложен, а в GeForce, вычисления с типом double, будут вовсе исключены. Ибо однотактовые операции с double — очевидное и главное узкое место новой архитектуры, с точки зрения частоты.

Наверное, без проблем при запуске не обойдется. Будут ли это задержки или изменения спецификаций в сторону ухудшения, посмотрим.

Немного жаль, что NVIDIA не занимается такими вещами, как просто перевести Fermi на 0.28. Был бы холодный, дешевый, хорошо гонящийся чип. Но на самом деле, большого смысла нет, это не выгодно с производственной точки зрения, на одном техпроцессе делать две архитектуры, а без переделки архитектуры, на одном шринке значительного ускорения не получить. Максимум — примерно на половину, так как новый техпроцесс позволяет производить на 40% более энергоэффективные чипы.

Особенности техпроцесса

Запуск в производство нового чипа всегда лотерея, ибо заранее точно не угадаешь параметры новых транзисторов, как они будут сочетаться с параметрами самого чипа. Например, произведенные новым методом транзисторы могут быть медленными, холодными с небольшой величиной греющих чип токов утечки и производиться с небольшим процентом дефектов. Такое сочетание благоприятствует чипам, изначально рассчитанным на невысокую частоту работы, но большим по площади.

Или наоборот, новые транзисторы могут быть быстрыми, горячими и часто дефектными. Это будет оптимально для небольших по площади высокочастотных чипов. На основе таких транзисторов большие чипы не произведешь, они будут потреблять энергию сверх меры, и иметь высокий процент брака. А с медленными транзисторами просто не выгодно производить чипы с архитектурой, рассчитанной на высокую частоту работы. Такая архитектура имеет короткий такт, за который выполняется мало операций и чип с невысокой частотой получится медленным.

Неверно представлять, что на этапе разработки все заранее просчитано, это не так. Пока не будут произведены первые образцы, не выйдет несколько ревизий чипа и не будет отлажен техпроцесс на предприятии, быть уверенным в результате нельзя.

Заключение

Итак, на основании известных параметров производства, доступной площади и насколько экономичными и холодными новый техпроцесс позволяет делать транзисторы, можно сделать достоверные предположения об основных параметрах новой архитектуры. Тем более, что направление известно.

Порадует ли она геймеров? Судя по распространению интегрированной графики, геймеров уже ничего не может порадовать из «железа». Может быть это и правильно, ибо геймплей и возможность играть со всеми друзьями во всех частях света становятся важнее значения fps и графических настроек.

Будет интересно сравнить параметры нового чипа, когда он выйдет, с предполагаемыми. Будут ли они отличаться в худшую или лучшую сторону, или все все-таки будет совсем по-другому, как не должно было быть.

Одно жаль — мы никогда не узнаем, каким изначально был запланирован Kepler и будет ли вышедший чип провалом или успехом с инженерной точки зрения.

Источник



Введение

Сообщения о разработке новой архитектуры GPU, которую NVIDIA предполагает использовать при производстве своих продуктов под маркой игровых видеокарт GeForce будущего поколения, а также продуктов профессионального класса, начали появляться примерно с сентября 2010. Тогда на очередной технологической конференции NVIDIA глава компании Джен-Сан Хуанг (Jen-Hsun Huang) представил миру слайд, на котором демонстрировались планы по развитию архитектур калифорнийской компании до 2014 года.

Похожее:  Ноутбуки Lenovo IdeaPad Z565 в Санкт Петербурге

Предполагалось, что новые чипы, выпускаемые по 28-нм техпроцессу, появятся в 2011 году и смогут предложить значительно более высокую производительность на Ватт, чем существовавшие на тот момент решения. Однако шло время, а анонс новинок на базе новой многообещающей архитектуры Kepler откладывался компанией из Санта-Клары на всё более поздние сроки.

Виной всему — как обычно при освоении новых технологических норм — невысокий выход годных кристаллов, выпускаемых с применением 28-нм техпроцесса, без которых сложно представить значительные архитектурные улучшения и, как следствие, увеличение производительности на ватт. Страдала от этого и главный конкурент NVIDIA, компания AMD, которой необходимо было реабилитироваться после не слишком удачного дебюта настольных процессоров FX. Однако в отличие от NVIDIA, конкуренту из Саннивейла удалось-таки записать себя в историю как компанию, выпустившую первый графический продукт с использованием 28-нм техпроцесса.

Конкуренция с AMD

Эскиз AMD Radeon HD 7970

Но что самое неприятное для NVIDIA: новый флагман конкурента, получивший кодовое имя Tahiti, одновременно стал и самой мощной игровой видеокартой с одним GPU в мире. Уже из характеристик становится ясно, что подсистема памяти HD 7970 по объёму превосходит стандартную 1,5-Гб у GTX 580 в 2 раза. Это имеет немаловажное значение при одновременной работе с несколькими дисплеями, а таковых, по данным AMD, её топовые решения поддерживают до 6 шт.

Производительность решений красного лагеря на основе новой архитектуры GCN (Graphics Core Next), представленных видеокартами 7000-й серии Southern Islands, оказалась весьма впечатляющей. Для конкуренции с HD 7970 и младшей HD 7950, NVIDIA была вынуждена снизить рекомендованные цены на GTX 580 до $380 (для рынка США, разумеется).

NVIDIA GeForce GTX 580

Что может предложить NVIDIA рынку

Конечно, игровые видеокарты не являются единственным продуктом и показателем достижений компаний, специализирующихся на графике. Однако не стоит забывать, что все графические продукты, предназначенные для профессионального и промышленного использования, такие как NVIDIA NVS, Tesla и Quadro, производятся с использование тех же чипов, что и геймерские решения. Более того, в основе небезызвестного чипа Tegra, широко применяемого в смартфонах и планшетных компьютерах, используются технологии дискретной графики NVIDIA прошлых поколений.

Выше представлена дорожная карта развития драйверов для продуктов компании NVIDIA. Из иллюстрации можно судить, когда компания планирует выпуск тех или иных потребительских решений на базе новой архитектуры, представленной наконец-то готовыми решениями в марте этого года.

Почему «Kepler»?

NVIDIA приняла на вооружение стратегию давать имена великих учёных и изобретателей своим технологиям и продуктам. Например, профессиональные параллельные графические процессоры, способные заменить кластер при выполнении высокообъёмных вычислений, носят имя гениальнейшего учёного XX века Николы Теслы. Думаю, все знают о происхождении названия архитектуры NVIDIA Fermi. Само по себе для публичной компании, статус которой носит NVIDIA, это большая как маркетинговая, так и идеологическая ответственность.

Кристалл Kepler

Иоганн Кеплер

К слову сказать, и будущая архитектура, которую разрабатывает NVIDIA и которая, судя по графику, представленному NVIDIA Corporation, перенесена на неопределённое будущее, также будет носить имя учёного — британского физика и математика Джеймса Клерка Максвелла.

Устройство кристалла NVIDIA Kepler GK104

Пока не выпущен чип NVIDIA Kepler GK107 в настольном сегменте рынка, который должен стать более доступным и, соответственно, упрощённым вариантом GK104, мы можем с уверенностью говорить только о последнем, представленном игровой видеокартой NVIDIA GTX 680.

По утверждениям NVIDIA, архитектура Kepler и решение GTX 680 — самые энергоэффективные и производительные из того, что компания когда-либо выпускала, что, впрочем, неудивительно.

Размер кристалла составляет 294 мм 2 . Для сравнения: у флагманского чипа архитектуры Fermi GF110 – 520 мм 2 , а у AMD Radeon HD 7970– 365 мм2, что примерно на 24% больше. При этом кристалл умещает 3,54 млрд 3,5 В транзисторов, произведённых по 28-нм техпроцессу компанией TSMC, тогда как количество таковых у Radeon насчитывает целых 4,31 млрд.

Чип Kepler GK104 снабжён интерфейсом PCI Express 3.0, который теоретически предоставляет вдвое большую пропускную способность по сравнению со второй версией. Он также несёт на себе: блок управления потоками (GigaThread Engine), кэш второго уровня, а также 8 потоковых мультипроцессоров SMX, которые парами объединены в блоки GPC (Graphics Processing Clusters). Каждый GPC включает по блоку растеризации. В общем же на каждый GPC приходится по 8 растровых конвейеров (ROP) и по одному контроллеру памяти.

Сравнение GPU NVIDIA: GT200 (Tesla), GF110 (Fermi) и GK104 (Kepler)

Интерфейс памяти по непонятным, скорее маркетинговым, причинам снижен с 384 бит до 256. Но при этом частоту удалось поднять почти в полтора раза, до 6 ГГц, и компенсировать этим пропускную способность по сравнению с GF110. Частота ядра повышена на 30%, а максимальный уровень энергопотребления снижен до 195 Вт, т. е. на 20%. Теоретическая пиковая производительность при операциях с плавающей запятой возросла почти в 2 раза — до 3090 Гфлопс (об этом мы ещё скажем несколько слов ниже). Но, пожалуй, самое значительное улучшение в новом чипе — это увеличение количество ядер CUDA в 3 раза! NVIDIA часто подвергалась критике за большое отставание от AMD по этому показателю.

Устройство потокового мультипроцессора SMX

Потоковый мультипроцессор SMX

Теперь подробнее рассмотрим потоковый мультипроцессор SMX. Прежде всего, изюминкой является вдвое более производительный, по сравнению с применяемым в Fermi, блок обработки геометрии — PolyMorph Engine 2.0. Конечно, присутствует кэш инструкций, кэш текстур, унифицированный кэш, а также 64 Кб кэша первого уровня. 4 планировщика (Warp Scheduler) и 8 управляющих блоков (Dispatch Unit) взаимодействуют через регистровый файл со 192 ядрами CUDA, 32 блоками загрузки/выгрузки данных LD/ST и 32 SFU-блоками, выполняющими специальные математические функции. Количество SFU в SMX возросло в 8 раз по сравнению GF110 (Fermi)! Потоковый мультипроцессор также насчитывает 16 текстурных блоков, что вдвое превышает данное число в Fermi.

Сравнение вычислительных блоков Fermi и Kepler

В целом по чипу можно сказать, что размер SMX (в таблице — «Polymorph») значительно увеличен по сравнению с Fermi, в то время как общее число потоковых мультипроцессоров сократилось вдвое. В основном за счёт количественного увеличения числа исполнительных блоков, теоретическая производительность чипа увеличена до двух раз.

Производительность GK104

Для изучения производительности чипа GK104, давайте ознакомимся с результатами наиболее интересных тестов, проведённых коллегами с сайта brightsideofnews.

  • CPU — Intel Core i7-3960X
  • Материнская плата — Gigabyte GA-X79-UD7 (PCIe 3.0)
  • ОЗУ — 16 Гб четырёхканальной Kingston HyperX 1600 МГц
  • Дисковая подсистема — SSD Patriot Pyro 120 Гб и HDD Velociraptor 600 Гб
  • Блок питания — Thermaltake Toughpower XT Gold 1475 Вт
  • Видеокарты — NVIDIA GTX 680; NVIDIA GTX 590; AMD HD 7970

Версии драйверов видеокарт:

  • GTX 680 — 300.99
  • GTX 590 — 296.10
  • HD 7970 — 12.2

Мы не будем приводить результаты игровых тестов: их вполне достаточно на просторах Интернета. Гораздо интереснее посмотреть, как проявляет себя архитектура NVIDIA Kepler в работе с профессиональными приложениями обработки графики и видео, а также в вычислениях общего назначения (GPGPU) на фоне конкурирующей Southern Islands от AMD.

В бенчмарке 3DMark 11 GTX 680 отлично проявляет себя, незначительно проигрывая двухчиповой GTX 590 Fermi только в режимах Perfomance и Extreme и до 20% превосходя HD 7970, позволяя последней приблизиться лишь в режиме Extreme.

В тесте на вычислительную производительность GTX 680 обеспечивает заявленные производителем более чем 3 Тфлопс в вычислениях с одинарной точностью. К сожалению, вычисления с двойной точностью — это проблема для новой видеокарты.

Несколько лучшие результаты в вычислениях с двойной точностью GK104 показывает при работе на OpenCL.

Криптография — явно не сильная сторона Kepler.

Однако на OpenCL результаты уже кардинально иные: уступая в хешировании, GTX 680 более чем в 4 раза превосходит флагмана AMD в шифровании.

AMD Radeon HD 7970 превосходит конкурента на 36% в рендеринге с одинарной точностью и более чем в 6 раз в рендеринге с двойной.

Технология CUDA разработана NVIDIA и поддерживается только продуктами этой компании, начиная с 8-й серии видеокарт, поэтому в тестировании не смог принять участие представитель AMD. Зато мы можем оценить на примере двухчиповой GF110 Fermi, работающей, как известно, на пониженных частотах, результаты новинки. Прямо скажем: они противоречивые. С одной стороны, как и в других тестах, наблюдается хорошая производительность при вычислениях с одинарной точностью. С другой — вызывает опасения ухудшившаяся производительность при вычислениях с двойной.

Kepler, на примере GTX 680, значительно уступает в данном компоненте не только Fermi, но и решениям AMD классом ниже. Стоит напомнить, что профессиональные графические ускорители, скорее всего, будут иметь ту же архитектуру, что и GTX 680. Остаётся надеяться, что NVIDIA припасла профессионалам приятный сюрприз в виде, возможно, каких-либо специальных блоков, активируемых в ускорителях профессиональных серий.

И в заключении обратимся к бенчмарку приложения Cyberlink MediaEspresso. Каждая видеокарта работает в паре с самым мощным настольным процессом Intel Core i7-3960X. Красная полоса — время перекодирования видео-образца из формата 1080P в 720P процессором без участия GPU при максимальных настройках качества. Синяя — перекодирование ложится на плечи GPU. Только результат NVIDIA GeForce GTX 680 можно назвать интересным, потому что остальные видеокарты потребляют куда больше электроэнергии, чем процессор, и уступают ему более 10 с.

Новые технологии сглаживания и вертикальной синхронизации

Мы не смогли обойти стороной новые алгоритмы сглаживания изображения, представленные NVIDIA в архитектуре Kepler. Сглаживание FXAA (Fast Approximate Anti-Aliasing) 3, как видно в сравнении с MSAA 4, даёт изображение гораздо более реалистичного качества, а также работает, по заверению NVIDIA, на 60% быстрее последнего.

Алгоритм TXAA представляет немалый интерес с точки зрения соотношения качество/производительность.

NVIDIA позиционирует его как более качественный, чем любой из алгоритмов MSAA, и менее ресурсозатратный.

Технология Adaptive Vsync позволяет автоматически подстраивать в играх частоту смены кадров, производимых видеокартой, под частоту 60 Гц монитора там, где карта выдаёт большее число кадров в секунду. Это позволяет избежать расслоения и сдвигов картинки по горизонтали.

Заключение

Поколение GPU, построенных на архитектуре NVIDIA Kepler, на данный момент представлено лишь игровыми видеокартами: 4 мобильными GPU на основе GK107, а также протестированной GeForce GTX 680. В данном случае хочется особенно отметить слово «игровая». NVIDIA позиционирует этот продукт именно так. Карта действительно не настолько сильна в GPGPU, как от неё ожидали. А ведь Kepler — это ещё и великий учёный, давший человечеству множество открытий, изменивших его историю! Сможет ли одноимённая архитектура графических ускорителей NVIDIA оправдать ожидания, которые на неё возлагаются современным поколением людей, покажет время.

Источник