Реконфигурируемые архитектуры микропроцессоров (специальные акселераторы обработки критичных частей алгоритмов видео-,аудио- и сигнальной обработки.

Реконфигурируемые архитектуры

Реконфигурируемые архитектуры являются некоторой золотой серединой для тех, кто не может или не готов платить за разработку специлизированного вычислительного элемента, но тем не менее требует очень высокая производительность и сложные конвейеры. В этом случае можно порекомендовать воспользоваться вычислительными элементами, позволяющими менять свою функцию в очень широких пределах.

Выбор вычислительных элементов

Замечания о выборе вычислительных элементов

Общность и эффективность в некотором смысле обратно связаны друг с другом:

Чем более общим является вычислительный элемент, и чем больше число задач, которые он способен выполнять, тем менее эффективным он будет при выполнении любой из этих специфических задач.
Поэтому решения, принятые в дизайне, практически всегда компромиссы; разработчики выделяют ключевые моменты или требования приложений, которым необходимо удовлетворять и довольствуются компромиссными вариантами в менее важных областях.

Для решения вопросов вычислительно интенсивных и специализированных задач, для которых машины общего назначения не могут достичь необходимой производительности:

Для специфических областей приложений, таких как обработка изображений или цифровых сигналов (для которых многие вычислительные задачи являются специализированными и могут хорошо определены), в течение многих лет разрабатываются и производятся процессоры специального назначения (ASPs), присоединенные процессоры, и сопроцессоры.
Недостаток подхода заключается в том, что такие решения очень специализированы; по мере того, как задача меняется, или возникают новые идеи или методы, нехватка гибкости делает проблематичной их долгосрочное использование.

Реконфигурируемые вычисления или Вычислительные машины на заказ(CCMs), использующие FPGA (программируемые вентильные матрицы, впервые предложенные Xilinx в 1986) или другое реконфигурируемое (настраиваемое) аппаратное обеспечение, представляют собой привлекательную альтернативу в выборе вычислительных элементов FPGA были изначально разработаны для тестирования аппаратного дизайна, быстрого прототипирования и в качестве потенциальной замены для ASIC

Программируемость вычислительных элементов: Определяющие факторы

Что такое реконфигурируемые вычисления?

Используют реконфигурируемые аппаратные средства: (пространственно-программируемые соединения аппаратных процессорных элементов), привязанные к приложению:

Настраиваемое (изменение аппаратной функциональности на лету) аппаратное обеспечение, удовлетворяющее вычислительным требованиям, присутствующим в конкретном приложении
Цель реконфигурируемых вычислений: использование реконфигурируемого аппаратного обеспечения для построения систем, превосходящих стандартные вычислительные решения в терминах:

Гибкости
Производительности
Потребления
Вывода на рынок (time-to-market)
Стоимости жизненного цикла

Реконфигурируемый процессор - это “железо”, настроенное на специфику задачи. Прямое отображение специфичного потока данных, управления. Схемы “адаптируются” по мере изменения требований задачи.

Пространственные и временные вычисления

Пространственные вычисления - слева - используют оборудование.

Временные вычисления используют программы, выполняющиеся на процессоре.

Стандартные программируемые процессоры и конфигурируемые устройства

Стандартные программируемые процессоры

Довольно широкий тракт данных, растущий (в ширину) со временем (например. 16, 32, 64, 128 бит).
Поддержка больших встроенных в чип кэш-памятей инструкций, которые тоже ростут со временем, и теперь могут хранить тысячи инструкций.
Большая пропускная способность выдачи инструкций, так что может выдаваться несколько инструкций за такт за счет выделения значительной площади чипа под выборку инструкций/распределение /выдачу/планирование.
Один поток управления вычислениями. (SMT меняет эту ситуацию)

Конфигурируемые устройства (типа FPGAs):

Узкий тракт данных на выч. элемент(например, 1-2 бита),
Место на чипе только для одной инструкции на вычислительный элемент – т.е. есть только одна инструкция, говорящая ячейке FPGA массива какую функцию выполнить и как соединить входы и выходы.
Минимальная площадь чипа отводится под распределение инструкций, поэтому изменение множества активных инструкций массива (например, с одной FPGA конфигурации на другую) занимает сотни тысяч тактов.
Могут обрабатывать вычисления на уровне битов либо регулярные вычисления более эффективно, чем процессоры.

Зачем нужны реконфигурируемые вычисления?

Для повышения производительности (включая предсказуемость) и вычислительно-энергетической эффективности по сравнению с программной реализацией.

например, приложения обработки сигналов в виде конфигурируемого аппаратного обеспечения.

Для того, чтобы иметь мощные операции, специфичные для приложения.
Для улучшения гибкости продукта и стоимости/времени разработки по сравнению с аппаратным решением (ASIC)

например, шифрование, сжатие или обработка сетевых протоколов в конфигурируемом аппаратном обеспечении

Для использования того же самого аппаратного обеспечения в различных целях на разных стадиях вычислений (снижает стоимость).

При условии достаточного использования каждой конфигурации, чтобы оправдать большие накладные расходы/задержку на реконфигурирование.

Преимущества устройств конфигурируемой логики

Нет жесткой неизменяемой настройки и возможна разработка новых приложений после производства

“Позднее связывание”

Экономия от масштаба (большая отдача от вложения, фиксированная стоимость разработки)

Время выпуска на рынок короче, чем для ASIC (возможна работа с изменяющимися требованиями и стандартами, новыми идеями)

Потенциальные недостатки:

Гораздо меньшая эффективность (площадь чипа, производительность, потребление) по сравнению с ASIC

Необходимость верификации корректности

(общее для всех аппаратных и программных решений)

Преимущества конфигурируемого аппаратного обеспечения над пространственным

10x преимущество по «грубой» вычислительной плотности над процессорами
Потенциал для мелкозернистого (на уровне бит) управления/параллелизма – может предложить преимущество нового порядка значимости.
Локальность.

Недостатки пространственного/конфигурируемого HW

Каждый вычислительный ресурс/соединение выделяется только для одной функции
Требуется выделение ресурсов для каждой вычислительной подзадачи
Ресурсы для редко требуемых порций вычислений сидят без дела, что приводит иногда к неэффективному использованию ресурсов (тем не менее намного лучше чем в обычных процессорах)

Области приложений конфигурируемых вычислений

Цифровая обработка сигналов
Шифрование
Обработка изображений
Обработка телеметрических данных (удаленное зрение)
Сжатие/распаковка данных/изображений/видео
Низкое потребление (за счет совместного использования аппаратуры)
Научное/инженерное моделирование физических систем (например вычисления методом конечных элементов).
Сетевые приложения (например, реконфигурируемые маршрутизаторы)
Арифметика с переменной точностью
Логико-интенсивные приложения
Аппаратные улучшения in-the-field
Адаптивные (самообучающиеся) аппаратные элементы
Быстрая разработка прототипов систем
Тестирование дизайна процессоров и ASIC
...

В общем это многие типы приложений с малыми вычислительно интенсивными “ядрами” (внутренние циклы?), которые более эффективно реализовывать аппаратно.

Технологические тенденции, влияющие на конфигурируемые вычисления

Увеличивающийся разрыв между «пиковой" производительностью процессоров общего назначения и «средней реально достижимой" производительностью.

Большинство программистов не пишут код, который даже близко подбирается к пиковой производительности современных суперскалярных CPU

Улучшения в аппаратном обеспечении FPGA: емкость и скорость:

FPGA используют стандартные SRAM техпроцессы и находятся «на гребне производственной технологии" (например, технологии VLSI)
Оптовые цены, несмотря на заказной характер решений

Улучшения в синтезе и ПО для разводки/маршрутизации FPGA
Увеличивающееся число транзисторов на (процессорном) чипе (один миллиард +): Как их эффективно использовать?

Большие кэш-памяти (Наиболее просто и популярно)?
Несколько процессорных ядер? (Многопроцессорность на чипе- CMP)
Поддержка SMT?
Векторы/память в стиле IRAM?
DSP ядра или другие процессоры специфических приложений?
Реконфигурируемая логика (FPGA или другая реконфигурируемая логика)?

В итоге имеем вопрос - какие комбинации вариантов возможны и как это всё эффективно использовать?

Архитектуры конфигурируемых вычислений

Архитектуры конфигурируемых вычислений сочетают элементы архитектур для общих вычислений и интегральных микросхем ASIC.

Процессор общего назначения функционирует c фиксированным набором схем, которые выполняют множество задач под контролем ПО.
ASIC содержит микросхемы, специализированные для конкретной задачи и поэтому требует малого количества/вообще не требует ПО.

Конфигурируемый компьютер может исполнять программные команды, которые изменяют его конфигурируемые устройства (например, FPGA схемы) по требованию для выполнения широкого круга задач.

Компьютер с гибридной архитектурой

Сочетает процессоры общего назначения (GPPs) и реконфигурируемые устройства (чаще всего FPGA чипы, или программируемые массивы простых процессоров).

FPGA контроллер загружает конфигурации схем, сохраненных в памяти в FPGA процессор по требованию выполняющейся программы.

Если память не содержит запрошенную схему, FPGA процессор посылает запрос к PC хосту, который затем загружает конфигурацию для требуемой микросхемы.

Стандартная гибридная конфигурируемая архитектура сегодня:

Один или больше FPGA на плате, соединенные с хостом через шину I/O (например, PCI)

Возможная в будущем гибридная конфигурируемая архитектура:

Интегрирует область конфигурируемого аппаратного обеспечения (FPGA или что-то еще) в чип процессора в качестве реконфигурируемых функциональных устройств или сопроцессоров
Интегрирует конфигурируемой железо на чип DRAM => гибкие вычисления, где память не является узким местом

Гибридно-реконфигурируемый компьютер: Уровни связности

Различные уровни связности в гибридной реконфигурируемой системе.Реконфигурируемая логика выделена серым.

Программируемые микросхемы: FPGA

Программируемые вентильные матрицы (Field-Programmable Gate Array,FPGA) впервые представленные Xilinx (1986). Изначально предполагавшаяся область приложений: верификация аппаратного дизайна, быстрое прототипирование цифровых устройств, и потенциальная замена ASIC. Программируемые схемы могут создаваться или удаляться путем посылки сигналов в вентили логических элементов (битовый конфигурационный поток). Встроенная решетка из схем, организованных в столбцы и строки, позволяет разработчику соединять логические элементы между собой или с внешней памятью или микропроцессором. Логические элементы группируются в блоки, производящие базовые бинарные операции типа AND, OR и NOT, называемые вентилями (gate)

Отдельные фирмы, включая Xilinx и Altera, разработали устройства, содержащие 10,000,000 или больше одинаковых вентилей. В добавление к “ общецелевым” или обобщенным FPGA, были разработаны более специализированные семейства FPGA, содержащие аппаратно зашитые функциональные устройства (например, MAC устройства), предназначенные для специализированных областей вроде DSP приложений.

Программируемые вентильные матрицы (Field Programmable Gate Arrays, FPGA)

Чип содержит много малых строительных блоков, которые могут быть сконфигурированы для выполнения различных функций. Эти строительные блоки известны также как Блоки конфигурируемой логики (Configurable Logic Blocks, CLB). FPGA обычно «программируются" с помощью чтения потока конфигурационной информации, идущей извне чипа Обычно программируемы внутрисхемно (in-circuit) (подход, противоположный EPLD –электрически программируемым логическим устройствам (Electrically Programmable Logic Devices) – которые стандартно программируются путем вынимания их из схемы и применения Flash программатора) Применяются специальные последовательные памяти.

25% вентилей FPGA могут быть использованы приложением. Оставшаяся часть управляет конфигурированием, соединениями, и т.д.

Имеется 5-10X снижение частоты по сравнению с полностью аппаратно настроенными реализациями (ASICs). Обычно производятся с использованием технологии SRAM. Поскольку FPGA «действуют» как SRAM или логика, они теряют свою программу при потере питания. Биты конфигурации приходится перезагружать при включении. Обычно перезагрузка идет из Flash, или закачивается из памяти через шину I/O.

Табличные функциональные преобразователи (Look-Up Table,LUT)

K-LUT – таблица функций с K аргументами

Любая функция с K аргументами содержится в программируемой таблице функций

Стандартная FPGA плитка

Обобщенная архитектура маршрутизации FPGA островного типа (island-style)

Сравнение вычислительной плотности FPGA и RISC процессоров

Использование площади в процессоре и FPGA

Программирование/конфигурирование FPGA

Спецификация аппаратного дизайна: аппаратный дизайн для реализации выбранной аппаратно-связанной вычислительно-интенсивной части приложения специфицируется с помощью RTL/HDL/логических диаграмм.
Синтез и размещение: Для конвертирования аппаратного дизайна в формат netlist используют специфические для устройства программные утилиты, предоставленные производителем.

Дизайн разделяется на логические блоки (CLBs) : LUT- отображение
Потом находят хорошее (3) размещение для каждого блока (4) и проводят между ними маршрутизацию

Затем генерируется последовательный битовый поток смены конфигураций (5) и скармливается собственно FPGA устройствам

Конфигурационные биты загружаются в «длинный регистр сдвига" на FPGA.
Выходами этого регистра сдвига являются управляющие проводники, которые контролируют поведение всех CLBs на чипе.

Программирование/конфигурирование FPGA

Инструменты для реконфигурируемого процессора (поток аппаратно/программного совместного дизайна)

Непростые моменты в разработке конфигурируемых приложений

Этот процесс превращает прикладных программистов в :

Разработчиков аппаратуры на полставки.

Проблемы анализа производительности => что мы должны поместить в hardware?
Проблема аппаратно-программного совместного дизайна
Выбор и зернистость вычислительных элементов.
Выбор и зернистость сети соединений.
Проблемы синтеза
Проблемы тестирования/надежности.
Проблемы адаптации вычислений к имеющимся аппаратным блокам (конфигурации памятей, DSP-блоки)

Уровни реконфигурируемых вычислительных элементов

Проблемы при использовании FPGA для реконфигурируемых вычислений

Аппаратно-программное разделение (совместный дизайн)
Накладные расходы/задержки времени выполнения
Время загрузки битового конфигурационного потока - может занимать секунды (в процессе улучшения)
Методы сокрытия реконфигурационных задержек.
Ограничения пропускной способности I/O: возникают при сильной связности.
Скорость, потребление,стоимость, плотность (в процессе улучшения)
Поддержка языков высокого уровня (в процессе улучшения)
Производительность, оценивание занимаемого пространства
Верификация дизайна
Разбиение и отображение между несколькими FPGAs
Частичная реконфигурация (поддерживается в FPGA класса high-end)
Кэширование конфигураций (поддерживается в FPGA класса high-end)

Модели реконфигурируемых вычислений (RC) с гибридной архитектурой

Не затронуто логикой массивов: сопряжение (interfacing)

Triscend E5, Atmel FPSLIC

Выделенный I/O процессор.

NAPA 1000

Расширение инструкций: (Сильная связность)

Специальные инструкции /операции сопроцессора

PRISM (Brown, 1991)
PRISC (Harvard, 1994)
Chimaera (Northwestern, 1997)
GARP (Berkeley, 1997)

Расширения процессора с помощью VLIW/программируемых массивов

REMARC (Stanford, 1998)
Raw (MIT, 1997)
MorphoSys (UC Irvine, 2000)
MATRIX (MIT, 1997)
RaPiD (Reconfigurable Pipelined Datapaths) (University of Washington, 1996)
PipeRench (Carnegie Mellon, 1999)

Автономный со/потоковый процессор

OneChip (Toronto , 1998)

Модели RC с гибридной архитектурой: Interfacing

Пример: Интерфейс/Периферийные устройства

Triscend E5

Процессор Atmel AT94 – ядро AVR + FPGA

Интерфейс между ядром процессора и FPGA содержит 8 входов и 8 выходов данных, 16 линий разрешения выбора для FPGA и 16 линий прерывания от FPGA к ядру процессора

AT94K

Структура одной из 5-ти плоскостей FPGA AT94

Модели RC с гибридной архитектурой: IO процессор

Первая попытка расширения инструкций: PRISM (Brown, 1991)

Реконфигурация процессора через метаморфизм набора инструкций (Processor Reconfiguration through Instruction Set Metamorphosis, PRISM)
FPGA на шине (аналогично Splash 2)
Доступная как периферийное устройство, отображаемое в память
Явное управление контекстом
PRISM-1

68010 (10MHz) + XC3090
Может реконфигурировать FPGA за 1 секунду
50-75 тактов на операции

Результаты PRISM-1

Прямое ускорение ядра (время на IO конфигурации не включено?)

Модели RC с гибридной архитектурой: VLIW/программируемая модель

Похожа на расширение инструкций. Один тег (адрес, инструкция) управляет большим числом более простых операций. Может синтезировать в одну последовательность большое число различных тегов/операций.

REMARC (Stanford, 1998)

Массив “нано-процессоров”: 16b, 32 инструкции каждый. VLIW-подобное исполнение, глобальный sequencer.

Сопроцессорный интерфейс (по аналогии с GARP). Нет прямого отображения массив память.

Архитектура REMARC

Сопроцессор выдачи rex. Глобальный контроллер упорядочивает нано-процессоры. Несколько тактов (микрокод). Каждый нано-процессор имеет свой I-store (VLIW) нанопроцессор.

Здесь массив содержит 8 x 8 = 64 нано-процессора

Результаты REMARC’а

Модели RC с гибридной архитектурой

Все однопоточные
Параллелизм ограничен на:

Уровне инструкций (VLIW, уровень бит)
Уровне данных (вектор/поток/SIMD)

Нет параллелизма уровня задач/потоков

За исключением задач выделенного IO параллельно с задачами процессора

Задача для массива отделяется от процессора

Разделение операции /соединение по ее завершении

Массив имеет отдельное

Внутреннее состояние
Доступ к разделяемому состоянию (памяти)

NAPA это поддерживает до определенной степени

Уровень задачи, по крайне мере, с несколькими устройствами
Пример: OneChip (Toronto , 1998)

Итого (вместо заключения)

Несколько различных моделей и примеров использования “реконфигурируемого процессора”:
На вычислительных ядрах (Видны достоинства крупно-зернистого взаимодействия - GARP, REMARC, OneChip)
Отсутствуют: Более универсальные (для множества приложений) преимущества этих архитектур...
Используется плотность и выразительность мелкозернистых пространственных операций
Большое число способов «чистой» интеграции в архитектуру процессоров … и их ограничения

IntellaSyS 24-Core SEAforth processor

Это не концепт стековой мультипроцессорной машины. Это реальный продукт, довольно широко использующийся.

24-элементный массив 18-битовых процессоров
Часы, 2 18-битовых АЦП, 2 9-битовых ЦАП, интерфейсы внешней памяти
150 мВт потребление
1 Млрд. оп/сек на одном ядре
Асинхронная логика
Коммуникационные регистры внутри каждого ядра
64 или 512 слов ОЗУ/ПЗУ внутри каждого ядра

5 18-битовых регистров
2 стека (10 элементов данных и 9 уровней вложенности стека возвратов)
Длина инструкций 3 и 5 бит (до 4-х инструкций в слове)
До 1 ГГц тактовой частоты
VentureForth ISA
Специализированный коммуникационный сопроцессор
Реализация автоматического ухода в режим сна в случае ожидания события от коммуникационного сопроцессора

Внутри - простейший стековый процессор.

Библиотека Forthlets, реализующая базовую функциональность множества кодеков (MP3, H.264/MPEG-4) – более 200 примеров различных приложений
Рынок: аудио и видео-приложения, мобильные телефоны (Тайваньские производители), беспроводные домашние кинотеатры
20 у.е. в партиях от 1000 штук, с целью снижения цены до 10 у.е.

Ambric Parallel Processor

Лозунг: от программных инструментов к процессорам!

От 96 до 360 процессоров на борту (333 Мгц, 0.13 мкм)
Java как язык программирования верхнего уровня (не имеет ничего общего с реальным железом)
Рынок: высокопроизводительная цифровая обработка данных и обработка данных общего назначения, замена ПЦОС и FPGA
Куда девать транзисторы: «Логика – реальная сила процессора, кэш – это когда дизайнер не способен потратить транзисторы на более нужные вещи»
Локально синхронные, но глобально асинхронные процессоры

Ambric - программирование

Java или ассемблер
Графический интерфейс или aStruct язык
Java – последовательный, aStruct – параллельный
Концепция использования «каналов» - как в языке Occam

Всё новое – хорошо забытое старое.

Базовые кирпичики системы – 32-х разрядное RISC ядро, и более сложное DSP-ядро. 8 32-битных регистров. 256 байт локальной памяти. 18 32-х битных регистров, 1К локальной памяти, 64-битовый аккумулятор.

«Половинка» базового вычислительного элемента, содержащего 4 процессора и 4 локальные памяти. Две «половинки» формируют базовый вычислительный элемент (вторая половинка - зеркально отражённая первая).

MathStar

Массив программируемых объектов – FPGA, но уровень абстракции выше. 256 АЛУ (16 бит), 64 МАС, 80 регистровых файлов (64 по 20 бит) в массиве объектов 20х20. 12 банков памяти 2К*76 бит.

Достаточно простые элементы (38 операций в АЛУ, 1-на в МАС). Упрощенный цикл расположения алгоритма на массиве элементов (по сравнению с FPGA).

MathStar изнутри

NVidia G80

GeForce 8800 - 681 миллион транзисторов. На дизайн архитектуры имела влияние разработка мультипроцессора Larrabee фирмой Intel. 768 МБайт памяти на борту. Унифицированная архитектура (массив общих процессоров для потоковой обработки вершин и пикселей, а также других возможных видов данных). Аппаратная поддержка последних новшеств DirectX 10, в том числе и новая шейдерная модель - SM4, генерация геометрии и запись промежуточных данных из шейдеров. 384 бит шина памяти, 6 независимых контроллеров шириной 64 бита, поддержка GDDR4 (1.8Ггц). 128 скалярных (не векторных, внимание!) ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32бит точности в рамках стандарта IEE 754, MAD+MUL без потери тактов). ALU работают на удвоенной частоте (1.35ГГц для 8800GTX). 32 текстурных блока, поддержка FP16 и FP32 компонент в текстурах. 64 блока билинейной фильтрации (то есть, возможна честная бесплатная трилинейная фильтрация, а также вдвое более эффективная по скорости анизотропная фильтрация).

Возможность динамических ветвлений в пиксельных и вершинных шейдерах - размер блока планирования - 8х4 (32) пикселя. (!)

6 широких блоков ROP (24 пикселя) c поддержкой AA до 16 семплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра (то есть, возможны HDR+AA). Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 96 MSAA отсчетов (+ 96 Z) за такт, в режиме без цвета (Z only) - 192 отсчета за такт. Запись результатов до 8 буферов кадра одновременно (MRT)

Очень хорошая масштабируемость архитектуры, можно по одному блокировать или убирать контроллеры памяти и ROP (Всего 6), шейдерные блоки (Всего 8 блоков TMU+ALU).

Чип G80

Чип состоит из 8 универсальных вычислительных блоков (шейдерных процессоров). Единица исполнения команд - блок, в котором сгруппированы 4 TMU и 16 ALU. Все ветвления, переходы, условия и т.д. применяются целиком к одному блоку. Каждый процессор снабжен собственным КЭШем первого уровня, в котором хранятся не только текстуры, как ранее, но и другие данные, которые могут быть запрошены шейдерным процессором. Основной поток данных, например, пиксели или вершины, не кэшируются, а идут потоком. Есть 6 блоков ROP, исполняющих определение видимости, запись в буфер кадра и MSAA (синие, рядом с блоками КЭШа L2), сгруппированные c контроллерами памяти, очередями записи и КЭШем второго уровня. Архитектура способна плавно масштабироваться в обе стороны. Добавление или удаление контроллеров памяти и шейдерных процессоров будет соответствующим образом масштабировать пропускную способность ВСЕЙ системы, не нарушая баланса и не создавая узких мест. (из ixbt.com).

G80 – шейдерный процессор

Видимо, безвозвратно в прошлое уходят «жесткие» архитектуры, на смену им приходят менее эффективные («вычисления/ватт»), но более гибкие архитектуры, позволяющие расширять возможности графики и переносить основные вычисления на графический(ие) процессор(ы).

Характеристики производительности

Постепенно, с появлением DX10 шейдерные ограничения уходят в прошлое.

G80 – персональный суперкомпьютер

Специально для программирования чипа разработана Compute Unified Device Architecture – инструменты и библиотеки, позволяющие запускать вычислительно тяжёлые алгоритмы на графической карте В перспективе, центральный процессор будет обрабатывать только события мышки и клавиатуры. От 10х прироста по сравнению с Core 2 Duo 2.66 МГц

AMD Fusion – тогдашний ответ G80

Очень важный и трагический вопрос – 20 лет назад основной деталью компьютера был центральный процессор. Теперь же компьютер «без приличной» видеокарты считается бюджетным и годится только в офис.

AMD: почему бы не интегрировать графику на кристалл? Транзисторов много…

Зачем графическому ядру общаться с процессором через медленную шину PCI-E, пусть они общаются через унифицированный кэш 3-го уровня, а память системы будет общей

Практически одновременно идея была подхвачена Intel, и у последней получилось лучше. Как доказательство - семейство Haswell (2013).

ATI – “Close to Metal” – мы не хуже NVidia

Используем массив параллельных процессоров видеокарты.

Спасибо за внимание!