Сопроцессор intel xeon phi

Сопроцессор intel xeon phi

Ускорители Xeon Phi Coprocessor для высокопроизводительных вычислений.

Математические сопроцессоры Intel Xeon Phi представляют собой современные высокопроизводительные вычислительные модули. Они обеспечивают исключительную производительность при выполнении операций с двойной точностью (до одного триллиона операций в секунду). Эти процессоры найдут свое применение там, где есть необходимость в сложных и ресурсоемких вычислениях, например для поддержки медико-биологических приложений или приложений, моделирующих изменения финансовых показателей.

Особенности сопроцессоров Intel Xeon Phi.

Сопроцессоры Intel Xeon Phi базируются на 64-битной архитектуре x86, поэтому эти вычислительные модули не требуют применения специализированных функций в отличие от сопроцессоров NVIDIA, базирующихся на архитектуре CUDA, благодаря чему пользователь может использовать уже написанный программный код, достаточно лишь произвести повторную компиляцию для увеличения пропускной способности.

Любой программный код, написанный для процессоров семейства Intel Xeon поддерживается и этими сопроцессорами. Благодаря этому существенно облегчается разработка программного обеспечения.

Сопроцессоры Intel Xeon Phi производятся на основе трехмерных транзисторов Tri-Gate, выпускающихся по 22-нанометровому техпроцессу. Они обеспечивают прекрасное соотношение производительности и потребляемой мощности при решении рабочих задач с высокой степенью параллелизма.

Каждое ядро процессора обладает 256-битными регистрами, благодаря которым в качестве операнда могут использоваться четыре числа и операция может выполняться не над одним числом, а над вектором. Специальное расширение набора процессорных команд Intel Advanced Vector eXtensions поддерживает такую возможность.

В ядре процессора Xeon Phi выделены несколько арифметико-логических устройств, ориентированных на выполнение вычислений различного типа. Благодаря этому достигается высокая степень параллелизма: за один такт процессор может выполнить до восьми операций над числами двойной точности. Фактически вместо операций над скалярными операндами процессор осуществляет операции над векторами. Адаптация программного кода к такому виду вычислений производится на этапе компиляции, однако программист может оптимизировать код программы, повышая эффективность векторизации.

Эффективное взаимодействие Intel Xeon Phi с памятью.

Как известно на производительность вычислительной системы влияет не только собственная мощность процессора, но также и эффективности его взаимодействия с памятью.

В системах с общей памятью специально разработан стандарт OpenMP, включающий в себя комплекс библиотек, переменных окружения и директив компилятора, предназначенных для реализации многопоточных приложений в системах с большим количеством процессоров и процессорных ядер с общей памятью.

В системах с распределенной памятью (например, при решении задач на узлах вычислительного кластера) организация обмена информацией производится в соответствии со стандартом MPI.

Процессорные модули Xeon Phi обеспечивают высокопараллельную обработку данных, обеспечивая надежную и эффективную поддержку наиболее требовательных к вычислительной мощности приложений.

Сопроцессоры Intel Xeon Phi поддерживают до 61 ядер и до 244 потоков. Большой выбор различных конфигураций позволяет подобрать наиболее подходящий вариант в соответствии с рабочими нагрузками, необходимым уровнем производительности и эффективности.

Благодаря использованию процессоров Xeon Phi пользователь получает возможность увеличить вычислительную плотность серверов до восьми раз.

Желание познакомиться с сопроцессором Xeon Phi возникло давно, но то все не было возможности, то времени. В конце концов чудо свершилось и добрался до предмета вожделения. К сожалению, в руки попала далеко не самая последняя модель – 5110P, но для первого знакомства сойдет. Имея опыт работы с CUDA, меня очень интересовал вопрос отличий между программированием для GPU и сопроцессора. Вторым вопросом был: «А что (кроме дополнительной головной боли) я буду иметь используя сей девайс вместо GPU или CPU?».

Примечание: Данная статья не является рекламой или антирекламой какого-либо программного или аппаратного продукта, а всего лишь описывает личный опыт автора.

По сути, сопроцессор это отдельная железяка, устанавливающаяся в PCI-e слот. В отличие от GPU сопроцессор имеет свою Linux-подобную микро OS, так называемая Card OS или uOS. Существует два варианта запустить код на Xeon Phi:

  • Скомпилировать родной (native) код для архитектуры MIC, используя флаг –mmic
  • Запускать код через выгрузку (offload). В этом случае часть скомпилированного кода запускается на хосте (компьютер содержащий сопроцессор), а часть на девайсе (сопроцессор далее будем именовать просто девайсом).
Читайте также:  Постоянно взламывают вк что делать

Еще одним важным моментом является возможность использования OpenMP для распределения работы между потоками внутри девайса — прекрасно, этим и займемся. Сперва реализуем простой алгоритм на CPU, а затем переделаем программу так, чтобы она работала на сопроцессор.

На нижнем рисунке видно, что для совершения выгрузки (offload) кода на девайс используется директива #pragma offload, в качестве цели для выгрузки указывается mic (наш девайс). Если в системе несколько сопроцессоров, то необходимо указать номер девайса. Пример:

После указания цели следуют параметры выгрузки, они могут быть:

  • in – переменные являются исключительно входными, то есть после завершения кода значения переменных обратно на хост не копируются.
  • out – переменные являются исключительно результатом, то есть перед началом работы выгружаемого участка их значения не копируются с хоста.
  • inout – перед запуском выгружаемого кода все переменные копируются на девайс, а после завершения – на хост.
  • nocopy – переменные никуда не копируются. Используется для повторного использования уже инициализированных переменных.

Подробное описание offload здесь.
В данном случае, переменные numProc и host только объявлены на хосте, но не инициализированы, поэтому используем out копирование (можно, конечно, и inout, но не будем нарушать порядок).
Полученный код вполне можно скомпилировать и запустить – никаких специальных флагов компиляции не требуется. В данном случае число потоков определит девайс, вернув значение numProc, в то время как расчеты будут все также производиться на хосте, так как мы еще не выгрузили процедуры.
Самая первая процедура задает начальные условия, она требует порядка N операций и вызывается только раз, поэтому оставим ее на хосте.
Далее запускается цикл по времени, на каждом шаге которого необходимо вычислять силы взаимодействия и интегрировать уравнения движения. Последняя процедура требует, как и задание начальных условий, порядка N операций, и казалось бы, что ее логично тоже оставить на хосте, но это потребует копирования массива с силами на каждом шаге. Очевидно, что при большом размере системы большая часть времени будет уходить на перетаскивание массива туда-обратно. Следовательно необходимо загрузить все исходные данные на девайс, произвести нужное число итераций и выгрузить результат на хост. Данный подход также используется при параллелизации для GPU.

Помимо имен массивов здесь также необходимо указать их размер. Таким образом, цикл полностью загружается на девайс, исполняется на нем, после чего результаты копируются обратно. Следует отметить, что для подпрограмм, которые будут исполняться на девайсе необходимо указать соответствующие атрибуты:

Вот, собственно и все, первая программа для Intel Xeon Phi готова и даже работает. При запуске программы может быть полезным узнать кто же именно и куда она копирует (между хостом и девайсом). Это можно сделать используя переменную среды OFFLOAD_REPORT. Пример (подробно):

Единственное сходство между программированием для GPU и Xeon Phi, так это необходимость заботиться о перемещении данных между хостом и девайсом, собственно это же и является отличием от использования OpenMP исключительно для CPU. Хочется отметить, что родной компилятор умеет автоматически векторизовать код не только для хоста, но и для девайса, таким образом можно получить приличную производительность не сильно влезая в детали.
На мой взгляд, Xeon Phi хорошо подойдет если уже имеется готовый код работающий с OpenMP и необходимо повысить производительность, но нет желания/возможности переписывать для GPU. Важным моментом, который наверняка придется во вкусу людям из научной среды, является поддержка Fortran.

Спецификации

Сравнение продукции Intel®

Основные данные

  • Коллекция продукции Семейство продукции Intel® Xeon Phi™ x100
  • Кодовое название Продукция с прежним кодовым названием Knights Corner
  • Вертикальный сегмент Server
  • Номер процессора 5110P
  • Состояние Discontinued
  • Дата выпуска Q4’12
  • Литография 22 nm

Производительность

  • Количество ядер 60
  • Количество потоков 60
  • Базовая тактовая частота процессора 1.05 GHz
  • Кэш-память 30 MB L2 Cache
  • Расчетная мощность 225 W

Дополнительная информация

  • Доступные варианты для встраиваемых систем Нет
  • Техническое описание Смотреть
Читайте также:  Борьба умов на айфон

Спецификации памяти

  • Макс. объем памяти (зависит от типа памяти) 8 GB
  • Макс. число каналов памяти 16
  • Макс. пропускная способность памяти 320 GB/s
  • Поддержка памяти ECC Да

Варианты расширения

Спецификации корпуса

  • Высота кронштейна PCI bracket inluded or installed (not on Bulk), 312 mm

Усовершенствованные технологии

  • Технология Intel® Turbo Boost Нет
  • Набор команд 64-bit
  • Расширения набора команд Intel® IMCI

Заказ и соблюдение требований

Продукция, снятая с производства

Intel® Xeon Phi™ Coprocessor 5110P (8GB, 1.053 GHz, 60 core) PCIe Card, Passively Cooled, PCIe Bracket Installed

  • MM# 924044
  • Код заказа SC5110P

Intel® Xeon Phi™ Coprocessor 5110P (8GB, 1.053 GHz, 60 core) PCIe Card, Passively Cooled, PCIe Bracket Installed

  • MM# 931159
  • Код спецификации S
  • Код заказа SC5110PEB

Intel® Xeon Phi™ Coprocessor 5110P (8GB, 1.053 GHz, 60 core) PCIe Card, Passively Cooled, PCIe Bracket Installed

  • MM# 924038
  • Код заказа SC5110PPP

Intel® Xeon Phi™ Coprocessor 5110P Developer Starter Kit for Server, Single

  • MM# 932981
  • Код спецификации S
  • Код заказа SC5110PKIT

Информация о соблюдении торгового законодательства

  • ECCN 3A991
  • CCATS NA
  • US HTS 8471500150

Информация о PCN/MDDS

  • 924044 PCN | MDDS
  • 924038 MDDS
  • 931159 PCN | MDDS
  • 932981 PCN | MDDS

Совместимая продукция

Семейство серверных систем Intel® R2000WT

Семейство серверных плат Intel® S2600KP

Семейство серверных плат Intel® S2600TP

Семейство серверных плат Intel® S2600WT

Семейство серверных плат Intel® S1600JP

Семейство серверных плат Intel® S4600LH

Семейство серверных плат Intel® S4600LT

Семейство серверных систем Intel® R1000JP

Семейство серверных систем Intel® R2000LH2

Семейство серверных систем Intel® R2000LT2

Файлы для загрузки и ПО

Дата выпуска

Дата выпуска продукта.

Литография

Литография указывает на полупроводниковую технологию, используемую для производства интегрированных наборов микросхем и отчет показывается в нанометре (нм), что указывает на размер функций, встроенных в полупроводник.

Количество ядер

Количество ядер — это термин аппаратного обеспечения, описывающий число независимых центральных модулей обработки в одном вычислительном компоненте (кристалл).

Количество потоков

Поток или поток выполнения — это термин программного обеспечения, обозначающий базовую упорядоченную последовательность инструкций, которые могут быть переданы или обработаны одним ядром ЦП.

Базовая тактовая частота процессора

Базовая частота процессора — это скорость открытия/закрытия транзисторов процессора. Базовая частота процессора является рабочей точкой, где задается расчетная мощность (TDP). Частота измеряется в гигагерцах (ГГц) или миллиардах вычислительных циклов в секунду.

Кэш-память

Кэш-память процессора — это область быстродействующей памяти, расположенная в процессоре. Интеллектуальная кэш-память Intel® Smart Cache указывает на архитектуру, которая позволяет всем ядрам совместно динамически использовать доступ к кэшу последнего уровня.

Расчетная мощность

Расчетная тепловая мощность (TDP) указывает на среднее значение производительности в ваттах, когда мощность процессора рассеивается (при работе с базовой частотой, когда все ядра задействованы) в условиях сложной нагрузки, определенной Intel. Ознакомьтесь с требованиями к системам терморегуляции, представленными в техническом описании.

Доступные варианты для встраиваемых систем

Доступные варианты для встраиваемых систем указывают на продукты, обеспечивающие продленную возможность приобретения для интеллектуальных систем и встроенных решений. Спецификация продукции и условия использования представлены в отчете Production Release Qualification (PRQ). Обратитесь к представителю Intel для получения подробной информации.

Макс. объем памяти (зависит от типа памяти)

Макс. объем памяти означает максимальный объем памяти, поддерживаемый процессором.

Макс. число каналов памяти

От количества каналов памяти зависит пропускная способность приложений.

Макс. пропускная способность памяти

Макс. пропускная способность памяти означает максимальную скорость, с которой данные могут быть считаны из памяти или сохранены в памяти процессором (в ГБ/с).

Поддержка памяти ECC

Поддержка памяти ECC указывает на поддержку процессором памяти с кодом коррекции ошибок. Память ECC представляет собой такой типа памяти, который поддерживает выявление и исправление распространенных типов внутренних повреждений памяти. Обратите внимание, что поддержка памяти ECC требует поддержки и процессора, и набора микросхем.

Редакция PCI Express

Редакция PCI Express — это версия, поддерживаемая процессором. PCIe (Peripheral Component Interconnect Express) представляет собой стандарт высокоскоростной последовательной шины расширения для компьютеров для подключения к нему аппаратных устройств. Различные версии PCI Express поддерживают различные скорости передачи данных.

Читайте также:  Как правильно сделать презентацию 4 класс

Технология Intel® Turbo Boost

Технология Intel® Turbo Boost динамически увеличивает частоту процессора до необходимого уровня, используя разницу между номинальным и максимальным значениями параметров температуры и энергопотребления, что позволяет увеличить эффективность энергопотребления или при необходимости «разогнать» процессор.

Набор команд

Набор команд содержит базовые команды и инструкции, которые микропроцессор понимает и может выполнять. Показанное значение указывает, с каким набором команд Intel совместим данный процессор.

Расширения набора команд

Расширения набора команд — это дополнительные инструкции, с помощью которых можно повысить производительность при выполнении операций с несколькими объектами данных. К ним относятся SSE (Поддержка расширений SIMD) и AVX (Векторные расширения).

Дополнительные варианты поддержки Сопроцессор Intel® Xeon Phi™ 5110P (8 ГБ, 1,053 ГГц, 60 ядер)

Вам нужна дополнительная помощь?

Оставьте отзыв

Оставьте отзыв

Наша цель — сделать семейство инструментов ARK максимально полезным для вас ресурсом. Оставьте свои вопросы, комментарии или предложения здесь. Вы получите ответ в течение 2 рабочих дней.

Ваши комментарии отправлены. Спасибо за ваш отзыв.

Предоставленная вами персональная информация будет использована только для ответа на этот запрос. Ваше имя и адрес электронной почты не будут добавлены ни в какие списки рассылок, и вы не будете получать электронные сообщения от корпорации Intel без вашего запроса. Нажимая кнопку «Отправить», вы подтверждаете принятие Условий использования Intel и понимание Политики конфиденциальности Intel.

Вся информация, приведенная в данном документе, может быть изменена в любое время без предварительного уведомления. Корпорация Intel сохраняет за собой право вносить изменения в цикл производства, спецификации и описания продукции в любое время без уведомления. Информация в данном документе предоставлена «как есть». Корпорация Intel не делает никаких заявлений и гарантий в отношении точности данной информации, а также в отношении характеристик, доступности, функциональных возможностей или совместимости перечисленной продукции. За дополнительной информацией о конкретных продуктах или системах обратитесь к поставщику таких систем.

Классификации Intel приведены исключительно в информационных целях и состоят из номеров классификации экспортного контроля (ECCN) и номеров Гармонизированных таможенных тарифов США (HTS). Классификации Intel должны использоваться без отсылки на корпорацию Intel и не должны трактоваться как заявления или гарантии в отношении правильности ECCN или HTS. В качестве импортера и/или экспортера ваша компания несет ответственность за определение правильной классификации вашей транзакции.

Формальные определения свойств и характеристик продукции представлены в техническом описании.

‡ Эта функция может присутствовать не во всех вычислительных системах. Свяжитесь с поставщиком, чтобы получить информацию о поддержке этой функции вашей системой или уточнить спецификацию системы (материнской платы, процессора, набора микросхем, источника питания, жестких дисков, графического контроллера, памяти, BIOS, драйверов, монитора виртуальных машин (VMM), платформенного ПО и/или операционной системы) для проверки совместимости с этой функцией. Функциональные возможности, производительность и другие преимущества этой функции могут в значительной степени зависеть от конфигурации системы.

Максимальная тактовая частота с технологией Turbo Boost — это максимальная тактовая частота одноядерного процессора, которую можно достичь с помощью технологии Intel® Turbo Boost. Более подробную информацию можно найти по адресу https://www.intel.com/content/www/ru/ru/architecture-and-technology/turbo-boost/turbo-boost-technology.html.

Расчетная мощность системы и максимальная расчетная мощность рассчитаны для максимально возможных показателей. Реальная расчетная мощность может быть ниже, если используются не все каналы ввода/вывода набора микросхем.

Номера процессоров Intel® не служат мерой измерения производительности. Номера процессоров указывают на различия характеристик процессоров в пределах семейства, а не на различия между семействами процессоров. Дополнительную информацию смотрите на сайте https://www.intel.com/content/www/ru/ru/processors/processor-numbers.html.

Анонсированные артикулы (SKUs) на данный момент недоступны. Обратитесь к графе «Дата выпуска» для получения информации о доступности продукции на рынке.

Ссылка на основную публикацию
Соевый соус стебель бамбука классический отзывы
Всем доброго дня!Много мнений по этому поводу, как вы считаете, соевый соус или морская соль, что менее вредно для организма....
Сколько секунд видео можно загрузить в инстаграм
Обновлено - 27 января 2020 IGTV — функция, с помощью которой можно выложить длинное видео в Инстаграм продолжительностью от 15...
Сколько символов на странице ворд
Вы можете посмотреть пример стандартной страницы перевода в формате doc. В рынке переводов можно встретить разные варианты определения условной страницы:...
Соевый соус ямаса отзывы
Полное наименование: Соевый Соус классический (натурально сваренный) Изготовитель: Yamasa Corporation Все характеристики Соевый соус Yamasa: Результаты теста Достоинства Безопасный Не...
Adblock detector