WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Корж Антон Александрович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ДОСТИЖЕНИЯ

ВЫСОКОЙ СТЕПЕНИ МАСШТАБИРУЕМОСТИ

СУПЕРКОМПЬЮТЕРНЫХ ПРИЛОЖЕНИЙ

специальность 05.13.11 – Математическое обеспечение вычислительных

машин, комплексов и компьютерных сетей.

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Москва – 2013

Работа выполнена в лаборатории параллельных информационных технологий Научно-исследовательского вычислительного центра Московского государственного университета имени М.В. Ломоносова.

Научный руководитель: доктор физико-математических наук, чл.-корр. РАН, профессор Воеводин Владимир Валентинович

Официальные оппоненты: доктор физико-математических наук, Лацис Алексей Оттович, ИПМ им. М.В. Келдыша РАН, заведующий сектором кандидат технических наук, Аладышев Олег Сергеевич, Межведомственный суперкомпьютерный центр РАН, заведующий отделом

Ведущая организация: Вычислительный центр им. А. А. Дородницына РАН

Защита состоится 4 октября 2013 года в 15 часов 00 минут на заседании диссертационного совета Д 501.002.09 при Московском государственном университете имени М.В. Ломоносова по адресу: 119991, г. Москва, Ленинские горы, д.1, стр. 4, НИВЦ МГУ, конференц-зал.

С диссертацией можно ознакомиться в Научной библиотеке МГУ имени М.В. Ломоносова (Ломоносовский проспект, 27).

Автореферат разослан 29 августа 2013 года.

Учёный секретарь диссертационного совета Суворов В.В.

Диссертационная работа посвящена исследованию и разработке методов и программных средств параллельного программирования для достижения высоких степеней масштабируемости суперкомпьютерных приложений на современных и перспективных суперкомпьютерах.

Актуальность работы В современных высокопроизводительных системах применяется принцип параллельной обработки данных на тысячах вычислительных узлов. Каждый такой узел содержит несколько процессоров с локальной памятью. Для обмена информацией и синхронизации работы узлы соединяются между собой коммуникационной сетью. Для решения многих современных задач требуется не только большая производительность суперкомпьютеров на арифметикологических операциях, но и возможность эффективной работы с памятью большого объема, оцениваемой в десятки и сотни терабайт. Память такого объема обычно представляет собой десятки тысяч модулей, доступных через коммуникационную сеть. При больших объемах обрабатываемой информации для производительности суперкомпьютера становится крайне важна не только скорость вычислительных устройств, но и пропускная способность памяти, которая в свою очередь для систем с распределенной общей памятью (DSM) зависит от пропускной способности сети. В настоящее время самым мощным суперкомпьютером в России является суперкомпьютер «Ломоносов», имеющий пиковую производительность более 1.7 петафлопс. «Ломоносов» имеет в своем составе более 52 тысяч ядер x86 и более 480 тысяч ядер GPU.

Производительность ведущих мировых суперкомпьютеров составляет десятки петафлопс. Для эффективного использования такого количества ядер требуется написание программ с высокой степенью масштабируемости [1,3,10].

Суперкомпьютерные приложения, работающие на многих тысячах узлов разделяются на два класса: вычислительно интенсивные и коммуникационно интенсивные (Data-Intensive или DIS-класс). В настоящее время все больший интерес начинают привлекать приложения второго класса, которые часто относят к области высокопроизводительных вычислений, называемой Big Data.

В приложениях первого класса накладные расходы на коммуникации ничтожно малы по сравнению с временем вычислений, в связи с чем, такие задачи достаточно хорошо масштабируются на современных суперкомпьютерах. При выполнении приложений класса Data-Intensive, накладные расходы на коммуникации составляют значительную часть общего времени работы задачи, мешая достижению высокой степени масштабируемости таких приложений. В связи с этим рассмотрение проблем достижения высокой степени масштабируемости задач класса Data-Intensive является актуальным [5,11,17].

распространенных топологий являются топологии типа kD-тор. Данные топологии обеспечивают простоту реализации маршрутизаторов, упрощают обслуживание сети из-за ее полной однородности. В связи с этим, рассмотрение топологий типа тор является крайне актуальным. Актуальным является рассмотрение вопроса организации инжекции и эжекции данных в и из сети, так как различие архитектур процессорных шин и форматов интерконнекта может быть одним из узких мест, ограничивающих масштабируемость суперкомпьютерных приложений [7,15].

Другим вопросом, представляющим интерес, является повышение продуктивности параллельного программирования. Известно, что параллельное программирование является гораздо более сложным, чем последовательное.

Высокая сложность программирования сдерживает широкое использование суперкомпьютеров в различных областях науки и техники. А также приводит к написанию программ, неэффективно использующих дорогостоящие аппаратные ресурсы, так как из-за высокой сложности программирования, зачастую пользователи, экономя время написания параллельных программ, используют не самые лучшие методы и средства параллельного программирования, что приводит к неэффективному использованию ресурсов суперкомпьютера. Таким образом, задача разработки методов, повышающих как продуктивность программирования, так и масштабируемость суперкомпьютерных приложений является актуальной [18].



Цель и задачи диссертации Целью диссертации является исследование и разработка методов и программно-аппаратных средств для достижения экстремальных уровней масштабируемости суперкомпьютерных приложений. Из проведенного анализа современных систем передачи данных и средств параллельного программирования были сформулированы следующие задачи для диссертации:

1. Исследовать влияние коммутационной среды суперкомпьютера на степень масштабируемости приложений.

2. Исследовать подходы к созданию и разработать средства параллельного программирования для достижения высокой степени масштабируемости суперкомпьютерных приложений класса Data-Intensive на современных вычислительных комплексах.

3. Провести исследования эффективности разработанных программных средств на приложениях класса Data-Intensive.

Положения, выносимые на защиту 1. Получен аналитический метод оценки производительности коммутационной среды суперкомпьютера в зависимости от свойств коммуникационного шаблона приложения. Определена зависимость скорости инжекции от параметров топологии многомерный тор, неулучшаемость полученной оценки показана эмпирически.

2. Разработана и реализована на вычислительных комплексах IBM BlueGene/P и суперкомпьютер «Ломоносов» система параллельного программирования DISLIB, являющаяся расширением модели параллельного программирования с абстракцией общей памяти, существенно повышающая степень масштабируемости приложений. Доказаны свойства бездедлоковости для предложенной реализации системы программирования DISLIB.

3. Разработанная система программирования DISLIB успешно прошла апробацию на параметрическом тесте APEX-MAP, на известных бенчмарках Graph500 и NASA Parallel Benchmark Unstructured Adaptive. Были показаны высокие степени масштабируемости (8 тысяч ядер IBM BlueGene/P и 32 тысяч ядер суперкомпьютера «Ломоносов») и высокая продуктивность параллельного программирования в разработанной модели DISLIB.

Научная новизна 1. Впервые представлен аналитический метод оценки общей агрегатной пропускной способности коммуникационной среды в зависимости от характеристик топологии коммуникационной среды и коммуникационных свойств задачи.

2. Разработан новый метод высокоскоростной инжекции пакетов в сеть с применением аппаратной агрегации сообщений, обеспечивающий высокую пропускную способность на пакетах небольшой длины, что необходимо для достижения высоких уровней масштабируемости приложений класса DataIntensive.

3. Разработаны новые расширения модели программирования с абстракцией общей памяти, а именно предложено ввести активные сообщения в семантику данной модели.

4. Разработаны новые алгоритмы эффективной программной агрегации сообщений, включающие поддержку многоядерных процессоров.

Практическая значимость результатов работы Разработан программный комплекс, реализующий систему программирования DISLIB, позволяющую распараллеливать суперкомпьютерные приложения вплоть до десятков тысяч ядер и выше с сохранением высокого уровня продуктивности.

Разработанные средства параллельного программирования могут быть использованы для эффективного распараллеливания приложений в различных областях: для задач обработки графов, для расчетов на нерегулярных и адаптивных сетках. В настоящее время реализованная система доступна и используется прикладными пользователями СК «Ломоносов». Пользователи, успешно применяющие эти библиотеки в своих прикладных задачах, сообщают о повышении продуктивности и о достижении хороших уровней масштабируемости своих приложений на тысячах и более ядрах суперкомпьютера «Ломоносов» [2].

Разработанный метод оценки производительности коммутационной среды в зависимости от задачи применяется пользователями при выборе лучшей топологии в зависимости от коммуникационного шаблона приложения.

Разработанный метод высокоскоростной инжекции пакетов в сеть реализован в макетах коммуникационной сети, изготовленных ОАО «НИЦЭВТ», которые используются пользователями для решения прикладных задач.

Личный вклад автора Все исследования, результаты которых изложены в диссертационной работе, проведены лично автором в процессе научной деятельности. Из совместных публикаций в диссертацию включен лишь тот материал, который непосредственно принадлежит автору.

Соответствие диссертации паспорту научной специальности Содержание и результаты работы соответствуют паспорту специальности 05.13.11, а именно включают разработку новых моделей и методов создания программ и программных систем для параллельной и распределенной обработки данных.

Апробация работы и публикации Результаты работы докладывались и обсуждались на следующих конференциях и семинарах:

• 25-я, 26-я Международные конференции International Supercomputing 2010, 2011 (ISC), Германия, Гамбург, 2010, • 23-я Международная конференция Supercomputing 2011, Graph500 BoF, США, Сиэттл • 27-я Международная конференция по параллельным вычислениям ParCo 2009, Франция, Лион, • 3-я и 4-я Международные конференции «Параллельные вычислительные технологии» (ПАВТ 2009 и 2010), Россия, Н. Новгород 2009, Уфа • 7-я, 10-я, 11-я, 12-я и 13-я Всероссийские суперкомпьютерные конференции серии «Научный сервис в сети Интернет», Россия, Новороссийск, 2005, 2008, 2009, 2010, 2011;

• Семинар ОАО “НИЦЭВТ” под руководством Л.К.Эйсымонта • Семинар parallel.ru под руководством В.В.Воеводина Основные результаты работы изложены в 18-и научных публикациях [1из них 10 в журналах из списка ВАК.

Структура и объем работы Диссертация состоит из введения, четырех глав, заключения и списка литературы. Содержание работы изложено на 140 страницах. Список литературы включает 57 наименований.

Содержание работы Во Введении приведено обоснование актуальности данной работы и ее научной новизны. Сформулированы цели и задачи диссертации.

Первая глава посвящена обзору характеристик существующих на рынке сред коммутации, таких как Infiniband, заказных сетей Cray и IBM, используемых в суперкомпьютерах данных фирм.

Изложены основные базовые понятия, описывающие алгоритмы маршрутизации, и возможные методы коммутации, воплощенные в аппаратных средствах коммуникационных сетей. Описаны и рассмотрены различные алгоритмы маршрутизации, которые обеспечивают эффективную адаптивную и детерминированную маршрутизацию без дедлоков и ливлоков в сетях различных топологий [6].

Поставлена проблема программирования суперкомпьютерных приложений и достижения высоких уровней масштабируемости. Определяется класс суперкомпьютерных приложений Data-intensive, как класс приложений, для которых время доступа к данным, включающее время коммуникаций, доминирует над временем вычислений [2].

В заключении приводятся выводы по главе.

Вторая глава посвящена исследованию архитектур и способов построения эффективных систем коммутации, предназначенных для достижения экстремальных степеней масштабируемости суперкомпьютерных приложений.

В разделе 2.1 проведена оценка баланса между пропускной способностью канала, соединяющего адаптер среды коммутации и процессорный элемент, и канала самой среды коммутации для различных топологий [9]. Для разных задач с разным коммуникационным шаблоном данные каналы будут задействоваться в разной степени, поэтому для получения соотношений был введено понятие коммуникационного диаметра задачи H. Коммуникационный диаметр приложения H определяется, как среднее расстояние, которое должны пройти пакеты, генерируемые данным приложением, положенным на заданную топологию коммутационной среды. Единицей измерения является число хопов, которое нужно преодолеть, прежде чем пакет будет доставлен до узла назначения. Минимальным и максимальными значениями в данном случае будет единица и максимальный диаметр сети. В приложениях класса DataIntensive, распараллеливать которые наиболее сложно, шаблон доступа к данным, а стало быть и к коммуникациям, отличается нерегулярностью и непредсказуемостью доступа к данным, таким образом данный коэффициент будет равен среднему диаметру топологии коммуникационной сети.

Сформулирована и доказана Теорема. Для коммутационных сред с топологией kD-тор при равномерно случайном траффике пропускная способность инжекции в каждый маршрутизатор будет ограничена 8*L/k, где L — пропускная способность межроутерного канала, а k — длина максимального измерения тора.

На практике это означает, сторона тора, равная 8, обеспечивает равномерную загрузку межроутерных и инжекционных каналов.

Для проверки свойства неулучшаемости этой оценки в разделе 2.2 была сформулирована формально параметризованная архитектура произвольного маршрутизатора, состоящая из блоков: кроссбар, виртуальные каналы, блоки управления межузловыми линками, выходные арбитры, блоки маршрутизации.

Данная параметризованная архитектура была реализована в программной потактовой модели. Причем из-за необходимости проводить моделирование вплоть до десятков тысяч узлов, данная модель была реализована изначально параллельно. Сложность эффективного распараллеливания потактовой модели на сотни узлов современных суперкомпьютеров была нивелирована применением метода моделирования с окном, учитывающим наличие задержки передачи пакетов между независимо моделируемыми узлами. Это позволило снизить накладные расходы на синхронизацию моделируемых объектов и увеличить быстродействие и масштабируемость модели.

В разделе 2.3 приведен разработанный метод высокоскоростной инжекции пакетов в сеть. Основная идея этого метода заключается в оптимизации использования узкого места – шины инжекции пакетов в сетевой адаптер PCI-express. Сети, такие как RDMA Infiniband, для посылки одного пакета требуют нескольких (обычно от 2х до 4х) транзакций по шине. Методы передачи данных, такие как PUT with immediate или метод передачи, используемый в сети EXTOLL, требуют одной транзакции на передачу одного небольшого пакета. Предлагаемый в работе метод требует всего лишь четверть транзакции для передачи одного пакета. Достигается это использованием режима записи write-combining и использованием при записи кольцевого буфера, в который последовательно записываются команды содержащие тип операции, адрес и сами данные переменного размера. Таким образом обеспечивается аппаратная агрегация нескольких небольших записей в одну транзакцию PCI-Express (64 байта). В результате на аппаратной реализации М на ПЛИС удалось достигнуть скорости инжекции в 32 миллиона пакетов в секунду с одного процесса против известных ранее 3-4 миллионов для сети Infiniband. Платой за повышенную пропускную способность является задержка “последнего” пакета. Данный недостаток преодолевается выдачей инструкции sfence, которая сбрасывает все аппаратные write-буферы процессора, включая буферы write-combining [8,12].

В разделе 2.4 приводятся результаты имитационного моделирования маршрутизаторов коммутационных сред с различной топологией. Проведены исследования пропускной способности коммутационных сред с различными топологиями для различных шаблонов траффика (бисекционный, случайны равномерный, трафик с горячей зоной) в зависимости от различных параметров маршрутизатора. На Рис.1 показана зависимость средней задержки для различных топологий в зависимости от количества узлов в коммутационной среде. Также были получены подтверждения достижимости полученных оценок в разделе 2.1 – тороидальные топологии являются эффективными Рис.1 Моделирование коммуникационной задержки на случайном равномерном при стороне тора равной 8*R, где R равно отношению пропускной способности линка к пропускной способности интерфейса с процессорным элементом.

Третья глава посвящена описанию разработанной в рамках данной работы модели параллельного программирования DISLIB. При разработке за основу была взята описанная в разделе 3.1 модель программирования SHMEM, разработанная еще в 1993 году для машины Cray T3E. Основными характеристиками модели программирования с абстракцией общей памяти SHMEM являются: стиль программирования SPMD (одна программа и множество данных), использование модели односторонних коммуникаций (PUT и GET), использование глобальных барьеров для разделения фаз коммуникаций и вычислений.

В разделе 3.2 приведены ключевые особенности расширения DISLIB: 1) наличие расширенных операций PUT (односторонние активные сообщения), 2) наличие расширенных операций GET (двухсторонние активные сообщения).

Как будет показано в главе 4, эти особенности позволяют значительно повысить продуктивность программирования на ряде задач, относящихся к классу Data-Intensive.

Расширенные операции PUT в модели программирования DISLIB выполняются с помощью функции shmem_send(int hndl,void *data,int size, int pe, int is_request), где hndl – это номер обработчика активного сообщения, shmem_register_handler. При этом также гарантируется выполнения всех обработчиков на удаленном узле после следующего вызова shmem_barrier_all.

Кроме того, не гарантируется порядок выполнения обработчиков, однако, в отличие от операций PUT, гарантируется атомарность выполнения обработчиков. Прототип функции обработчика следующий: void handler(void *data,int size, int from).

Расширенная операция GET является двухсторонним аналогом расширенной операции PUT. На практике для удобства пользователя ему позволяется вызывать из обработчиков функцию shmem_send и отвечать на активный GET посылкой активного PUT. Пользователь в данном случае не ограничен в глубине вложенности операций GET, однако разработанная реализация гарантирует отсутствие дедлоков только для вложенности не более 1. Это объясняется использованием двух виртуальных каналов и коммуникаторов для запросов (расширенных GET) и ответов (расширенных PUT).

Особенностями реализаций библиотеки DISLIB, описанными в разделе 3.3, являются: 1) эффективная и прозрачная реализация агрегации сообщений, как операций PUT, так и операций GET, 2) многоступенчатая реализация передачи сообщений в многоядерных системах.

Приводится обоснование необходимости выполнения агрегации сообщений для кластерных высокопроизводительных систем. Для этого с помощью линейной модели производительности коммуникационной сети (linear performance model) стоимость посылки сообщения оценивается для множества коротких и одного агрегированного сообщения.

В модели программирования DISLIB глобальный барьер помимо функции синхронизации процессов между собой (как MPI_Barrier), выполняет функцию разделения фаз коммуникаций и вычислений, необходимую для односторонних обменов, так как односторонние обмены не включают в себя элемент синхронизации. Именно этот факт и был использован при разработке модели DISLIB.

Приведено описание алгоритма эффективной программной агрегации сообщений. Ключевой частью алгоритма является выполнение барьерной синхронизации shmem_barrier_all. Разработанный алгоритм выполнения барьерной синхронизации использует функцию неблокируемого барьера (введенную в стандарт MPI-3, но доступную и ранее через библиотеку libNBC или GASNET). При этом алгоритм предлагает отправку подтверждений на каждый агрегируемый блок, причем имеется возможность агрегировать подтверждения и отправлять их совместно с сообщениями.

Кроме того. в том же разделе предлагается модификация данного алгоритма для многоядерных систем, основной целью которых является уменьшение потребления памяти и уменьшение количества соединений приходящихся на один сетевой адаптер. Основная идея заключается в том, что при наличии нескольких процессов на узле все сообщения для разных процессов на узле назначения посылаются одному процессу с тем же номером ядра, что и отправитель, а потом уже локально сообщения, также с применением агрегации пересылаются процессу с нужным номером ядра.

Алгоритм барьерной синхронизации выглядит следующим образом: 1) отправка всех неотправленных буферов агрегации; 2) ожидание подтверждения доставки всех отправленных буферов агрегации, во время которого мы принимаем пришедшие пакеты и посылаем на них подтверждения; 3) после получения всех подтверждений выполняем первую фазу неблокирующего синхронизационного барьера (notify); 4) пока не получено уведомление о выполнении фазы 2 неблокирующего барьера (wait), продолжаем принимать сообщения и отправлять подтверждения.

Преимущества разработанного алгоритма следующие: 1) гарантирует доставку и исполнение на удаленных узлах всех сообщений отправленных до барьера; 2) в случае нулевого количества коммуникаций до барьера, сам барьер работает со скоростью синхронизационного барьера и не влечет дополнительных накладных расходов; 3) в случае отправки любого числа сообщений также не добавляет значительных накладных расходов.

Доказана следующая теорема о корректности и бездедлоковости предложенных алгоритмов.

Теорема. При использовании как односторонних активных сообщений PUT, так и двухсторонних расширенных операций GET (обработчики-запросы имеют право выполнять вызов функций shmem_send с номерами обработчиковответов, а обработчики-ответов не имеют права вызывать функцию shmem_send), гарантируется отсутствие дедлоков.

В разделе 3.4 приводятся выводы по главе.

В четвертой главе приводятся результаты экспериментов с разработанными реализациями модели программирования DISLIB.

Рис.2 Отношение APEX-DISLIB к APEX-MPI для 128 узлов BlueGene/P В разделе 4.1 описывается архитектура и устройство используемых для экспериментов вычислительных комплексов. В разделе 4.2 описывается сравнение моделей программирования на тесте APEX-MAP. Сравнивается оригинальная программа APEX-MAP, написанная Erich Strohmaier et al. в модели программирования MPI, и версия, реализованная в рамках данной работы в модели программирования SHMEM с использованием библиотеки DISLIB для суперкомпьютера BlueGene/P. На рис.2 мы видим, что ускорение DISLIB относительно MPI достигает 8 раз для небольших сообщений.

В разделе 4.3 описывается бенчмарк NASA NPB UA (Unstructured Adaptive), который был написан в NASA для оценки работы высокопроизводительных систем на задачах с нерегулярным доступом в память. Из-за высокой сложности авторы смогли реализовать этот бенчмарк только для систем с общей памятью (OpenMP). Версия, использующая MPI, написана так и не была, хотя это было заявлено в планах. В рамках данной работы код NPB UA (около 8000 строк кода без комментариев в 15 файлах на фортране 77) был отредактирован таким образом, что OpenMP версия была превращена в DISLIB+OpenMP версию. Результаты, полученные для классов C (33 тысяч элементов сетки, 1720 Mop/s, см Рис.3а) и D (515 тысяч элементов сетки, 4910 Mop/s), масштабируются на суперкомпьютерах BlueGene/P и «Ломоносов» до нескольких тысяч ядер, при этом абсолютные результаты в 22.4 раза превосходят все ранее известные результаты для этого бенчмарка ( Mop/s) [4,13,14].

В разделе 4.4 описывается имплементация бенчмарка Graph500 Kernel 1:

поиск вширь с помощью библиотеки DISLIB. Текст основного цикла программы занимает не более 10 строк кода (см. Листинг 1), в то время как референсная версия на MPI-1 и MPI-2 занимает более сотни строк кода. При этом DISLIB-версия показывает масштабируемость вплоть до 32 тысяч ядер суперкомпьютера «Ломоносов» (Рис.3в) (и 8192 ядер суперкомпьютера IBM BlueGene/P (Рис.3б)). Полученные результаты позволили суперкомпьютеру Ломоносов занять 1-е место по производительности (3-е итоговое) во 2-й редакции списка Graph500 (июнь 2011) и 3-е место (по производительности и итоговое) в 3-й редакции списка Graph500 (ноябрь 2011).

sum = 1; *nvisited = 0;

shmem_barrier_all();

while(sum != 0) { *nvisited += sum;

for(j = g->rowsts[q1[i]]; jrowsts[q1[i]+1]; j++) send_vertex( getcolumn(g->column, j), q1[i]);

shmem_barrier_all();

qc=q2c;q2c=0;int *tmp=q1;q1=q2;q2=tmp;

shmem_long_allsum(&sum);

Листинг 1. Ядро бенчмарка Graph500 в модели программирования DISLIB Рис.3 а) Сравнение DISLIB,SHMEM и OpenMP версий на суперкомпьютерах IBM BlueGene/P и Ломоносов для задачи NPB UA class C; б) Масштабирование Graph версий DISLIB и MPI-1 на суперкомпьютере IBM BlueGene/P; в) Масштабирование Graph500 версий DISLIB и MPI-1 на суперкомпьютере Ломоносов Заключение Основные результаты работы заключаются в следующем:

1. Получен аналитический метод оценки производительности коммутационной среды суперкомпьютера в зависимости от свойств коммуникационного шаблона приложения. Определена зависимость скорости инжекции от параметров топологии многомерный тор, неулучшаемость полученной оценки показана эмпирически.

2. Разработана и реализована на вычислительных комплексах IBM BlueGene/P и суперкомпьютер «Ломоносов» система параллельного программирования DISLIB, являющаяся расширением модели параллельного программирования с абстракцией общей памяти, существенно повышающая степень масштабируемости приложений. Доказаны свойства бездедлоковости для предложенной реализации системы программирования DISLIB.

3. Разработанная система программирования DISLIB успешно прошла апробацию на параметрическом тесте APEX-MAP, на известных бенчмарках Graph500 и NASA Parallel Benchmark Unstructured Adaptive. Были показаны высокие степени масштабируемости (8 тысяч ядер IBM BlueGene/P и тысяч ядер суперкомпьютера «Ломоносов») и высокая продуктивность параллельного программирования в разработанной модели DISLIB.

Выводы и рекомендации.

Из результатов, полученных в рамках данной работы, можно сделать следующие выводы: для достижения высоких степеней масштабируемости суперкомпьютерных приложений требуется соответствующая поддержка со стороны программного и аппаратного обеспечения. С точки зрения аппаратного обеспечения, важной является топология используемой среды коммутации.

Влияние топологии можно оценить с помощью предложенных оценок, при этом для оценки влияния шаблона коммуникаций приложения используется введенный параметр коммуникационного диаметра задачи. С точки зрения поддержки средствами параллельного программирования, важно использовать такую среду, которая позволит эффективную передачу большого числа коротких сообщений. Исходя из полученных результатов, можно рекомендовать разработанную библиотеку DISLIB для распараллеливания приложений класса Data-Intensive на десятки тысяч ядер современных суперкомпьютеров. Наибольший прирост степени масштабируемости будет наблюдаться для приложений, коммуникационный шаблон, которых отличается массовой и хаотичной посылкой сообщений небольшого размера.

Публикации по теме диссертации Публикации в журналах из перечня ВАК 1. Турсин Д.Ф., Корж А.А Применение Infiniband в инфраструктуре хранения данных // Вестник компьютерных и информационных технологий 2013, №5, С. 3- 2. Корж О.В., Андреев Д.Ю., Корж А.А., Коробков С.В., Чернявский А.Ю.

Моделирование работы идеального квантового компьютера на суперкомпьютере Ломоносов // Вычислительные методы и программирование, 2013, т. 14, С. 24- 3. Корж А.А. Мифология суперкомпьютинга // Открытые системы. 2011, 4. Корж А.А. Результаты масштабирования бенчмарка NPB UA на тысячи ядер суперкомпьютера Blue Gene/P с помощью PGAS-расширения OpenMP // Вычислительные методы и программирование, 2010, т. 11, C.

5. Корж А.А. Распараллеливание задач с нерегулярным доступом к памяти с помощью расширенной библиотеки SHMEM+ на суперкомпьютерах BLUEGENE /P и "Ломоносов" // Вычислительные методы и программирование, 2010, т. 11, C. 123- 6. Корж А.А., Джосан О.В. Организация коммуникационной сети для транспетафлопсных суперкомпьютеров // Труды Института системного анализа Российской академии наук, 2008, т.32, №3, С.267- 7. Dzhosan O.V., Popova N.N., Korzh A.A. Hierarchical Visualisation System for High Performance Computing // Advances in Parallel Computing, 2010, 8. Корж А.А., Макагон Д.В., Бородин А.А., Жабин И.А., Куштанов Е.Р., коммуникационная сеть 3D-тор с поддержкой глобально адресуемой памяти // Вестник Южно-Уральского государственного университета.

Серия: Математическое моделирование и программирование. 2010. № (211). С. 41-53.

9. Корж А.А., Макагон Д.В. Оценка минимальных требований к аппаратуре и топологии при построении высокоскоростных коммуникационных сетей для суперкомпьютеров с общей памятью // Вычислительные методы и программирование: новые вычислительные технологии, 2008, 10. Фролов А.С., Семенов А.С., Корж А.А., Эйсымонт Л.К. Программа создания перспективных суперкомпьютеров // Открытые системы, 2007, №9, C. 21– Публикации в других научных изданиях:

11. Корж А.А. Масштабирование Data-Intensive приложений с помощью библиотеки DISLIB на суперкомпьютерах Blue Gene/P и “Ломоносов” // Труды конференции “Научный сервис в сети Интернет-2011”., 2011, С.

126–131.

12. Корж А.А., Макагон Д.В., Бородин А.А., Жабин И.А., Куштанов Е.Р., коммуникационная сеть 3D-тор с поддержкой глобально адресуемой памяти для суперкомпьютеров транспетафлопсного уровня производительности // Параллельные вычислительные технологии (ПаВТ’2010): Труды международной научной конференции (Уфа, марта — 2 апреля 2010 г.): 2010, C. 227— 13. Korzh A.А., Dzhosan O.V. Scaling the Unscalable: NPB UA Benchmark Scaling to Thousands of Blue Gene /P Cores Using PGASlike OpenMP Extention // Proc. Conf. ISC2010, Germany, Hamburg, 2010, P. 14. Korzh А.А., Dzhosan O.V. Early Evaluation of NPB UA Benchmark Scaling to Thousands of Blue Gene /P Cores Using PGASlike OpenMP Extention // Proc. Conf. Information Systems & GRID Technologies Fourth International Conference, Sofia, Bulgaria, 2010 P. 58- 15. Dzhosan O.V., Popova N.N., Korzh A.A. Hierarchical Visualization System for High Performance Computing // proc. conf. ParCo 2009, France, Lyon, 2009, P. 79- 16. Корж А.А. Распараллеливание задачи умножения разреженной матрицы на вектор на вычислительных кластерах с минимальной аппаратной поддержкой PGAS // Параллельные вычислительные технологии (ПаВТ 2009): Труды международной научной конференции (Нижний Новгород, 30 марта — 3 апреля)., 2009. – С. 813.

17. Корж А.А. Исследование производительности многоядерных процессоров на тестах с нерегулярным доступом к памяти // Научный сервис в сети Интернет: масштабируемость, параллельность, эффективность: Труды Всероссийской суперкомпьютерной конференции (21-26 сентября 2009г., г. Новороссийск), 2009, С. 168- 18. Корж А.А. Распараллеливание метода ветвей и границ в модели вычислений Message-driven // Научный сервис в сети Интернет:

технологии распределённых вычислений: Труды Всероссийской суперкомпьютерной конференции (19-24 сентября 2005г., г.

Новороссийск)., 2005, С. 244-



Похожие работы:

«Саматадзе Анна Ираклиевна ФОРМИРОВАНИЕ СТРУКТУРЫ И КОМПЛЕКСА СВОЙСТВ ПОЛИМЕРНЫХ КОМПОЗИЦИОННЫХ МАТЕРИАЛОВ, ПОЛУЧАЕМЫХ ИЗ ЭМУЛЬСИЙ НА ОСНОВЕ ТЕРМОРЕАКТИВНЫХ ОЛИГОМЕРОВ Специальность 05.17.06 – Технология и переработка полимеров и композитов АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Москва - 2011 www.sp-department.ru Работа выполнена на кафедре химии и технологии переработки пластмасс и полимерных композитов Федерального государственного...»

«ОКРЕПИЛОВ ВЛАДИМИР ВЛАДИМИРОВИЧ РЕАЛИЗАЦИЯ СИСТЕМЫ МЕНЕДЖМЕНТА КАЧЕСТВА ДЛЯ СОВЕРШЕНСТВОВАНИЯ ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИИ НА РАЗЛИЧНЫХ УРОВНЯХ УПРАВЛЕНИЯ Специальность 08.00.05 – Экономика и управление народным хозяйством (стандартизация и управление качеством продукции) Автореферат диссертации на соискание ученой степени кандидата экономических наук Санкт-Петербург – 2012 2 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего...»

«Воронова Анна Михайловна МЕТОДЫ ПОКРЫТИЯ ГИПЕРСЕТИ КОРНЕВЫМ ДЕРЕВОМ ДЛЯ ОПТИМИЗАЦИИ СИСТЕМЫ ТРАНСПОРТНЫХ ПУТЕЙ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ. Автореферат диссертации на соискание ученой степени кандидата технических наук Петрозаводск – 2013 Работа выполнена на кафедре прикладной математики и кибернетики ФГБОУ ВПО Петрозаводский государственный университет Научный руководитель : Щеголева Людмила Владимировна,...»

«КОРОТКОВА НАДЕЖДА НИКОЛАЕВНА ГРАММАТИЧЕСКИЕ ФОРМЫ ИМЕН СУЩЕСТВИТЕЛЬНЫХ, НЕ ВХОДЯЩИЕ В ПАДЕЖНУЮ СИСТЕМУ ЧУВАШСКОГО ЯЗЫКА Специальность 10.02.02 – Языки народов Российской Федерации (чувашский язык) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук Чебоксары - 2007 2 Диссертация выполнена на кафедре чувашского языка Государственного образовательного учреждения высшего профессионального образования Чувашский государственный педагогический...»

«ВОВК ДМИТРИЙ НИКОЛАЕВИЧ СИНТЕЗ ПОЛИМЕРНЫХ СУСПЕНЗИЙ С ИОНАМИ МЕТАЛЛОВ НА ПОВЕРХНОСТИ ЧАСТИЦ Специальности: 02.00.06 - высокомолекулярные соединения 02.00.11 – коллоидная химия и физико-химическая механика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук МОСКВА, 2007 2 Работа выполнена в Московской государственной академии тонкой химической технологии им. М.В. Ломоносова на кафедре Химия и технология высокомолекулярных соединений им. С.С.Медведева...»

«Кривицкий Владислав Олегович ВНЕШНЕЭКОНОМИЧЕСКИЕ ИНТЕРЕСЫ РОССИЙСКОЙ ФЕДЕРАЦИИ В СТРАНАХ ЗАКАВКАЗЬЯ Специальность 08.00.14. - Мировая экономика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук МОСКВА - 2013 Диссертация выполнена на кафедре международных экономических отношений экономического факультета...»

«Комаров Илья Сергеевич ЗАЩИТА ОТВЕТЧИКА ПРОТИВ ИСКА В ГРАЖДАНСКОМ И АРБИТРАЖНОМ ПРОЦЕССЕ Специальность 12.00.15 – гражданский процесс; арбитражный процесс Автореферат диссертации на соискание ученой степени кандидата юридических наук Екатеринбург – 2012 Диссертация выполнена на кафедре гражданского процесса Федерального государственного бюджетного образовательного учреждения высшего профессионального образования “Уральская государственная юридическая академия” Научный...»

«Димова Вера Николаевна Личностные детерминанты и организационные факторы развития психического выгорания личности в профессиях субъект-объектного типа Специальность 19.00.03 – психология труда, инженерная психология, эргономика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата психологических наук Ярославль - 2010 Работа выполнена на кафедре психологии труда и организационной психологии ГОУ ВПО Ярославский государственный университет им. П.Г. Демидова Научный...»

«СИДОРОВ Олег Алексеевич СУДЕБНЫЙ ФЕДЕРАЛИЗМ США: ИСТОРИЯ И СОВРЕМЕННОСТЬ (КЛАУЗУЛА О ТОРГОВЛЕ) Специальность 12.00.01 – Теория и история права и государства; история правовых учений АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Казань – 2007 2 Работа выполнена на кафедре теории и истории государства и права ГОУВПО Марийский государственный университет Научный руководитель : доктор юридических наук, профессор Железнов Борис Леонидович...»

«ТОРОХОВА Галина Николаевна АКТИВИЗАЦИЯ ПОЗНАВАТЕЛЬНОЙ ДЕЯТЕЛЬНОСТИ ДЕТЕЙ СТАРШЕГО ДОШКОЛЬНОГО ВОЗРАСТА В ПРОЦЕССЕ ФОРМИРОВАНИЯ ЭЛЕМЕНТАРНЫХ МАТЕМАТИЧЕСКИХ ПРЕДСТАВЛЕНИЙ 13.00.02 – теория и методика обучения и воспитания (дошкольное образование) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Челябинск – 2012 Работа выполнена в ФГБОУ ВПО Тобольская государственная социальнопедагогическая академия им. Д.И.Менделеева Научный руководитель :...»

«Какуткина Наталья Александровна ГОРЕНИЕ ГАЗОВ В ГЕТЕРОГЕННЫХ СИСТЕМАХ Специальность: 01.04.17 – Химическая физика, горение и взрыв, физика экстремальных состояний вещества АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора физико-математических наук Новосибирск 2011 Работа выполнена в Учреждении Российской академии наук Институте химической кинетики и горения Сибирского отделения РАН Официальные оппоненты : доктор физико-математических наук, профессор Зарко Владимир...»

«М АРЬЯНИНА ОЛЬГ А В ИТАЛЬЕВ НА ОРГАНИЗАЦИОННО-ЭКОНОМИЧЕСКИЙ МЕХАНИЗМ РЕСТРУКТУРИЗАЦИИ ПРЕДПРИЯТИЙ МАШИНОСТРОЕНИЯ Специальность 08.00.05 - Экономика и управление народным хозяйством (Специализация 15 - Экономика, организация и управление предприятиями, отраслями и комплексами промышленности) Автореферат диссертации на соискание учёной степени кандидата экономических наук Москва – 2008 Работа выполнена на кафедре Экономика и управление производством ГОУ ВПО Московского...»

«ТЮНИН АЛЕКСАНДР ВИКТОРОВИЧ РАЗРАБОТКА МЕТОДИКИ ЧИСЛЕННОГО МОДЕЛИРОВАНИЯ ТЕЧЕНИЯ ГАЗА В ПОЛОСТИ ВПУСКНОГО КАНАЛА ДВИГАТЕЛЯ ВНУТРЕННЕГО СГОРАНИЯ Специальность 05.13.18 – математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата технических наук Барнаул – 2010 Работа выполнена в ГОУ ВПО Алтайский государственный технический университет им. И.И. Ползунова Научный руководитель : доктор технических наук,...»

«Комин Артем Владимирович Синтез анионных полимерных поверхностно-активных веществ на основе метакриловой кислоты, нитрила акриловой кислоты и пиперилена 02.00.06 – Высокомолекулярные соединения Автореферат диссертации на соискание ученой степени кандидата химических наук Ярославль 2012 www.sp-department.ru Работа выполнена на кафедре химии и технологии биологически активных и высокомолекулярных соединений Федерального государственного бюджетного образовательного учреждения...»

«Кутергина Ирина Юрьевна Композиты на основе жидкокристаллических сополимеров и квантовых точек селенида кадмия 02.00.06 – Высокомолекулярные соединения АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Москва – 2013 Работа выполнена в лаборатории модификации полимеров им. Н.А. Платэ Института нефтехимического синтеза имени А.В. Топчиева Российской академии наук и на кафедре химической технологии пластических масс Российского химикотехнологического...»

«ТЕРЕНТЬЕВА ЕЛИЗАВЕТА ЮРЬЕВНА НАРОДНЫЕ НАЗВАНИЯ ЦЕРКОВНЫХ ПРАЗДНИКОВ В РУССКОЙ И БОЛГАРСКОЙ ПРАВОСЛАВНОЙ ТРАДИЦИИ Специальность 10.02.03 – славянские языки Автореферат диссертации на соискание ученой степени кандидата филологических наук Москва 2012 Работа выполнена на кафедре славянской филологии филологического факультета ФГОУ ВПО Московский государственный университет имени М.В. Ломоносова Научный руководитель : доктор филологических наук профессор Шмелев Алексей Дмитриевич...»

«Умеренко Юрий Александрович ИНСТИТУТ НЕЙТРАЛИТЕТА В МЕЖДУНАРОДНОМ ПРАВЕ: ВОПРОСЫ ТЕОРИИ И ПРАКТИКИ Специальность 12.00.10 – Международное право. Европейское право АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Москва – 2011 Диссертация выполнена на кафедре публичного права международно-правового факультета Всероссийской академии внешней торговли Министерства экономического развития Российской Федерации доктор юридических наук, профессор Научный...»

«ХАЧИНСКИЙ КИРИЛЛ БОРИСОВИЧ ТРАНСФОРМАЦИОННЫЕ ПРЕДПОСЫЛКИ ГЛОБАЛИЗАЦИИ В РЕФОРМИРОВАНИИ И МОДЕРНИЗАЦИИ ГОСУДАРСТВЕННО-ПРАВОВОЙ СИСТЕМЫ РОССИИ (ТЕОРЕТИКО-ПРАВОВОЙ АСПЕКТ) Специальность 12.00.01. – Теория и история права и государства; история учений о праве и государстве АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Санкт-Петербург 2007 2 Работа выполнена на кафедре государственного и административного права ГОУ ВПО Санкт-Петербургский...»

«ЛИЗИН Сергей Николаевич СОВЕРШЕНСТВОВАНИЕ ПРОЦЕССОВ КОЛЛЕКТИВНОЙ ОБРАБОТКИ ИНФОРМАЦИИ НА ОСНОВЕ ТЕМПОРАЛЬНОЙ ОРГАНИЗАЦИИ ДАННЫХ И МЕТАДАННЫХ Специальность 05.13.17 – Теоретические основы информатики (технические наук и) Автореферат диссертации на соискание ученой степени кандидата технических наук ПЕНЗА 2011 Работа выполнена на кафедре Автоматизированные системы обработки информации и управления Федерального государственного бюджетного образовательного учреждения высшего...»

«САМБОРУК Александр Анатольевич САМОРАСПРОСТРАНЯЮЩИЙСЯ ВЫСОКОТЕМПЕРАТУРНЫЙ СИНТЕЗ МИКРО- И НАНОПОРОШКОВ КАРБИДА ТИТАНА ИЗ ГРАНУЛИРОВАННОЙ ШИХТЫ Специальность 01.04.17 – химическая физика, горение и взрыв, физика экстремальных состояний вещества Автореферат диссертации на соискание ученой степени кандидата технических наук Самара – 2012 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Самарский...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.