Почему параллельная сортировка слиянием на CPU работает быстрее, чем на GPU в 100 раз?

Question

EmberBlaze

gpgpu , c# , cuda , алгоритмы

Почему параллельная сортировка слиянием на CPU работает быстрее, чем на GPU в 100 раз?

Каковы результаты тестирования производительности различных методов сортировки на устройстве с характеристиками 11-го поколения процессора Intel Core i7-11700F 2.50GHz, 16 логическими и 8 физическими ядрами и GPU NVIDIA GeForce RTX 4060, а также указанными версиями .NET SDK и параметрами GPU?

8 июня 2024 г. 19:01

Ответы на вопрос 2

Похожие вопросы

Answer 1

Параллельная сортировка слиянием на CPU может работать быстрее, чем на GPU, по нескольким причинам:

1. Алгоритм сортировки слиянием требует большого количества операций с памятью, что может увеличить задержку при обращении к памяти на GPU.

2. Возможно, что реализация алгоритма на GPU не оптимальна и не использует все вычислительные ресурсы устройства, что приводит к уменьшению производительности.

3. Процессоры обычно имеют более быструю память и более низкую задержку при обращении к ней, поэтому операции доступа к памяти на CPU могут выполняться быстрее.

Результаты тестирования производительности различных методов сортировки на устройстве с характеристиками 11-го поколения процессора Intel Core i7-11700F 2.50GHz и GPU NVIDIA GeForce RTX 4060 могут значительно различаться в зависимости от конкретных условий. Для получения более конкретной информации и результатов тестирования необходимо провести сравнительное исследование производительности различных методов сортировки на данном оборудовании.

Важно также учитывать версии .NET SDK, используемые параметры для работы с GPU, оптимизацию кода и другие факторы, которые могут повлиять на производительность.

Answer 2

Выигрыш на GPU будет если нужно перемалывать гигабайты за один вызов. А на массивах в тысячу элементах ты теряешь больше времени на копирование в GPU и обратно, и на запуск ядра. И это не говоря о том, что код для GPU надо писать так, чтобы в шину уместились все данные нужные на данной итерации, а у тебя выходит, что первому потоку нужен 0 элемент, а второму не второй элемент, который бы закешировался при запросе, а тысячный. В итоге мы получаем нужные данные, не за один запрос, а за 32 (ну или столько там потоков в варпе).