Искусственный интеллект (ИИ) и машинное обучение (МО) предъявляют совершенно особые требования к компьютерному железу — требования, которые кардинально отличаются от типичных офисных или игровых сценариев. Если вы планируете собрать или модернизировать ПК для работы с нейросетями, локального запуска больших языковых моделей (LLM), генерации изображений (Stable Diffusion) или обучения собственных моделей, крайне важно понимать, какие компоненты действительно имеют решающее значение, а на чем можно разумно сэкономить без потери производительности. Лучше доверить модернизацию компьютера специалистам. Мастерская по ремонту компьютеров может вам в этом помочь.
В этом подробном руководстве мы последовательно разберем каждый ключевой компонент: видеокарту (GPU), процессор (CPU), материнскую плату, оперативную память (RAM), систему охлаждения и блок питания. Вы узнаете, какие характеристики важнее всего, как избежать типичных ошибок и собрать сбалансированную систему под конкретные задачи и бюджет.
Прежде чем углубляться в выбор отдельных деталей, давайте четко поймем фундаментальное отличие AI-рабочей станции от обычного игрового или офисного ПК.
- В играх и типичных приложениях главное — это частота кадров (FPS), скорость рендеринга графики и отзывчивость интерфейса. Здесь важны и процессор, и видеокарта, и быстрая оперативная память.
- В задачах искусственного интеллекта всё вращается вокруг двух параметров: объема видеопамяти (VRAM) и пропускной способности шины памяти. Именно они определяют, какие модели вы сможете запускать и насколько быстро они будут работать.
Представьте себе видеопамять как большой рабочий стол. На этом столе вы раскладываете детали сложного конструктора (веса нейронной сети). Чем больше стол, тем более сложную и детальную модель вы можете собрать, не разбирая предыдущую. Если модель не помещается целиком на «стол» (в VRAM), системе приходится использовать медленную «кладовку» — оперативную память или даже диск. В результате производительность падает в десятки, а иногда и в сотни раз, делая работу практически невозможной.
- LLM (Large Language Model) — большая языковая модель, например, Llama, Mistral, GPT. Оперирует текстом.
- Инференс (Inference) — процесс получения ответа от уже обученной модели (запрос -> ответ).
- Дообучение / Тонкая настройка (Fine-tuning) — процесс адаптации уже существующей модели под вашу конкретную задачу на ваших данных.
- Квантизация (Quantization) — метод сжатия модели за счет снижения точности вычислений (например, с 16 бит до 4 или 8 бит). Сильно уменьшает потребление VRAM ценой небольшой потери качества. INT4/INT8 — стандарт для локального запуска больших моделей.
- Тензор (Tensor) — многомерный массив данных, основная единица работы в нейросетях.
- TOPS (Tera Operations Per Second) — триллионы операций в секунду, мера производительности AI-акселераторов.
Видеокарта — это сердце, мозг и душа любой AI-рабочей станции. Без мощного GPU современный ИИ невозможен в принципе. Давайте разберемся, почему это так и на что именно смотреть при выборе.
Современные нейросети требуют выполнения огромного количества однотипных математических операций — в первую очередь, умножения матриц и тензорных преобразований. Видеокарта, имеющая тысячи относительно простых ядер, выполняет такие операции на порядки быстрее, чем центральный процессор с его несколькими мощными, но «узкоспециализированными» ядрами.
В контексте AI видеокарта отвечает за три главные задачи:
- Хранение модели. Веса обученной нейросети — это огромные массивы чисел (иногда десятки и сотни гигабайт). Они должны постоянно находиться в видеопамяти (VRAM) для быстрого доступа. Если модель не помещается целиком, начинаются постоянные подкачки с диска, и скорость падает катастрофически.
- Вычисления во время инференса. Когда вы задаете вопрос или подаете картинку на вход, тысячи ядер GPU параллельно обрабатывают данные, проходя через слои нейросети и генерируя ответ.
- Обучение и дообучение моделей. Это еще более ресурсоемкий процесс, чем инференс. Во время обучения GPU не только вычисляет ответы, но и корректирует веса модели на основе ошибок, что требует еще больше памяти и вычислительной мощности.
Это один из самых частых и принципиальных вопросов при сборке AI-системы.
NVIDIA остается безусловным и неоспоримым лидером в сегменте AI. Главная причина — экосистема CUDA (Compute Unified Device Architecture). Это платформа параллельных вычислений и набор инструментов, который стал фактическим стандартом для всех фреймворков машинного обучения: PyTorch, TensorFlow, JAX, PaddlePaddle и других. Абсолютное большинство библиотек, исследовательских проектов и готовых решений изначально разрабатываются и тестируются именно под CUDA. Поддержка альтернатив (например, AMD ROCm) часто появляется с большим опозданием, в урезанном виде или требует сложных «танцев с бубном» для запуска.
AMD активно догоняет, и ситуация заметно улучшилась с выходом ROCm (Radeon Open Compute) версии 7.2 и выше, особенно под Linux. Пользователи сообщают об успешном запуске многих популярных AI-инструментов на топовых картах, таких как Radeon RX 7900 XTX. Однако вас все еще могут ждать неприятные сюрпризы:
- Некоторые модели или библиотеки могут вообще не работать или требовать специфических настроек окружения.
- Скорость инференса и обучения может быть заметно ниже, чем на сравнимых по цене (или даже более дешевых) NVIDIA-картах.
- Придется использовать специфические загрузчики моделей (например, чистый Transformers вместо высокооптимизированного ExLlamaV2), что снижает производительность.
- Поддержка ROCm на Windows все еще значительно отстает от Linux.
Четкий вывод:
- Если AI — ваша работа, вы цените свое время, стабильность и предсказуемость — выбирайте NVIDIA. Это инвестиция в отсутствие головной боли.
- Если вы энтузиаст с жестко ограниченным бюджетом, готовы экспериментировать и работаете преимущественно в Linux — AMD может стать viable option (жизнеспособным вариантом). Но будьте готовы к тому, что некоторые вещи будут ломаться или работать не так быстро, как ожидалось.
Это самый-самый важный параметр. Он жестко определяет, какие модели вы сможете запускать в принципе. Недостаток VRAM невозможно компенсировать ничем: ни быстрым процессором, ни сверхбыстрой оперативной памятью, ни оптимизацией кода.
Вот примерная таблица зависимости требований к VRAM от размера модели и точности вычислений (квантизации):
МодельРазмер (параметры)Минимум VRAM (INT4 / 4-bit)Комфортно (FP16 / 16-bit)ПрименениеLlama 2 / Mistral 7B7 млрд6-8 GB16 GBТекст, чат-боты, базовые задачиLlama 3 8B8 млрд8 GB16 GBБолее качественная генерация текстаCodeLlama 13B13 млрд10 GB24 GBГенерация и анализ кодаMixtral 8x7B / Llama 2 13B~12-13 млрд12 GB24 GBСложные рассуждения, анализ документовLlama 2/3 70B / WizardLM 70B70 млрд~40-45 GB (2×24GB)140 GB (8×24GB)Продвинутый ИИ, исследования, RAGFalcon 180B180 млрд~90-100 GB (4×24GB)360+ GBСамые передовые open-source модели
Важнейшее примечание про квантизацию: На практике почти все локальные модели запускают в 4-битной (INT4) или 8-битной (INT8) квантизации. Это снижает требования к VRAM в 2-4 раза по сравнению с полной 16-битной точностью (FP16/BF16) при вполне приемлемой потере качества. Например, знаменитая 70-миллиардная модель в 4-битном формате требует всего около 40-45 GB VRAM, что позволяет запускать ее на двух RTX 3090 или одной RTX 5090 (32 GB — уже близко, но все еще мало).
Этот параметр показывает, какой объем данных (в гигабайтах) видеокарта может прочитать или записать в свою память за одну секунду. Для AI он критичен, потому что:
- При генерации каждого следующего токена (слова или части слова) модели приходится перебирать все свои веса (все десятки гигабайт).
- Чем выше пропускная способность, тем быстрее происходит этот перебор, и тем выше итоговая скорость в токенах в секунду (token/s). Для комфортного общения с моделью в реальном времени желательно иметь скорость от 10-20 token/s и выше.
Сравнение современных карт:
- RTX 3060 (12GB): ~360 GB/s (заметно медленно для больших моделей)
- RTX 4070 Ti Super: ~672 GB/s (хорошо)
- RTX 4080 Super: ~736 GB/s (отлично)
- RTX 4090 (24GB): 1,008 GB/s (очень быстро)
- RTX 5090 (32GB): 1,792 GB/s (+78% к 4090, феноменально)
- Профессиональные карты: NVIDIA H100 (серверная) — 3,350 GB/s.
Tensor Cores — это специализированные аппаратные блоки внутри современных GPU NVIDIA (начиная с архитектуры Volta/Turing), предназначенные исключительно для ускорения матричных операций — основы любых нейросетей. Производительность в операциях INT8/FP8/FP4 (измеряемая в TOPS) — ключевой показатель для современных AI-моделей, особенно при инференсе с квантизацией.
Сравнение:
- RTX 4090: 1,321 TOPS (INT4)
- RTX 5090: 3,352 TOPS (+154% к 4090, чудовищный прирост)
- RTX 4080 Super: ~836 TOPS
Важный нюанс: Для большинства энтузиастов и даже многих профессионалов VRAM важнее TOPS. Медленная, но 24-гигабайтная RTX 3090 (или 4090) часто предпочтительнее быстрой, но 16-гигабайтной RTX 4080 Super, потому что на первой вы запустите большую модель, а на второй — нет.
- VRAM: 12 GB GDDR6
- Пропускная способность: ~360 GB/s
- Плюсы: Очень доступная цена (часто б/у за $200-250); позволяет запускать 13B модели в 4-bit и даже 7B модели в полной точности; огромное сообщество и готовые решения.
- Минусы: Ощутимо медленнее старших карт; 12 GB — это жесткое ограничение для многих современных моделей (Llama 3 8B в 4-bit влезает, но 13B уже на грани).
- Для кого: Студенты, новички, энтузиасты с минимальным бюджетом. Для первых экспериментов, запуска ботов и простых RAG-приложений — отличный старт.
- VRAM: 16 GB
- Пропускная способность: ~448 GB/s (узкое место из-за 128-битной шины)
- Плюсы: 16 GB VRAM за умеренные деньги (около $450-500); позволяет запускать 13B модели в хорошем качестве и даже 34B в 4-bit.
- Минусы: Очень низкая пропускная способность для своего класса; сильно медленнее 4070 и выше.
- Для кого: Те, кому критически важен объем памяти при жестком бюджете, и кто готов мириться с низкой скоростью генерации. Для запуска LLM в фоновых задачах (не в реальном времени) — может быть оправдана.
- VRAM: 16 GB GDDR6X
- Пропускная способность: ~672 GB/s (хорошо)
- Плюсы: Отличный баланс цены (~$800-900), производительности и объема памяти; 16 GB VRAM открывают доступ к большинству 13B моделей в полной точности (FP16) и 34B моделям в 4-bit; очень хорошая скорость.
- Минусы: 16 GB — все еще не 24 GB; некоторые самые большие модели (70B) даже в 4-bit не запустить.
- Для кого: Энтузиасты, серьезные разработчики, фрилансеры. Лучший выбор для тех, кому нужна стабильная работа с моделями среднего размера без переплаты за RTX 4090.
- VRAM: 16 GB
- Пропускная способность: ~736 GB/s (отлично)
- Плюсы: Очень высокая скорость; почти как RTX 4090 для игр, но в AI упирается в тот же лимит 16 GB VRAM.
- Минусы: Дороже 4070 Ti Super (~$1000+), а VRAM не больше; с точки зрения LLM не дает преимущества перед 4070 Ti Super.
- Для кого: Если вам важна максимальная скорость в 16-гигабайтных сценариях (например, быстрый инференс 13B моделей) или вы используете модель, которая точно влезает в 16 GB. Иначе лучше копить на 4090/5090.
- VRAM: 24 GB GDDR6X
- Пропускная способность: 1,008 GB/s (очень быстро)
- Плюсы: Огромная производительность; 24 GB VRAM позволяют комфортно запускать 34B модели в хорошем качестве (FP8/INT4) и даже 70B модели в 4-bit (около 10-15 token/s); до сих пор отличный выбор для многих профессионалов.
- Минусы: Высокая цена ($1600-2000+); огромное энергопотребление (450W TDP); физически большая, нужен просторный корпус.
- Для кого: Профессионалы, исследователи, разработчики коммерческих AI-решений, которым нужна максимальная производительность на одной карте. Если вы не можете ждать или тратить на RTX 5090 — 4090 отличный выбор.
- VRAM: 16 GB GDDR7
- Плюсы: Новая архитектура Blackwell с улучшенной поддержкой тензорных вычислений (FP4, FP6); выше производительность на ватт; поддержка новых форматов сжатия; GDDR7 дает высокую пропускную способность (ожидается ~900 GB/s).
- Минусы: Опять 16 GB — узкое место для больших моделей.
- Для кого: Те, кто строит систему с нуля и хочет получить максимум производительности за разумные деньги (~$900-1000), работая с моделями до 34B.
- VRAM: 32 GB GDDR7! (долгожданное увеличение)
- Пропускная способность: 1,792 GB/s (на 78% выше 4090)
- Производительность AI: 3,352 TOPS (на 154% выше 4090)
- Плюсы: Огромный объем памяти — можно запускать 70B модели на одной карте!; колоссальная вычислительная мощность; поддержка всех современных форматов данных.
- Минусы: Огромная цена ($1999+ MSRP, в реальности больше); колоссальное энергопотребление (575W TDP, пики выше); требует мощнейшего блока питания (1200W+) и отличного охлаждения.
- Для кого: Профессионалы, работающие с самыми большими open-source моделями (70B, 90B); исследователи, которые хотят запускать 100B+ модели в 4-bit на одной карте; коммерческое использование, где время — деньги.
Для самых больших моделей (70B+ параметров) или для полноценного обучения с нуля одной карты недостаточно. Решение — установка двух, трех или даже четырех видеокарт.
- Общий доступный VRAM суммируется: 2×24GB = 48GB; 4×24GB = 96GB. Это позволяет запускать модели, которые на одной карте не поместились бы.
- Модель распределяется между картами (model parallelism / tensor parallelism). Это требует специальной поддержки со стороны фреймворка (PyTorch, vLLM, ExLlamaV2) и накладывает ограничения.
- Критически важна материнская плата с поддержкой правильного разбиения линий PCIe (см. раздел про материнки): x8/x8 для двух карт или x4/x4/x4/x4 для четырех.
- Охлаждение — настоящий кошмар. Карты будут стоять вплотную друг к другу, верхняя будет греть нижнюю. Без продуваемого корпуса, турбинных карт (blowers) или водяного охлаждения система будет перегреваться и троттлить (снижать частоты).
- Блок питания. Для двух RTX 4090 нужен 1500-1600W блок или два отдельных блока питания с синхронизацией.
Многие новички ошибочно полагают, что процессор в AI-системе почти не важен: мол, загрузил модель на видеокарту и забыл. Это не совсем так, особенно на этапе подготовки данных и при работе с большими контекстами.
- Загрузка данных и препроцессинг (preprocessing): Тексты нужно токенизировать (разбить на токены), изображения — нормализовать, изменить размер, применить аугментацию; аудио — преобразовать в спектрограммы. Это выполняется на процессоре, часто параллельно на всех ядрах.
- Управление пайплайном (pipeline): CPU координирует передачу данных между NVMe-диском, оперативной памятью и видеокартами, готовит батчи (пакеты) для GPU.
- Выполнение операций, которые плохо или совсем нельзя распараллелить на GPU: Некоторые алгоритмы (например, отдельные этапы обработки графов, определенные виды поиска) работают быстрее на CPU.
- Prompt processing (обработка начального запроса): Для LLM с большим контекстным окном (например, 128K токенов) обработка длинного начального промпта может выполняться на CPU, и быстрый многоядерный процессор здесь очень помогает.
- Системные задачи и многозадачность: Пока GPU занят инференсом или обучением, CPU продолжает работать с ОС, браузером, серверными приложениями и т.д.
В AI-задачах процессор должен быстро «пережевывать» большие объемы данных и передавать их на GPU. Поэтому важны не только высокие тактовые частоты (для однопоточных задач), но и количество физических ядер (для параллельной обработки данных) и поддержка быстрой оперативной памяти.
- 8-12 ядер: Минимальный комфортный уровень для систем с 1-2 видеокартами.
- 16-24 ядра: Рекомендуются для систем с 3-4 GPU или для интенсивного обучения/препроцессинга огромных датасетов.
- PCIe-линии: Количество линий PCIe, которое предоставляет процессор, критически важно для многокарточных систем (см. раздел про материнские платы).
Практической разницы для чистых AI-задач (после того как модель загружена на GPU) практически нет. И Intel, и AMD отлично справляются. Различия проявляются в смежных областях:
- AMD Ryzen 9 7950X/9950X (16 ядер, 32 потока): Показывают отличную многопоточную производительность, полезную при обработке больших датасетов. Часто дешевле аналогов Intel. Ryzen 9 9950X — один из лучших выборов для AI-рабочей станции.
- Intel Core i9-14900K / Ultra 9 285K: Также очень мощные. Intel Core Ultra 9 285K имеет встроенный NPU (нейронный процессор) — специальный блок для ускорения легких AI-задач (распознавание жестов, шумоподавление, локальные небольшие модели). Для серьезных LLM NPU не пригодится, но для некоторых сценариев может быть плюсом.
- AMD Threadripper / Intel Xeon (HEDT): Для систем с 4+ GPU и огромными объемами оперативной памяти (256GB+) — выбор HEDT-платформ. Они предоставляют 64-128 линий PCIe (против 24-28 у массовых платформ) и поддерживают до 2TB оперативной памяти с ECC (коррекцией ошибок). Но цена процессора + материнской платы стартует от $1500-2000.
Четкий совет:
- Система с 1-2 видеокартами: Современный 8-12-ядерный процессор (AMD Ryzen 7 7700X/7800X3D или Intel Core i7-14700K/13700K) — оптимальный выбор. Ryzen 7 7800X3D отличен для игр, но для AI его кэш не дает преимущества.
- Система с 3-4 GPU: Смотрите в сторону AMD Ryzen 9 7950X/9950X (16 ядер) или, если бюджет позволяет, Threadripper.
- Обучение огромных моделей с нуля на 4-8 GPU: Только HEDT (Threadripper/Xeon) или серверные платформы.
Материнская плата — это не просто «плата, в которую всё вставляется». Для AI-системы критически важны конкретные параметры, которые часто упускают из виду при покупке «игровых» плат.
Это главный параметр материнской платы для AI, определяющий, сколько видеокарт вы сможете установить и насколько эффективно они будут обмениваться данными.
- Если вы планируете использовать ОДНУ видеокарту: Подойдет любая современная плата со слотом PCIe 4.0 x16 или PCIe 5.0 x16 (лучше 5.0, но разница для AI пока невелика). Просто убедитесь, что слот физически x16 и получает все 16 линий напрямую от процессора, а не через чипсет (обычно это самый верхний слот).
- Если вы планируете ДВЕ или БОЛЕЕ видеокарт — здесь начинаются сложности. Вам нужна плата, которая может разбивать линии PCIe процессора на несколько слотов. Стандартные режимы разбиения:x8/x8 — две карты получают по 8 линий PCIe (обычно достаточно для AI; потеря производительности по сравнению с x16 составляет около 5-15% для LLM).x8/x4/x4 — три карты (одна на 8 линий, две на 4 линии).x4/x4/x4/x4 — четыре карты (каждая на 4 линии). Это минимально допустимо, но узкое место может быть заметно.
- x8/x8 — две карты получают по 8 линий PCIe (обычно достаточно для AI; потеря производительности по сравнению с x16 составляет около 5-15% для LLM).
- x8/x4/x4 — три карты (одна на 8 линий, две на 4 линии).
- x4/x4/x4/x4 — четыре карты (каждая на 4 линии). Это минимально допустимо, но узкое место может быть заметно.
- Огромная ложка дегтя: Многие дешевые и даже среднеценовые «игровые» материнские платы могут иметь два или даже три физических слота PCIe x16, но второй и третий слоты могут работать в режиме x4 (или даже x1!), и, что еще хуже, эти линии могут идти через медленный чипсет, а не напрямую к процессору. Это создаст серьезное узкое место при передаче данных между видеокартами, особенно в задачах тензорного параллелизма.
Как проверить? Всегда читайте спецификацию материнской платы на сайте производителя. Ищите фразы: «PCIe slot configuration», «multi-GPU support», «x8/x8 mode», «bifurcation support».
- 4 слота DIMM — стандарт. Обеспечивают до 128-192GB (с недавними процессорами и 48GB модулями — до 192GB).
- 8 слотов DIMM — только на HEDT-платформах (Threadripper/Xeon), позволяют установить до 256GB, 512GB или даже 1-2TB оперативной памяти.
- Для AMD: Чипсеты B650/B650E — хороший базовый уровень для 1 GPU. X670/X670E/X870E — топовые, с большим количеством линий PCIe (в т.ч. для NVMe-дисков), лучшим питанием VRM (для мощных процессоров) и часто с поддержкой правильного разбиения слотов.
- Для Intel: Z690/Z790 — топ для 1-2 GPU. W680 — рабочая станция, поддерживает ECC-память.
- VRM (подсистема питания процессора): Если вы ставите мощный процессор (Ryzen 9 или Core i9), материнская плата должна иметь качественные VRM с радиаторами. Иначе возможен троттлинг CPU.
- ASUS ProArt B850-Creator WiFi Neo (и старшие ProArt X670E/X870E): Один из лучших выборов для сборки с 2 GPU. Два слота PCIe 5.0 x16, работающие в режиме x8/x8. Поддержка последних процессоров AMD Ryzen 9000-й серии. До 256 GB DDR5. Отличная стабильность. Серия ProArt от ASUS вообще ориентирована на создателей контента и AI-разработчиков.
- GIGABYTE Z690/Z790 AORUS Master (или аналоги): Хороший выбор для платформы Intel с 1-2 GPU. Качественные компоненты, поддержка PCIe 5.0, стабильная работа с большими объемами оперативной памяти.
- MSI MPG B650 CARBON WIFI: Хороший выбор для AMD с 2 GPU (поддержка x8/x8). Дешевле ProArt, но функции схожи.
- ASRock X670E Taichi / PG Lightning: Топовые платы для AMD, часто с отличным разбиением PCIe.
- Для энтузиастов с 4 GPU: Стоит смотреть в сторону специальных моделей ASUS ProArt, Gigabyte Aorus, MSI Creation с поддержкой x4/x4/x4/x4. Или сразу переходить на HEDT-платформу с Threadripper (например, ASUS Pro WS TRX50-SAGE WIFI), где 4+ полноценных слота PCIe 5.0 x16.
Оперативная память — это временное хранилище данных, с которыми работает процессор. В AI-системе она играет вспомогательную, но незаменимую роль.
Существует устойчивый миф, что оперативной памяти должно быть столько же, сколько и видеопамяти, или даже больше. Это неправда!
Современные AI-движки (llama.cpp, ExLlamaV2, vLLM, Hugging Face Transformers с опцией device_map="auto") загружают модель не целиком в оперативную память, а частями (streaming) или распределяют веса между VRAM и RAM, если модель не влезает в видеопамять. В типичном сценарии, когда модель целиком помещается в VRAM:
- Объем оперативной памяти, активно используемой процессором для данных, буферов и системных нужд, редко превышает 10-20 GB даже для очень больших моделей.
- Для системы с 24GB VRAM (например, RTX 3090/4090): вполне достаточно 32GB оперативной памяти. Потребление в пике загрузки модели составит ~20-25GB, а в стабильном режиме инференса — всего 3-8GB.
- Для системы с 1-2 видеокартами (24-48GB VRAM): оптимально 64GB RAM (2×32GB). Это дает комфортный запас для работы с датасетами, кэшированием и многозадачностью.
- Для системы с 4 видеокартами (96GB+ VRAM) или для обучения с огромными датасетами: стоит задуматься о 128GB RAM. При обучении может требоваться много RAM для хранения датасета в распакованном виде.
- Для систем на Threadripper/Xeon с 8 GPU: 256GB, 512GB и более — не редкость.
DDR5 — однозначный выбор для любой новой системы, собираемой сейчас или в ближайшие 1-2 года. Причины:
- Более высокая пропускная способность (ускоряет загрузку моделей в VRAM и препроцессинг).
- Лучше справляется с большими объемами памяти (стабильность при 64GB+).
- Современные процессоры (Ryzen 7000/9000, Intel 12/13/14 gen, Core Ultra) и платы уже ориентированы на DDR5.
Важный нюанс: При установке 4 планок DDR5 частота памяти почти всегда снижается автоматически (поскольку контроллеру памяти сложнее управлять четырьмя модулями). Поэтому:
- Для 64GB лучше использовать **2 план