Технологии

On-premise LLM: как развернуть языковую модель внутри периметра

Технический гайд по выбору open-source моделей, требованиям к железу (GPU) и процессу тонкой настройки (fine-tuning) на корпоративных данных.

28 сентября 2025 12 мин чтения

Свой ChatGPT в серверной: реально ли это?

Представь ситуацию. Юрист загружает NDA с крупным клиентом в ChatGPT, чтобы «быстренько проверить формулировки». Маркетолог скармливает туда стратегию выхода на новый рынок. Разработчик вставляет кусок проприетарного кода, чтобы найти баг. Всё удобно, все довольны. До первой утечки.

Это не параноидальный сценарий. Большие языковые модели (LLM) — мощный инструмент, но передавать конфиденциальные данные через API в облако — всё равно что обсуждать секреты фирмы в лифте бизнес-центра. Вроде никто не слушает, но гарантий нет.

Хорошая новость: запустить LLM внутри собственного периметра — on-premise — уже не квест уровня «собрать адронный коллайдер в гараже». Экосистема open-source моделей созрела, инструменты стали адекватными, а железо — доступным. Разберёмся пошагово.

Облачный API vs. LLM на собственном сервере: данные остаются в зелёной зоне

1. Железо: нет, ферма из H100 не нужна

Первый миф: для on-premise LLM нужен дата-центр уровня Google. Это было актуально в 2022 году, когда единственным вариантом был GPT-3 на 175 млрд параметров. Сейчас ландшафт радикально изменился.

Важно различать две принципиально разные задачи с разными требованиями к оборудованию:

Инференс

Модель уже обучена и просто отвечает на запросы. Главный ресурс — видеопамять (VRAM). Модель должна целиком поместиться в GPU-память.

Fine-tuning

Дообучение модели на корпоративных данных. Нужно в 2–4 раза больше VRAM: хранятся градиенты, состояния оптимизатора и батчи данных.

7B, 13B, 70B — что поместится в ваш GPU и как квантование помогает сэкономить

Конкретные цифры по размерам моделей

Модель	Размер FP16	Инференс	INT4 квантование
7–8B (Llama 3.1 8B, Mistral 7B)	~14–16 ГБ	1× RTX 4090 (24 ГБ)	4–5 ГБ, любая 8 ГБ карта
13–14B	~28 ГБ	A100 40 ГБ или 2× RTX 4090	~7 ГБ, одна RTX 4090
70B	~140 ГБ	2× A100 80 ГБ	~35–40 ГБ, 2× A100 40 ГБ

Практический совет: если бюджет ограничен, бери модель 7–8B с INT4-квантованием и одну хорошую потребительскую видеокарту. Для proof-of-concept и многих продакшн-задач этого более чем достаточно.

2. Выбор модели: три семейства, три характера

Выбор open-source модели в 2025 году — это примерно как выбор автомобиля. Есть модные электрокары для хайповых задач, надёжные внедорожники для тяжёлой работы и экономичные хэтчбеки, которые просто делают своё дело.

Llama 3 / 3.1 (Meta AI)

+ Флагман open-source движения. Доступны в размерах от 1B до 405B параметров. Отличное качество рассуждений, огромная экосистема готовых решений и дообученных версий.

− Для русского языка из коробки требует дообучения.

Mistral / Mixtral (Mistral AI)

+ Французская альтернатива, которая удивляет эффективностью. Mistral 7B обогнал Llama 2 13B на бенчмарках, будучи вдвое меньше. Лицензия Apache 2.0 — одна из самых свободных.

− Русский язык хуже, чем у Qwen.

Qwen 2.5 (Alibaba)

+ Лидер по мультиязычности. Qwen 2.5 отлично работает с русским языком. Qwen 2.5 Coder — отдельная ветка для генерации кода, конкурирует с DeepSeek Coder.

− Экосистема меньше, чем у Llama.

Критерий	Llama 3.1	Mistral	Qwen 2.5	Комментарий
Рассуждения	★★★★★	★★★★	★★★★★	Llama и Qwen лидируют на 70B+
Код	★★★★	★★★★★	★★★★★	Mistral и Qwen Coder — топ
Русский язык	★★★	★★★★	★★★★★	Qwen лучший для мультиязыка
Эффективность	★★★★	★★★★★	★★★★	Mixtral MoE — лучший ratio
Экосистема	★★★★★	★★★★	★★★	Llama = больше готовых решений
Лицензия	Community	Apache 2.0	Apache 2.0	Mistral — максимум свободы

Английский + экосистема

Llama 3.1

Скромное железо

Mistral / Mixtral

Русский язык

Qwen 2.5

3. Fine-tuning: стажировка для нейросети

Ты скачал модель, развернул на сервере, она отвечает на вопросы. Но отвечает... в общем. Как выпускник университета: знает всё и ничего одновременно. Он не знает, что в вашей компании «ТКП» — это техническое коммерческое предложение. Не знает вашу номенклатуру, регламенты, стиль коммуникации.

Тонкая настройка (fine-tuning) — это стажировка для этого выпускника. Берёшь готовую модель, которая уже знает язык и умеет рассуждать, и «дообучаешь» её на корпоративных данных. После стажировки она говорит на вашем языке.

Подготовка данных

Самая важная и самая недооценённая часть. Качество fine-tuning на 80% зависит от качества данных. Мусор на входе — мусор на выходе.

Формат Q&A

Пары «вопрос-ответ» из базы знаний, FAQ, тикетов

Формат инструкций

Инструкция + вход + выход. Для суммаризации и классификации

От 500 до 5 000 качественных примеров. 1 000 хороших пар Q&A дадут больше, чем 10 000 мусорных.

LoRA — fine-tuning для экономных

LoRA (Low-Rank Adaptation) — технология, которая сделала fine-tuning доступным. Вместо обновления всех миллиардов параметров LoRA замораживает модель и добавляет небольшие обучаемые адаптеры — 0.1–1% от общего числа параметров.

Время обучения

2–4 часа на A100 (7B модель)

Размер адаптера

50–200 МБ

Гибкость

Один для юристов, другой для ТП — на базе одной модели

Инструменты: Hugging Face PEFT (де-факто стандарт), Axolotl (конфиг через YAML), Unsloth (ускорение 2–5×).

Запуск и валидация

Подготовил JSONL-данные → выбрал модель → настроил параметры (learning rate 1e-4, 2–3 эпохи, LoRA rank 8–32) → запустил → получил адаптер.

Обязательно отложи 10–15% данных в тестовую выборку. Подготовь 50–100 «золотых» вопросов с эталонными ответами. Можно использовать LLM-as-a-judge — когда более сильная модель оценивает ответы твоей.

Итого: что нужно для старта

On-premise LLM — это уже не удел избранных с бюджетом в сотни миллионов. Для пилота достаточно одного GPU-сервера, качественного датасета на тысячу пар и недели работы инженера. Результат — языковая модель, которая знает ваш бизнес, работает автономно и не отправляет данные никуда за пределы вашего периметра.

Хотите развернуть LLM на своей инфраструктуре? AZONE AI реализует полный цикл: подбор железа, выбор и дообучение модели, интеграция с корпоративными системами — под ключ.