On-premise LLM: как развернуть языковую модель внутри периметра
Технический гайд по выбору open-source моделей, требованиям к железу (GPU) и процессу тонкой настройки (fine-tuning) на корпоративных данных.
Свой ChatGPT в серверной: реально ли это?
Представь ситуацию. Юрист загружает NDA с крупным клиентом в ChatGPT, чтобы «быстренько проверить формулировки». Маркетолог скармливает туда стратегию выхода на новый рынок. Разработчик вставляет кусок проприетарного кода, чтобы найти баг. Всё удобно, все довольны. До первой утечки.
Это не параноидальный сценарий. Большие языковые модели (LLM) — мощный инструмент, но передавать конфиденциальные данные через API в облако — всё равно что обсуждать секреты фирмы в лифте бизнес-центра. Вроде никто не слушает, но гарантий нет.
Хорошая новость: запустить LLM внутри собственного периметра — on-premise — уже не квест уровня «собрать адронный коллайдер в гараже». Экосистема open-source моделей созрела, инструменты стали адекватными, а железо — доступным. Разберёмся пошагово.
Облачный API vs. LLM на собственном сервере: данные остаются в зелёной зоне
1. Железо: нет, ферма из H100 не нужна
Первый миф: для on-premise LLM нужен дата-центр уровня Google. Это было актуально в 2022 году, когда единственным вариантом был GPT-3 на 175 млрд параметров. Сейчас ландшафт радикально изменился.
Важно различать две принципиально разные задачи с разными требованиями к оборудованию:
Инференс
Модель уже обучена и просто отвечает на запросы. Главный ресурс — видеопамять (VRAM). Модель должна целиком поместиться в GPU-память.
Fine-tuning
Дообучение модели на корпоративных данных. Нужно в 2–4 раза больше VRAM: хранятся градиенты, состояния оптимизатора и батчи данных.
7B, 13B, 70B — что поместится в ваш GPU и как квантование помогает сэкономить
Конкретные цифры по размерам моделей
| Модель | Размер FP16 | Инференс | INT4 квантование |
|---|---|---|---|
| 7–8B (Llama 3.1 8B, Mistral 7B) | ~14–16 ГБ | 1× RTX 4090 (24 ГБ) | 4–5 ГБ, любая 8 ГБ карта |
| 13–14B | ~28 ГБ | A100 40 ГБ или 2× RTX 4090 | ~7 ГБ, одна RTX 4090 |
| 70B | ~140 ГБ | 2× A100 80 ГБ | ~35–40 ГБ, 2× A100 40 ГБ |
Практический совет: если бюджет ограничен, бери модель 7–8B с INT4-квантованием и одну хорошую потребительскую видеокарту. Для proof-of-concept и многих продакшн-задач этого более чем достаточно.
2. Выбор модели: три семейства, три характера
Выбор open-source модели в 2025 году — это примерно как выбор автомобиля. Есть модные электрокары для хайповых задач, надёжные внедорожники для тяжёлой работы и экономичные хэтчбеки, которые просто делают своё дело.
Llama 3 / 3.1 (Meta AI)
+ Флагман open-source движения. Доступны в размерах от 1B до 405B параметров. Отличное качество рассуждений, огромная экосистема готовых решений и дообученных версий.
− Для русского языка из коробки требует дообучения.
Mistral / Mixtral (Mistral AI)
+ Французская альтернатива, которая удивляет эффективностью. Mistral 7B обогнал Llama 2 13B на бенчмарках, будучи вдвое меньше. Лицензия Apache 2.0 — одна из самых свободных.
− Русский язык хуже, чем у Qwen.
Qwen 2.5 (Alibaba)
+ Лидер по мультиязычности. Qwen 2.5 отлично работает с русским языком. Qwen 2.5 Coder — отдельная ветка для генерации кода, конкурирует с DeepSeek Coder.
− Экосистема меньше, чем у Llama.
| Критерий | Llama 3.1 | Mistral | Qwen 2.5 |
|---|---|---|---|
| Рассуждения | ★★★★★ | ★★★★ | ★★★★★ |
| Код | ★★★★ | ★★★★★ | ★★★★★ |
| Русский язык | ★★★ | ★★★★ | ★★★★★ |
| Эффективность | ★★★★ | ★★★★★ | ★★★★ |
| Экосистема | ★★★★★ | ★★★★ | ★★★ |
| Лицензия | Community | Apache 2.0 | Apache 2.0 |
3. Fine-tuning: стажировка для нейросети
Ты скачал модель, развернул на сервере, она отвечает на вопросы. Но отвечает... в общем. Как выпускник университета: знает всё и ничего одновременно. Он не знает, что в вашей компании «ТКП» — это техническое коммерческое предложение. Не знает вашу номенклатуру, регламенты, стиль коммуникации.
Тонкая настройка (fine-tuning) — это стажировка для этого выпускника. Берёшь готовую модель, которая уже знает язык и умеет рассуждать, и «дообучаешь» её на корпоративных данных. После стажировки она говорит на вашем языке.
Подготовка данных
Самая важная и самая недооценённая часть. Качество fine-tuning на 80% зависит от качества данных. Мусор на входе — мусор на выходе.
От 500 до 5 000 качественных примеров. 1 000 хороших пар Q&A дадут больше, чем 10 000 мусорных.
LoRA — fine-tuning для экономных
LoRA (Low-Rank Adaptation) — технология, которая сделала fine-tuning доступным. Вместо обновления всех миллиардов параметров LoRA замораживает модель и добавляет небольшие обучаемые адаптеры — 0.1–1% от общего числа параметров.
Запуск и валидация
Подготовил JSONL-данные → выбрал модель → настроил параметры (learning rate 1e-4, 2–3 эпохи, LoRA rank 8–32) → запустил → получил адаптер.
Обязательно отложи 10–15% данных в тестовую выборку. Подготовь 50–100 «золотых» вопросов с эталонными ответами. Можно использовать LLM-as-a-judge — когда более сильная модель оценивает ответы твоей.
Итого: что нужно для старта
On-premise LLM — это уже не удел избранных с бюджетом в сотни миллионов. Для пилота достаточно одного GPU-сервера, качественного датасета на тысячу пар и недели работы инженера. Результат — языковая модель, которая знает ваш бизнес, работает автономно и не отправляет данные никуда за пределы вашего периметра.
Хотите развернуть LLM на своей инфраструктуре? AZONE AI реализует полный цикл: подбор железа, выбор и дообучение модели, интеграция с корпоративными системами — под ключ.
Решения AZONE-AI по теме
Начните с пилотного проекта
За 4–8 недель мы развернём решение на вашей инфраструктуре.
Обсудить пилот