Внедряем LLM on-premise в закрытом контуре
Проектируем и разворачиваем языковую модель на инфраструктуре заказчика: от обследования и выбора стека до опытной эксплуатации без передачи данных во внешние облака.
Какую задачу решает услуга
Публичные API недопустимы: данные и промпты не могут покидать периметр (КИИ, гостайна, коммерческая тайна).
Нет единой архитектуры: разрозненные пилоты на ноутбуках без GPU, мониторинга и регламентов эксплуатации.
Неясный бюджет: CAPEX на железо, проектные работы и OPEX смешиваются в одной оценке «от вендора облака».
Интеграция с СЭД, 1С и каталогами прав не заложена на старте — переделка после пилота дороже проектирования.
Что входит в работы
- Обследование: опросный лист, инвентаризация источников данных, оценка нагрузки и требований ИБ.
- Выбор модели и стека инференса (vLLM, TGI, llama.cpp) под ваши GPU и сценарии.
- Развёртывание LLM и векторной БД в периметре заказчика.
- Шлюз доступа, журналирование запросов и разграничение по ролям (AD / Keycloak).
- Базовая интеграция с корпоративными источниками по согласованному перечню.
- Метрики качества пилота и отчёт с планом промышленного запуска.
Что не входит в пилот
- — Сертификация продукта в реестре МПТ и полный цикл аттестации объекта — отдельный проект после пилота.
- — Масштабирование на всех пользователей холдинга без отдельного этапа промышленного внедрения.
- — Замена существующих СЗИ или СЭД — только интеграция по API.
Архитектура внедрения
Модель и индекс работают внутри периметра. Пользователи обращаются через корпоративный шлюз; все запросы журналируются.
GPU-узел в периметре
Сервер или ПАК с GPU под инференс; варианты — существующий кластер заказчика или поставка ПАК под пилот.
LLM в контуре
Open-source или лицензируемая российская модель; квантизация под доступную видеопамять.
Векторная база
pgvector, Qdrant или аналог on-premise для RAG и семантического поиска по корпусу.
Шлюз и аудит
Единая точка входа, лимиты, журналирование обращений для службы ИБ.
Корпоративные коннекторы
СЭД, 1С, SAP, файловые архивы — по согласованному списку на этапе discovery.
Мониторинг
Нагрузка GPU, latency, качество ответов на тестовом наборе вопросов.
Вариант развёртывания (ВМ, bare metal, ПАК) и перечень ОС (Astra Linux, РЕД ОС) уточняются на этапе проектирования.
Стоимость пилота
Срок: 4–8 недель на пилот; промышленный контур — отдельная оценка
- Discovery и архитектурное описание контура
- Проектные работы по сценарию (минимальный / оптимальный / защищённый — по статье о бюджете)
- Настройка пилотной инсталляции и тестовый набор метрик
- Рекомендации по CAPEX на железо (от 0,7 млн ₽ в минимальном сценарии)
Итоговая стоимость уточняется после opening discovery и опросного листа. CAPEX на серверы и GPU не входит в нижнюю границу проектных работ без отдельного согласования.
Калькулятор бюджета пилота
Выберите параметры — получите ориентировочный диапазон бюджета на пилот и первый год эксплуатации. Расчёт по коридорам из статьи о стоимости LLM on-premise . Это не коммерческое предложение, а первая прикидка для внутреннего обсуждения.
Диапазон ориентировочный: курс рубля, доступность GPU, состав работ и требования регулятора двигают итоговую цифру. Для точного расчёта — обсуждение с архитектором AZONE-AI.
Частые вопросы
Можно ли использовать YandexGPT или GigaChat on-premise?
Эти модели доступны преимущественно через облачный API. Для закрытого контура мы разворачиваем open-source (Llama, Qwen, DeepSeek) или иные модели с лицензией, допускающей локальный инференс. Выбор фиксируется на обследовании.
Сколько GPU нужно для пилота?
В минимальном сценарии — одна карта уровня RTX A6000 или использование существующего сервера; в оптимальном — A100 80GB или эквивалент. Точная конфигурация зависит от размера модели и объёма RAG.
Где хранятся промпты и ответы?
На серверах заказчика. Журналы обращений настраиваются в шлюзе; политика хранения и доступа согласуется со службой ИБ.
Чем пилот отличается от промышленного внедрения?
Пилот проверяет гипотезу на ограниченном контуре и метриках качества. Промышленный запуск включает отказоустойчивость, полный охват пользователей, регламенты эксплуатации и, при необходимости, сертификацию.
Нужна ли отдельная лицензия на модель?
Для open-source-моделей с коммерчески допустимой лицензией — согласие с условиями поставщика модели. Проприетарные API-модели в закрытый контур не переносятся без отдельного договора с правообладателем.
Интегрируете ли вы с нашей СЭД?
Да, в рамках согласованного перечня на пилоте. Готовые практики — Directum, Тезис, 1С:Документооборот, ELMA, файловые хранилища.
Связанные продукты
AzoneDoc
On-premise RAG-поиск по корпоративному архиву: документы, регламенты и проектные материалы находятся за минуты, а ответы сопровождаются ссылками на источники.
Страница продукта ПРОДУКТ 01ContentGuard
On-premise ИИ-аналитика событий ИБ для корпоративных SOC и объектов КИИ.
Страница продуктаСвязанные материалы
Технический гайд по моделям, железу и fine-tuning на корпоративных данных.
Пошаговое руководство: стек, квантизация, vLLM vs TGI.
Три сценария бюджета пилота: CAPEX, работы, OPEX.
Технический документ: Архитектура внедрения LLM в закрытом контуре КИИ
PDF ~20 страниц для CISO и архитекторов. Регуляторный контекст, эталонная архитектура, чек-лист готовности к пилоту.
Запросите расчёт пилота
Подготовим оценку сроков и бюджета по вашему контуру после опросного листа и opening discovery.