Назад к услугам
УСЛУГА 01

Внедряем LLM on-premise в закрытом контуре

Проектируем и разворачиваем языковую модель на инфраструктуре заказчика: от обследования и выбора стека до опытной эксплуатации без передачи данных во внешние облака.

Какую задачу решает услуга

Публичные API недопустимы: данные и промпты не могут покидать периметр (КИИ, гостайна, коммерческая тайна).

Нет единой архитектуры: разрозненные пилоты на ноутбуках без GPU, мониторинга и регламентов эксплуатации.

Неясный бюджет: CAPEX на железо, проектные работы и OPEX смешиваются в одной оценке «от вендора облака».

Интеграция с СЭД, 1С и каталогами прав не заложена на старте — переделка после пилота дороже проектирования.

Что входит в работы

  • Обследование: опросный лист, инвентаризация источников данных, оценка нагрузки и требований ИБ.
  • Выбор модели и стека инференса (vLLM, TGI, llama.cpp) под ваши GPU и сценарии.
  • Развёртывание LLM и векторной БД в периметре заказчика.
  • Шлюз доступа, журналирование запросов и разграничение по ролям (AD / Keycloak).
  • Базовая интеграция с корпоративными источниками по согласованному перечню.
  • Метрики качества пилота и отчёт с планом промышленного запуска.

Что не входит в пилот

  • Сертификация продукта в реестре МПТ и полный цикл аттестации объекта — отдельный проект после пилота.
  • Масштабирование на всех пользователей холдинга без отдельного этапа промышленного внедрения.
  • Замена существующих СЗИ или СЭД — только интеграция по API.

Архитектура внедрения

Модель и индекс работают внутри периметра. Пользователи обращаются через корпоративный шлюз; все запросы журналируются.

GPU-узел в периметре

Сервер или ПАК с GPU под инференс; варианты — существующий кластер заказчика или поставка ПАК под пилот.

LLM в контуре

Open-source или лицензируемая российская модель; квантизация под доступную видеопамять.

Векторная база

pgvector, Qdrant или аналог on-premise для RAG и семантического поиска по корпусу.

Шлюз и аудит

Единая точка входа, лимиты, журналирование обращений для службы ИБ.

Корпоративные коннекторы

СЭД, 1С, SAP, файловые архивы — по согласованному списку на этапе discovery.

Мониторинг

Нагрузка GPU, latency, качество ответов на тестовом наборе вопросов.

Вариант развёртывания (ВМ, bare metal, ПАК) и перечень ОС (Astra Linux, РЕД ОС) уточняются на этапе проектирования.

Стоимость пилота

от 1,7 до 50 млн ₽

Срок: 4–8 недель на пилот; промышленный контур — отдельная оценка

  • Discovery и архитектурное описание контура
  • Проектные работы по сценарию (минимальный / оптимальный / защищённый — по статье о бюджете)
  • Настройка пилотной инсталляции и тестовый набор метрик
  • Рекомендации по CAPEX на железо (от 0,7 млн ₽ в минимальном сценарии)

Итоговая стоимость уточняется после opening discovery и опросного листа. CAPEX на серверы и GPU не входит в нижнюю границу проектных работ без отдельного согласования.

Калькулятор бюджета пилота

Выберите параметры — получите ориентировочный диапазон бюджета на пилот и первый год эксплуатации. Расчёт по коридорам из  статьи о стоимости LLM on-premise . Это не коммерческое предложение, а первая прикидка для внутреннего обсуждения.

CAPEX (железо, ПО)
— млн ₽
Проектные работы
— млн ₽
OPEX за год
— млн ₽
Итого первый год (CAPEX + работы + OPEX)
— млн ₽
Уточнить расчёт

Диапазон ориентировочный: курс рубля, доступность GPU, состав работ и требования регулятора двигают итоговую цифру. Для точного расчёта — обсуждение с архитектором AZONE-AI.

Частые вопросы

Можно ли использовать YandexGPT или GigaChat on-premise?

Эти модели доступны преимущественно через облачный API. Для закрытого контура мы разворачиваем open-source (Llama, Qwen, DeepSeek) или иные модели с лицензией, допускающей локальный инференс. Выбор фиксируется на обследовании.

Сколько GPU нужно для пилота?

В минимальном сценарии — одна карта уровня RTX A6000 или использование существующего сервера; в оптимальном — A100 80GB или эквивалент. Точная конфигурация зависит от размера модели и объёма RAG.

Где хранятся промпты и ответы?

На серверах заказчика. Журналы обращений настраиваются в шлюзе; политика хранения и доступа согласуется со службой ИБ.

Чем пилот отличается от промышленного внедрения?

Пилот проверяет гипотезу на ограниченном контуре и метриках качества. Промышленный запуск включает отказоустойчивость, полный охват пользователей, регламенты эксплуатации и, при необходимости, сертификацию.

Нужна ли отдельная лицензия на модель?

Для open-source-моделей с коммерчески допустимой лицензией — согласие с условиями поставщика модели. Проприетарные API-модели в закрытый контур не переносятся без отдельного договора с правообладателем.

Интегрируете ли вы с нашей СЭД?

Да, в рамках согласованного перечня на пилоте. Готовые практики — Directum, Тезис, 1С:Документооборот, ELMA, файловые хранилища.

Технический документ: Архитектура внедрения LLM в закрытом контуре КИИ

PDF ~20 страниц для CISO и архитекторов. Регуляторный контекст, эталонная архитектура, чек-лист готовности к пилоту.

Скачать PDF

Запросите расчёт пилота

Подготовим оценку сроков и бюджета по вашему контуру после опросного листа и opening discovery.