Кейсы

Как ИИ сокращает время поиска документов с часов до минут

Разбор кейса внедрения нейросетевого архива в крупном промышленном холдинге. Семантический поиск по архиву из 5 миллионов скан-копий.

15 сентября 2025 6 мин чтения

Контекст и проблема

Крупный промышленный холдинг потратил два года на оцифровку бумажного архива — и получил 5 миллионов файлов, в которых невозможно ничего найти. Рассказываем, как семантический поиск на базе ИИ решил эту задачу и что нужно, чтобы повторить результат у себя.

Типичный архив крупного холдинга — это договоры, акты, счета-фактуры, протоколы, приказы, техническая документация и переписка за 15–20 лет. После сканирования всё это превращается в 5 миллионов PDF-файлов на сетевых хранилищах. Часть документов отсканирована ровно и чётко, часть — это кривые скан-копии с пятнами и рукописными пометками.

Формально оцифровка завершена. Фактически — сотрудники продолжают звонить в архив и ждать, пока оператор вручную найдёт нужный скан. Причина проста: у большинства файлов нет нормальных метаданных. Имена вроде scan_0048712.pdf не говорят ни о чём, а ручная разметка 5 миллионов документов нереальна.

Какие запросы приходят каждый день

«Найди договор с «Волга-Транс» на перевозку за 2019 год, там ещё была пролонгация»

«Нужен акт сверки с контрагентом, ИНН 7712345678, за третий квартал 2021»

«Покажи все протоколы совета директоров, где обсуждали сделку по покупке завода в Тольятти»

«Есть ли доверенность на Иванова А. П. с правом подписи актов?»

«Техническое заключение по аварии на участке №3, сентябрь 2022»

Ни один из этих запросов не решается простым поиском по имени файла.

Путь запроса до и после внедрения: 2–4 часа vs 30 секунд

Типовой маршрут поискового запроса: было и стало

Почему поиск по ключевым словам — тупик

Первая мысль: «Давайте прогоним всё через OCR и будем искать по тексту». Звучит логично, но на практике разбивается о несколько стен.

OCR ошибается

Даже хорошие движки на сканах среднего качества дают 2–5% ошибок посимвольно. «Договор» превращается в «Дoговор» (с латинской «o»), номер «ДП-2018/0451» — в «ДП-2О18/О451». Полнотекстовый поиск по точному совпадению такие документы не найдёт.

Синонимы и вариации

Один и тот же документ в разных подразделениях называют «договор», «контракт», «соглашение». Акт выполненных работ — «акт сдачи-приёмки», «закрывающий акт», просто «закрывашка». Ключевое слово ловит только одну формулировку.

Шум от печатей и штампов

OCR пытается распознать текст внутри круглых печатей и угловых штампов. Результат — мусорные строки, которые засоряют индекс и снижают точность.

Рукописные пометки

Резолюции, визы, подписи — всё это добавляет «фантомный» текст в распознанный слой.

В итоге классический полнотекстовый поиск по OCR-тексту находит в лучшем случае 40–60% релевантных документов. Остальное — ручная работа.

Решение: семантический ИИ-поиск

Идея семантического поиска в том, что система ищет не по буквальному совпадению слов, а по смыслу. Каждый фрагмент текста (страница или абзац) превращается в числовой вектор — набор из нескольких сотен чисел, который кодирует смысл написанного.

Когда сотрудник вводит запрос, система превращает его в такой же вектор и находит ближайшие по смыслу фрагменты в базе. «Договор на перевозку» найдёт и «контракт на транспортные услуги», и «соглашение о грузоперевозках» — потому что смысл один.

Важно: поиск идёт по фрагментам и страницам, а не только по целым документам. Система указывает конкретную страницу 47-страничного контракта, где упоминается нужное условие.

Схема конвейера: от скана до результатов поиска

Конвейер обработки: от скана до поиска по смыслу

Как это работает

OCR и контроль качества

На входе — скан. OCR-движок распознаёт текст, а параллельно система оценивает качество: уровень уверенности распознавания, наличие перекосов, процент «мусорных» символов. Если качество ниже порога — скан уходит на повторную обработку с предварительной коррекцией.

Разбиение на фрагменты (chunking)

Распознанный текст разрезается на фрагменты по 300–500 слов с перекрытием. Перекрытие нужно, чтобы не потерять контекст на стыке двух кусков: если нужная фраза попала на границу, она окажется в обоих соседних фрагментах.

Векторная база

Каждый фрагмент прогоняется через языковую модель и превращается в вектор. Все векторы складываются в специализированную векторную базу данных, оптимизированную для быстрого поиска ближайших соседей среди миллионов записей.

Гибридный поиск

Лучше всего работает гибрид: семантический поиск (по смыслу) + классический полнотекстовый (по ключевым словам). Семантика ловит синонимы и перефразировки, а ключевые слова — точные номера договоров, ИНН, даты. Результаты двух каналов объединяются и взвешиваются.

Переранжирование (re-ranking)

Первичный поиск возвращает 50–100 кандидатов. Затем более тяжёлая модель переранжирования оценивает каждого кандидата в паре с запросом и выстраивает финальный рейтинг. «Второй тур» — медленнее, но точнее, и работает только с короткими списками.

Интерфейс AzoneDoc: поиск на естественном языке с подсветкой результатов

Интерфейс поиска: запрос на естественном языке, подсветка релевантных фрагментов, фильтры

Результаты

Пилот на 800 000 сканов занял 3 месяца. После масштабирования на полный архив (5 млн документов) зафиксированы следующие показатели:

Метрика	Было	Стало	Изменение
Среднее время поиска документа	2–4 часа	1–3 минуты	×60–80 быстрее
Доля запросов без обращения в архив	~15%	~82%	+67 п.п.
Релевантность Top-3	—	78%	—
Релевантность Top-5	—	91%	—
Скорость индексации	—	~120 000 сканов/сут.	—
Экономия времени архивного отдела (12 чел.)	—	~950 чел.-ч/мес.	—
Подготовка пакета для аудита	3–5 рабочих дней	2–4 часа	×10–15 быстрее

Ключевой бизнес-эффект: подготовка документов для due diligence по сделке, которая раньше занимала 2–3 недели, теперь укладывается в 2–3 дня.

Время закрытия запроса по пяти типовым сценариям: до и после внедрения

Риски и как их закрывали

Безопасность и доступы

Не все документы доступны всем. Система интегрирована с корпоративным каталогом (Active Directory) и реализует ролевую модель доступа (RBAC). Сотрудник юридического отдела видит одну выдачу, сотрудник производственного — другую. Все поисковые запросы журналируются.

Утечки и конфиденциальность

Векторная база и модели развёрнуты на собственных серверах холдинга внутри защищённого контура. Никакие данные не передаются за периметр. Для обработки используются модели, которые запускаются локально.

Качество OCR и «мусорные» сканы

Часть архива оцифрована плохо: косые скан-копии, выцветшие чернила, двусторонние документы с просвечиванием. Для них применяется предобработка изображений (выравнивание, повышение контраста) перед OCR. Документы с неприемлемым качеством выносятся в отдельную очередь для ручной проверки.

Схема контура безопасности данных холдинга

Схема контура безопасности: данные не покидают инфраструктуру холдинга

Таймлайн проекта

От аудита до промышленной эксплуатации за 6–9 месяцев

1. Аудит архива

1 месяц

· Оценка объёмов
· Инвентаризация
· Анализ состояния

2. Планирование

1 месяц

· Определение целей
· Архитектура решения
· Выбор технологий

3. Пилотный проект

1–2 месяца

· Оцифровка образцов
· Настройка пайплайна
· Тестирование MVP

4. Доработка

2 месяца

· Устранение багов
· Расширение функционала
· Интеграция систем

5. Тестирование

1 месяц

· Контроль качества
· Пользовательские тесты
· Обучение персонала

6. Запуск

1 месяц

· Запуск системы
· Мониторинг
· Полное масштабирование

Вывод

Семантический поиск — это не экзотика. Это инженерная задача с известными решениями, проверенными стеками и реальными ROI-метриками. Если у вашей организации есть большой документальный архив и сотрудники тратят часы на поиск информации — это решаемо.

AzoneDoc разворачивается на вашей инфраструктуре: данные не покидают периметр, система интегрируется с 1С, SAP, Directum и ELMA. Обсудим ваш архив?

Решения AZONE-AI по теме

Документооборот

AzoneDoc

Семантический поиск по архиву на on-premise LLM. Сокращает время поиска с часов до минут. Интеграция с 1С, SAP, ELMA.

Подробнее о продукте

Начните с пилотного проекта

За 4–8 недель мы развернём решение на вашей инфраструктуре.

Обсудить пилот

Как ИИ сокращает время поиска документов с часов до минут

Контекст и проблема

Какие запросы приходят каждый день

Почему поиск по ключевым словам — тупик

OCR ошибается

Синонимы и вариации

Шум от печатей и штампов

Рукописные пометки

Решение: семантический ИИ-поиск

Как это работает

OCR и контроль качества

Разбиение на фрагменты (chunking)

Векторная база

Гибридный поиск

Переранжирование (re-ranking)

Результаты

Риски и как их закрывали

Безопасность и доступы

Утечки и конфиденциальность

Качество OCR и «мусорные» сканы

Таймлайн проекта

Вывод

Решения AZONE-AI по теме

AzoneDoc

Похожие статьи

Сравнение отечественных LLM: YandexGPT, GigaChat и альтернативы

On-premise LLM: как развернуть языковую модель внутри периметра

152-ФЗ и нейросети: как внедрить ИИ и не нарушить закон

Начните с пилотного проекта