Назад к блогу
Кейсы

Как ИИ сокращает время поиска документов с часов до минут

Разбор кейса внедрения нейросетевого архива в крупном промышленном холдинге. Семантический поиск по архиву из 5 миллионов скан-копий.

15 сентября 2025 6 мин чтения

Контекст и проблема

Крупный промышленный холдинг потратил два года на оцифровку бумажного архива — и получил 5 миллионов файлов, в которых невозможно ничего найти. Рассказываем, как семантический поиск на базе ИИ решил эту задачу и что нужно, чтобы повторить результат у себя.

Типичный архив крупного холдинга — это договоры, акты, счета-фактуры, протоколы, приказы, техническая документация и переписка за 15–20 лет. После сканирования всё это превращается в 5 миллионов PDF-файлов на сетевых хранилищах. Часть документов отсканирована ровно и чётко, часть — это кривые скан-копии с пятнами и рукописными пометками.

Формально оцифровка завершена. Фактически — сотрудники продолжают звонить в архив и ждать, пока оператор вручную найдёт нужный скан. Причина проста: у большинства файлов нет нормальных метаданных. Имена вроде scan_0048712.pdf не говорят ни о чём, а ручная разметка 5 миллионов документов нереальна.

Какие запросы приходят каждый день

«Найди договор с «Волга-Транс» на перевозку за 2019 год, там ещё была пролонгация»
«Нужен акт сверки с контрагентом, ИНН 7712345678, за третий квартал 2021»
«Покажи все протоколы совета директоров, где обсуждали сделку по покупке завода в Тольятти»
«Есть ли доверенность на Иванова А. П. с правом подписи актов?»
«Техническое заключение по аварии на участке №3, сентябрь 2022»

Ни один из этих запросов не решается простым поиском по имени файла.

Путь запроса до и после внедрения: 2–4 часа vs 30 секунд

Типовой маршрут поискового запроса: было и стало

Почему поиск по ключевым словам — тупик

Первая мысль: «Давайте прогоним всё через OCR и будем искать по тексту». Звучит логично, но на практике разбивается о несколько стен.

OCR ошибается

Даже хорошие движки на сканах среднего качества дают 2–5% ошибок посимвольно. «Договор» превращается в «Дoговор» (с латинской «o»), номер «ДП-2018/0451» — в «ДП-2О18/О451». Полнотекстовый поиск по точному совпадению такие документы не найдёт.

Синонимы и вариации

Один и тот же документ в разных подразделениях называют «договор», «контракт», «соглашение». Акт выполненных работ — «акт сдачи-приёмки», «закрывающий акт», просто «закрывашка». Ключевое слово ловит только одну формулировку.

Шум от печатей и штампов

OCR пытается распознать текст внутри круглых печатей и угловых штампов. Результат — мусорные строки, которые засоряют индекс и снижают точность.

Рукописные пометки

Резолюции, визы, подписи — всё это добавляет «фантомный» текст в распознанный слой.

В итоге классический полнотекстовый поиск по OCR-тексту находит в лучшем случае 40–60% релевантных документов. Остальное — ручная работа.

Решение: семантический ИИ-поиск

Идея семантического поиска в том, что система ищет не по буквальному совпадению слов, а по смыслу. Каждый фрагмент текста (страница или абзац) превращается в числовой вектор — набор из нескольких сотен чисел, который кодирует смысл написанного.

Когда сотрудник вводит запрос, система превращает его в такой же вектор и находит ближайшие по смыслу фрагменты в базе. «Договор на перевозку» найдёт и «контракт на транспортные услуги», и «соглашение о грузоперевозках» — потому что смысл один.

Важно: поиск идёт по фрагментам и страницам, а не только по целым документам. Система указывает конкретную страницу 47-страничного контракта, где упоминается нужное условие.
Схема конвейера: от скана до результатов поиска

Конвейер обработки: от скана до поиска по смыслу

Как это работает

1

OCR и контроль качества

На входе — скан. OCR-движок распознаёт текст, а параллельно система оценивает качество: уровень уверенности распознавания, наличие перекосов, процент «мусорных» символов. Если качество ниже порога — скан уходит на повторную обработку с предварительной коррекцией.

2

Разбиение на фрагменты (chunking)

Распознанный текст разрезается на фрагменты по 300–500 слов с перекрытием. Перекрытие нужно, чтобы не потерять контекст на стыке двух кусков: если нужная фраза попала на границу, она окажется в обоих соседних фрагментах.

3

Векторная база

Каждый фрагмент прогоняется через языковую модель и превращается в вектор. Все векторы складываются в специализированную векторную базу данных, оптимизированную для быстрого поиска ближайших соседей среди миллионов записей.

4

Гибридный поиск

Лучше всего работает гибрид: семантический поиск (по смыслу) + классический полнотекстовый (по ключевым словам). Семантика ловит синонимы и перефразировки, а ключевые слова — точные номера договоров, ИНН, даты. Результаты двух каналов объединяются и взвешиваются.

5

Переранжирование (re-ranking)

Первичный поиск возвращает 50–100 кандидатов. Затем более тяжёлая модель переранжирования оценивает каждого кандидата в паре с запросом и выстраивает финальный рейтинг. «Второй тур» — медленнее, но точнее, и работает только с короткими списками.

Интерфейс AzoneDoc: поиск на естественном языке с подсветкой результатов

Интерфейс поиска: запрос на естественном языке, подсветка релевантных фрагментов, фильтры

Результаты

Пилот на 800 000 сканов занял 3 месяца. После масштабирования на полный архив (5 млн документов) зафиксированы следующие показатели:

Метрика Было Стало Изменение
Среднее время поиска документа 2–4 часа 1–3 минуты ×60–80 быстрее
Доля запросов без обращения в архив ~15% ~82% +67 п.п.
Релевантность Top-3 78%
Релевантность Top-5 91%
Скорость индексации ~120 000 сканов/сут.
Экономия времени архивного отдела (12 чел.) ~950 чел.-ч/мес.
Подготовка пакета для аудита 3–5 рабочих дней 2–4 часа ×10–15 быстрее
Ключевой бизнес-эффект: подготовка документов для due diligence по сделке, которая раньше занимала 2–3 недели, теперь укладывается в 2–3 дня.
Время закрытия запроса по пяти типовым сценариям: до и после внедрения

Время закрытия запроса по пяти типовым сценариям: до и после внедрения

Риски и как их закрывали

Безопасность и доступы

Не все документы доступны всем. Система интегрирована с корпоративным каталогом (Active Directory) и реализует ролевую модель доступа (RBAC). Сотрудник юридического отдела видит одну выдачу, сотрудник производственного — другую. Все поисковые запросы журналируются.

Утечки и конфиденциальность

Векторная база и модели развёрнуты на собственных серверах холдинга внутри защищённого контура. Никакие данные не передаются за периметр. Для обработки используются модели, которые запускаются локально.

Качество OCR и «мусорные» сканы

Часть архива оцифрована плохо: косые скан-копии, выцветшие чернила, двусторонние документы с просвечиванием. Для них применяется предобработка изображений (выравнивание, повышение контраста) перед OCR. Документы с неприемлемым качеством выносятся в отдельную очередь для ручной проверки.

Схема контура безопасности данных холдинга

Схема контура безопасности: данные не покидают инфраструктуру холдинга

Таймлайн проекта

Таймлайн проекта: от аудита до промышленной эксплуатации

От аудита до промышленной эксплуатации за 6–9 месяцев

1. Аудит архива
1 месяц
  • · Оценка объёмов
  • · Инвентаризация
  • · Анализ состояния
2. Планирование
1 месяц
  • · Определение целей
  • · Архитектура решения
  • · Выбор технологий
3. Пилотный проект
1–2 месяца
  • · Оцифровка образцов
  • · Настройка пайплайна
  • · Тестирование MVP
4. Доработка
2 месяца
  • · Устранение багов
  • · Расширение функционала
  • · Интеграция систем
5. Тестирование
1 месяц
  • · Контроль качества
  • · Пользовательские тесты
  • · Обучение персонала
6. Запуск
1 месяц
  • · Запуск системы
  • · Мониторинг
  • · Полное масштабирование

Вывод

Семантический поиск — это не экзотика. Это инженерная задача с известными решениями, проверенными стеками и реальными ROI-метриками. Если у вашей организации есть большой документальный архив и сотрудники тратят часы на поиск информации — это решаемо.

AzoneDoc разворачивается на вашей инфраструктуре: данные не покидают периметр, система интегрируется с 1С, SAP, Directum и ELMA. Обсудим ваш архив?

Начните с пилотного проекта

За 4–8 недель мы развернём решение на вашей инфраструктуре.

Обсудить пилот