Команда превратила 134 страницы PDF‑каталога в структурированную базу и 358 SEO‑страниц — за 75 часов вместо сотен. Рассказываем, зачем здесь ИИ, как выстроить проверку качества и где чаще всего «ломается» автоматизация.
Когда ассортимент живёт в PDF, сайт неизбежно превращается в «витрину для скачивания». В свежем кейсе показали, как эту ситуацию развернули: данные из каталога разобрали в структуру, связали с «проблемами» (болезни, вредители, сорняки) и подготовили сотни посадочных страниц под поисковый спрос.
Что сделали и какие цифры получились
Исходник — PDF‑каталог на 134 страницы. Цель — не просто вытащить текст, а получить базу, из которой можно собирать страницы под разные запросы и регионы.
- Результат: 358 страниц под SEO‑сценарии и «вредные объекты».
- Срок: около 75 часов работы вместо оценки в 500+ часов при ручной обработке.
- Бюджет: 180 000 ₽ (включая работу и инструменты).
- Качество данных: заявлена точность 99,4% (356 из 358 объектов без ошибок в финальной проверке).
- Масштабирование: задумано размножение контента на региональные версии (60 поддоменов), где один «шаблон» превращается в тысячи вариантов.
Почему PDF — плохой источник для сайта
PDF удобен для печати, но для сайта он неудобен по природе: таблицы могут быть «нарисованы», переносы строк ломают структуру, а одинаковые сущности называются по‑разному. В агротематике добавляется ещё одна проблема — цена ошибки: перепутанная норма расхода или действующее вещество может стоить клиенту денег и репутации компании.
Как выстроили конвейер: ИИ + скрипты + контроль
Ключевая идея — разделить работу на этапы и на каждом держать проверяемый результат, чтобы не получить «красивую, но хрупкую» генерацию.
- Извлечение из PDF. ИИ использовали как «понимающего» парсера: он не просто копирует текст, а раскладывает его по полям (название, действующее вещество, нормы, культуры и ограничения).
- Нормализация и склейка справочников. После ИИ идёт скриптовая часть (Python/pandas): приведение названий к единому виду, устранение дублей и проверка соответствий.
- Мэппинг “проблема → продукт”. Связи строятся на основе структуры данных: какой препарат к чему подходит и при каких условиях.
- Региональная матрица. Контент подстраивается под зоны и сезонность: один и тот же запрос в разных регионах «значит» разное из‑за фаз и сроков работ.
- SEO‑подготовка. Страницы собираются так, чтобы их можно было сопровождать: мета‑данные, структура заголовков, внутренняя перелинковка — без ручного переписывания сотен карточек.
Практические выводы для владельцев сайтов на 1С‑Битрикс
- Не начинайте с генерации текста. Сначала соберите «скелет» данных: справочники, связи, правила. Иначе получите массу страниц, которые сложно обновлять и проверять.
- Делайте проверки обязательной частью процесса. Даже если точность высокая, ошибки будут — важно, чтобы они ловились до публикации.
- Думайте об обновлениях заранее. Каталоги меняются: если конвейер не умеет переобновлять данные, вся экономия исчезает на втором цикле.
- Оценивайте риски отрасли. В темах, где цена ошибки велика, «быстрее» должно идти вместе с «надёжнее», а не вместо него.
Итог: кейс интересен не только цифрами, но и подходом: ИИ выступает не заменой специалиста, а ускорителем рутинных частей — при условии, что рядом есть нормализация, правила и контроль качества.
