Целью проекта была разработка инструмента для сбора актуальной информации о строительных организациях с портала checko.ru по специфическому классификатору деятельности (ОКВЭД 42.11 — Строительство автомобильных дорог). Проект решает задачу формирования базы потенциальных подрядчиков и партнеров, автоматизируя ручной поиск данных по ИНН, полным названиям и дополнительным видам деятельности организаций.
Стек технологий
Python, Selenium Webdriver, BeautifulSoup4 (bs4), JSON, HTML.
Для реализации проекта был использован стек Python в связке с Selenium и BeautifulSoup4. Основные этапы разработки:
Эмуляция действий пользователя с помощью Selenium для обхода динамической подгрузки данных и пагинации на портале.
Парсинг структуры HTML-страниц через BeautifulSoup4 для извлечения целевых полей: название, ИНН, полный список ОКВЭД и текстовое описание деятельности.
Обработка исключений и настройка задержек для обеспечения стабильности работы скрипта при парсинге больших объемов данных.
Проектирование логики сопоставления основного и дополнительных кодов ОКВЭД для фильтрации целевых компаний.
Создан масштабируемый скрипт, позволяющий получать структурированные данные и сохранять их в формате JSON для дальнейшей интеграции в CRM или аналитические системы. На выходе формируется массив данных, содержащий полную юридическую информацию о компаниях (пример: МБУ "ДОРСЕРВИС", ИНН 5003115016), включая перечень всех видов зарегистрированной деятельности. Инструмент сократил время на сбор базы данных в десятки раз по сравнению с ручным поиском.
cloud.mail.ru/public/4pKd/yhB6iD8UT cloud.mail.ru/public/i8Yh/emLoWxzLx cloud.mail.ru/public/4pKd/yhB6iD8UT cloud.mail.ru/public/Azup/32MqdPVA2