30+ парсеров для сбора данных с любого сайта

Содержание

Как используют полученные данные

У веб-скрапинга/парсинга очень широкий спектр применений. Например:

1. Отслеживание цен

Собирая информацию о товарах и их ценах, например, на Amazon или других платформах, вы сможете корректировать цены, чтобы опередить конкурентов.

2. Рыночная и конкурентная разведка

Если вы хотите поработать на новом рынке, то сначала нужно оценить свои шансы, а принять взвешенное решение поможет как раз сбор и анализ данных. 

3. Модернизация сайтов

Когда компании переносят устаревшие сайты на современные платформы, они используют скрапинг сайта для быстрой и легкой выгрузки данных.

5. Анализ эффективности контента

Блогеры и контентмейкеры используют скрапинг для извлечения статистики о своих постах, видео, твитах в таблицу. Например, в этом видео автор статьи получает данные из его профиля на сайте Medium, используя веб-скрапер:

Данные в таком формате:

  • легко сортируются и редактируются;
  • всегда доступны для повторного использования;
  • можно преобразовать в графики.

Десктопные и облачные парсеры

Облачные парсеры

Основное преимущество облачных парсеров — не нужно ничего скачивать и устанавливать на компьютер. Вся работа производится «в облаке», а вы только скачиваете результаты работы алгоритмов. У таких парсеров может быть веб-интерфейс и/или API (полезно, если вы хотите автоматизировать парсинг данных и делать его регулярно).

Например, вот англоязычные облачные парсеры:

  • Import.io,
  • Mozenda (доступна также десктопная версия парсера),
  • Octoparce,
  • ParseHub.

Из русскоязычных облачных парсеров можно привести такие:

  • Xmldatafeed,
  • Диггернаут,
  • Catalogloader.

Любой из сервисов, приведенных выше, можно протестировать в бесплатной версии. Правда, этого достаточно только для того, чтобы оценить базовые возможности и познакомиться с функционалом. В бесплатной версии есть ограничения: либо по объему парсинга данных, либо по времени пользования сервисом.

Десктопные парсеры

Большинство десктопных парсеров разработаны под Windows — на macOS их необходимо запускать с виртуальных машин. Также некоторые парсеры имеют портативные версии — можно запускать с флешки или внешнего накопителя.

Популярные десктопные парсеры:

  • ParserOK,
  • Datacol,
  • Screaming Frog, ComparseR, Netpeak Spider — об этих инструментах чуть позже поговорим подробнее.

Законно ли это?

Законодательство РФ не предусматривает какого-либо запрета на сбор информации, размещенной в открытом доступе, причем соответствующее право на сбор, равно как и распространение информации, используя для этого любые законные способы, закреплено в Конституции.

Так, в том случае, если требуется осуществить парсинг цен с сайта конкурента, то это не будет противоречить законодательству, так как подобная информация размещена в открытом доступе, а использование парсинга лишь ускоряет время для ее получения. Однако если при помощи парсера планируется собрать персональные данные пользователей, с последующим их использованием в таргетированной рекламе, то здесь уже будет иметь место нарушение закона о защите персональных данных.

Возможности#

  • Многостраничный парсинг (переход по страницам)
  • Автоматическая работа с прокси
  • Проверка успешного ответа по коду или по содержимому страницы
  • Поддерживает сжатия gzip/deflate/brotli
  • Определение и преобразование кодировок сайтов в UTF-8
  • Обход защиты CloudFlare
  • Выбор движка (HTTP или Chrome)
  • Опция Check content – выполняет указанное регулярное выражение на полученной странице. Если выражение не сработало, страница будет загружена заново с другой прокси.
  • Опция Use Pages – позволяет перебрать указанное количество страниц с определенным шагом. Переменная содержит текущий номер страницы при переборе.
  • Опция Check next page – необходимо указывать регулярное выражение, которое будет извлекать ссылку на следующую страницу (обычно кнопка «Вперёд»), если она существует. Переход между страницами осуществляется в рамках указанного лимита (0 — без ограничений).
  • Опция Page as new query – переход на следующую страницу происходит в новом запросе. Позволяет убрать ограничение на количество страниц для перехода.

Как найти парсер под конкретные задачи

Существует несколько вариантов решения данного вопроса. В том случае, если в штате есть программист, достаточно просто поставить перед ним соответствующую задачу, в результате получив инструмент, заточенный под решение конкретных вопросов, причем в случае необходимости может проводиться донастройка. Кроме того, можно воспользоваться облачными, либо десктопными парсерами, однако последние, хотя и обладают более широким функционалом, в подавляющем большинстве случаев являются платными.

Те, для кого финансовый вопрос не стоит слишком остро, могут обратиться в компанию, специализирующуюся на разработке парсеров. Готовых решений слишком много, причем как платных, так и бесплатных, а для того, чтобы несколько упростить выбор наиболее подходящего инструмента, далее будут рассмотрены самые популярные парсеры.

Как работает парсинг и какой контент можно парсить своими руками или автоматически

Вам удастся получить любую информацию (текстовую или медийную), которая находится в открытом доступе, например:

Названия товаров, карточек и категорий, в которые они обобщены.
Характеристики

Особенно важно для бытовой техники, смартфонов.
Стоимость, наличие скидки.
Изменение товарного ряда, добавление новых позиций.
Описание услуг или продаваемых предметов.
Изображения. Но с ними следует работать аккуратнее, они могут быть авторскими, а значит, их использование уже будет незаконным.

Мы очень не рекомендуем перезаливать полученный текст на свою страничку в надежде, что он пройдет через фильтры поисковых систем. Скорее всего, они сразу вас забанят при попытке продвинуть такой неуникальный ресурс.

Поищите JSON в HTML коде страницы

Как было удобно с XHR запросами, да? Ощущение, что ты используешь официальное API. Приходит много данных, ты все сохраняешь в базу. Ты счастлив. Ты бог парсинга.

Но тут надо парсить другой сайт, а там нет нужных GET/POST запросов! Ну вот нет и все. И ты думаешь: неужели расчехлять XPath/CSS-selectors? Нет!

Чтобы страница хорошо проиндексировалась поисковиками, необходимо, чтобы в HTML коде уже содержалась вся полезная информация: поисковики не рендерят Javascript, довольствуясь только HTML. А значит, где-то в коде должны быть все данные.

Современные SSR-движки (server-side-rendering) оставляют внизу страницы JSON со всеми данные, добавленный бекендом при генерации страницы. Стоп, это же и есть ответ API, который нам нужен!

Вот несколько примеров, где такой клад может быть зарыт (не баньте, плиз):

Красивый JSON на главной странице Habr.com. Почти официальный API! Надеюсь, меня не забанят.И наш любимый (у парсеров) Linkedin!

Алгоритм действий такой:

  1. В dev tools берете самый первый запрос, где браузер запрашивает HTML страницу (не код текущий уже отрендеренной страницы, а именно ответ GET запроса).

  2. Внизу ищите длинную длинную строчку с данными.

  3. Если нашли — повторяете у себя в парсере этот GET запрос страницы (без рендеринга headless браузерами). Просто.

  4. Вырезаете JSON из HTML любыми костылямии (я использую ).

Что такое скрапинг данных?

К категории полезных данных могут относиться:

  • каталог товаров;
  • изображения;
  • видео;
  • текстовый контент;
  • открытые контактные данные — адреса электронной почты, телефоны и другая информация.

Это легальная техника, но иногда способы использования этих данных могут быть незаконными. Например, в октябре 2020 года Facebook подал жалобу в федеральный суд США против двух компаний, обвиняемых в использовании двух вредоносных расширений для браузера Chrome. Эти расширения позволяют выполнять скрапинг данных без авторизации в Facebook, Instagram, Twitter, LinkedIn, YouTube и Amazon.

Оба расширения собирали публичные и непубличные данные пользователей. Компании же продавали эти данные, которые после использовались для маркетинговой разведки — это нелегально.

Возможные настройки#

important
Название параметра Значение по умолчанию Описание
Good status All Выбор какой ответ с сервера будет считается успешным. Если при парсинге будет другой ответ от сервера, то запрос будет повторен с другим прокси
Good code RegEx Возможность указать регулярное выражения для проверки кода ответа
Method GET Метод запроса
POST body Контент для передачи на сервер при использовании метода POST. Поддерживает переменные – URL запроса, – исходный запрос и — номер страницы при использовании опции Use Pages.
Cookies Возможность указать cookies для запроса.
User agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) Заголовок User-Agent при запросе страниц
Additional headers Возможность указать произвольные заголовки запроса с поддержкой возможностей шаблонизатора и использованием переменных из конструктора запросов
Read only headers Читать только заголовки. В некоторых случаях позволяет экономить трафик, если нет необходимости обрабатывать контент
Detect charset on content Распознавать кодировку на основе содержимого страницы
Emulate browser headers Эмулировать заголовки браузера
Max redirects count 7 Максимальное кол-во редиректов, по которым будет переходить парсер
Max cookies count 16 Максимальное число cookies для сохранения
Bypass CloudFlare Автоматический обход проверки CloudFlare
Follow common redirects Позволяет делать редиректы http <-> https и www.domain <-> domain в пределах одного домена в обход лимита Max redirects count
Engine HTTP (Fast, JavaScript Disabled) Позволяет выбрать движок HTTP (быстрее, без JavaScript) или Chrome (медленнее, JavaScript включен)
Chrome Headless Если опция включена, браузер не будет отображаться
Chrome DevTools Позволяет использовать инструменты для отладки Chromium
Chrome Log Proxy connections Если опция включена, в лог будет выводиться информация по подключениям chrome
Chrome Wait Until networkidle2 Определяет, когда страница считается загруженной. Подробнее о значениях.
Use HTTP/2 transport Определяет, использовать ли HTTP/2 вместо HTTP/1.1. Например, Google и Majestic сразу банят, если использовать HTTP/1.1.
Don’t verify TLS certs Отключение валидации TLS сертификатов
Bypass CloudFlare with Chrome(Experimental) Обход CF через Chrome
Bypass CloudFlare with Chrome Max Pages Макс. кол-во страниц при обходе CF через Chrome

Отрендерите JS через Headless Browsers

Если XHR запросы требуют актуальных tokens, sessions, cookies. Если вы нарываетесь на защиту Cloudflare. Если вам обязательно нужно логиниться на сайте. Если вы просто решили рендерить все, что движется загружается, чтобы минимизировать вероятность бана. Во всех случаях — добро пожаловать в мир автоматизации браузеров!

Если коротко, то есть инструменты, которые позволяют управлять браузером: открывать страницы, вводить текст, скроллить, кликать. Конечно же, это все было сделано для того, чтобы автоматизировать тесты веб интерфейса. I’m something of a web QA myself.

После того, как вы открыли страницу, чуть подождали (пока JS сделает все свои 100500 запросов), можно смотреть на HTML страницу опять и поискать там тот заветный JSON со всеми данными.

Selenoid — open-source remote Selenium cluster

Для масштабируемости и простоты, я советую использовать удалённые браузерные кластеры (remote Selenium grid).

Недавно я нашел офигенный опенсорсный микросервис Selenoid, который по факту позволяет вам запускать браузеры не у себя на компе, а на удаленном сервере, подключаясь к нему по API. Несмотря на то, что Support team у них состоит из токсичных разработчиков, их микросервис довольно просто развернуть (советую это делать под VPN, так как по умолчанию никакой authentication в сервис не встроено). Я запускаю их сервис через DigitalOcean 1-Click apps: 1 клик — и у вас уже создался сервер, на котором настроен и запущен кластер Headless браузеров, готовых запускать джаваскрипт!

Вот так я подключаюсь к Selenoid из своего кода: по факту нужно просто указать адрес запущенного Selenoid, но я еще зачем-то передаю кучу параметров бразеру, вдруг вы тоже захотите. На выходе этой функции у меня обычный Selenium driver, который я использую также, как если бы я запускал браузер локально (через файлик chromedriver).

Заметьте фложок . Верно, вы сможете смотреть видосик с тем, что происходит на удалённом браузере. Всегда приятно наблюдать, как ваш скрипт самостоятельно логинится в Linkedin: он такой молодой, но уже хочет познакомиться с крутыми разработчиками.

Parsing

Данный механизм действует по заданной программе и сопоставляет определенный набор слов, с тем, что нашлось в интернете. Как поступать с полученной информацией, написано в командной строке, называемой «регулярное выражение». Она состоит из символов и задает правило поиска.

Фактически понятие переводится с английского языка как семантический анализ или разбор. Но термин, применяемый в технологиях создания и наполнения вебсайта, имеет более широкое значение. Это процедура, действие, предполагающее многостороннее исследование страницы, документа, целого раздела на предмет нахождения лексических, грамматических единиц или иных элементов (не только текста, но и видео-, аудио-контента) с последующей систематизацией. Искомые сведения находятся и преобразуются, они подготавливаются для дальнейшей работы с ними. Еще можно сказать, что это быстрая оценка и скорая обработка интернет-ресурса, данных с него. Вручную подобный процесс занял бы много времени, но автоматизация его значительно упрощает.

Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

Второе название для процедуры – скраппинг, или скрейпинг от англоязычного «scraping». В ходе этого буквального «соскабливания» программное обеспечение заходит на вебсайт под видом обыкновенного пользователя и, используя скрипты, производит сбор данных.

Исходником может быть ваш собственный веб-ресурс (для аналитики и принятия последующих решений), сайт конкурента, страничка из социальных сетей и пр. Полученным результатом можно будет пользоваться в дальнейшем по усмотрению владельца. Приведем понятный пример. По такому принципу работают поисковые системы, когда они анализируют страницы на релевантность, наличие ключевых слов из запроса и соответствие тематике, а затем на основе полученных сведений автоматически формируется выдача.

Популярные парсеры для SEO

PromoPult

Данный парсер метатегов и заголовков позволяет убрать дубли метатегов, а также выявить неинформативные заголовки, будучи особо полезным при анализе SEO конкурентов. Первые пятьсот запросов – бесплатно, а далее придется заплатить 0,01 рубля за запрос при объеме от десяти тысяч.

Работа сервиса происходит «в облаке», а для начала потребуется добавить список URL и указать страницы, парсинг которых следует осуществить. Благодаря данному парсеру можно проанализировать ключевые слова, используемые конкурентами с целью оптимизации страниц сайта, а также изучить, как происходит формирование заголовков.

Предназначен для комплексного анализа сайтов, что позволяет провести анализ основных SEO-параметров, осуществить технический анализ сайта, а также импортировать данные как из Google Аналитики, так и Яндекс.Метрики. Предоставляется тестовый период длительностью в 14 дней, а стоимость начинается от 19 долларов в месяц.

Screaming Frog SEO Spider

Данный парсер является идеальным решением для любых SEO-задач. Лицензию на год можно приобрести за 149 фунтов, однако есть и бесплатная версия, отличающаяся ограниченным функционалом, в то время как количество URL для парсинга не может превышать отметку в пятьсот.

ComparseR

С помощью данного десктопного парсера можно выявить страницы, которые обходит поисковый робот во время сканирования сайта, а также провести технический анализ портала. Есть демоверсия с некоторыми ограничениями, а лицензию можно приобрести за две тысячи рублей.

Анализ от PR-CY

Представляет собой онлайн-ресурс для анализа сайтов по достаточно подробному списку параметров. Минимальный тариф составляет 990 рублей в месяц, а тестирование, с полным доступом к функционалу, можно провести в течение семи дней.

Анализ от SE Ranking

Стоимость минимального тарифа данного облачного сервиса составляет от семи долларов в месяц, при оформлении годовой подписки, причем возможна как подписка, так и оплата за каждую проверку. Сервис позволяет проверить скорость загрузки страниц, проанализировать метатеги. Выявить технические ошибки, а также провести анализ внутренних ссылок.

Xenu`s Link Sleuth

Данный бесплатный десктопный парсер предназначен для Windows и используется для парсинга всех URL, имеющихся на сайте, а также применяется с целью обнаружения неработающих ссылок.

Представляет собой SEO-комбайн, отличающийся многофункциональностью, причем минимальный тарифный план лицензии, носящей пожизненный характер, составляет 119 долларов, в то время как максимальный – 279. Демоверсия присутствует. Данный инструмент позволяет осуществить парсинг ключевых слов и провести мониторинг позиций, занимаемых сайтом в поисковых системах.

Чек-лист по выбору парсера

Краткий чек-лист, который поможет выбрать наиболее подходящий инструмент или сервис.

  1. Четко определите, для каких задач вам нужен парсер: анализ SEO конкурентов или мониторинг цен, сбор данных для наполнения каталога, съем позиций и т.д.
  2. Определите, какой объем данных и в каком виде нужно получать.
  3. Определите, как часто вам нужно собирать данные: единоразово или с определенной периодичностью (раз в день/неделю/месяц).
  4. Выберите несколько инструментов, которые подходят для решения ваших задач. Попробуйте демо-версии. Узнайте, предоставляется ли техническая поддержка (желательно даже протестировать ее — задать парочку вопросов и посмотреть, как быстро вы получите ответ и насколько он будет исчерпывающим).
  5. Выберите наиболее подходящий сервис по соотношению цена/качество.

Для крупных проектов, где требуется парсить большие объемы данных и производить сложную обработку, более выгодной может оказаться разработка собственного парсера под конкретные задачи.

Виды парсеров по сферам применения

Для организаторов СП (совместных покупок)

Есть специализированные парсеры для организаторов совместных покупок (СП). Их устанавливают на свои сайты производители товаров (например, одежды). И любой желающий может прямо на сайте воспользоваться парсером и выгрузить весь ассортимент.

Чем удобны эти парсеры:

  • интуитивно понятный интерфейс;
  • возможность выгружать отдельные товары, разделы или весь каталог;
  • можно выгружать данные в удобном формате. Например, в Облачном парсере доступно большое количество форматов выгрузки, кроме стандартных XLSX и CSV: адаптированный прайс для Tiu.ru, выгрузка для Яндекс.Маркета и т. д.

Популярные парсеры для СП:

  • SPparser.ru,
  • Облачный парсер,
  • Турбо.Парсер,
  • PARSER.PLUS,
  • Q-Parser.

Вот три таких инструмента:

  • Marketparser,
  • Xmldatafeed,
  • ALL RIVAL.

Парсеры для быстрого наполнения сайтов

Такие сервисы собирают названия товаров, описания, цены, изображения и другие данные с сайтов-доноров. Затем выгружают их в файл или сразу загружают на ваш сайт. Это существенно ускоряет работу по наполнению сайта и экономят массу времени, которое вы потратили бы на ручное наполнение.

В подобных парсерах можно автоматически добавлять свою наценку (например, если вы парсите данные с сайта поставщика с оптовыми ценами). Также можно настраивать автоматический сбор или обновление данных по расписания.

Примеры таких парсеров:

  • Catalogloader,
  • Xmldatafeed,
  • Диггернаут.

Парсите HTML теги

Если случилось чудо и у сайта нет ни официального API, ни вкусных XHR запросов, ни жирного JSON внизу HTML, если рендеринг браузерами вам тоже не помог, то остается последний, самый нудный и неблагодарный метод. Да, это взять и начать парсить HTML разметку страницы. То есть, например, из достать ссылку. Это можно делать как простыми регулярными выражениями, так и через более умные инструменты (в питоне это BeautifulSoup4 и Scrapy) и фильтры (XPath, CSS-selectors).

Мой единственный совет: постараться минимизировать число фильтров и условий, чтобы меньше переобучаться на текущей структуре HTML страницы, которая может измениться в следующем A/B тесте.

Виды парсеров по используемой технологии

Браузерные расширения

Данный вариант следует использовать в том случае. Если требуется собрать достаточно небольшие объемы данных, а среди наиболее популярных парсеров для Google Chrome можно выделить Parsers, Data Scraper, Kimono.

Надстройки для Excel

В данном случае используются макросы, а результаты парсинга, выполненного, например, при помощи ParserOK, выгружаются в XLS или CSV.

Google таблицы

Данные с XML-фидов, равно как и других источников, можно собирать при помощи формулы IMPORTXML, причем тратить время на изучение XPath-запросов не потребуется, в то время как инструмент позволяет собирать с html-страниц практически любые данные. Еще одна формула, а именно IMPORTHTML, обладает не столь широким функционалом, позволяя получить данные из таблиц, равно как и списков на странице.

Видеоинструкция по оформлению заказа на парсер

(смотреть на YouTube)

Чтобы заказать парсер сайта, отправьте на почту order@excelvba.ru
письмо с темой «Заказ парсера сайта», и в этом письме:

1) прикрепите ПРИМЕР РЕЗУЛЬТАТА в виде файла Excel,
содержащий строку заголовка, и как минимум одну строку с данными

Посмотреть пример файла Excel

Пожелания к оформлению файла-примера

  1. если файл содержит исходные данные (например, список ссылок или артикулов, по которым надо загружать данные) — в примере должно быть минимум 20-30 строк с исходными значениями (пример результата — в доп столбцах — может быть прописан для одной строки, но исходных значений, для тестирования парсера, должно быть несколько, — чем больше, тем лучше)
  2. расположите столбцы в нужном порядке, — именно в таком виде парсер будет выдавать результат
  3. если хотите, чтобы программа автоматически создавала / сохраняла файл результата, — укажите, в какой папке под каким именем сохранять
  4. пример нужен в виде файла Excel или CSV (а не скриншот). Если CSV нужен для импорта на сайт, — прикрепите пример файла CSV в нужной кодировке.

2) опишите, с какого сайта какие данные нужно брать

Интересует не только адрес сайта, — но и как найти на сайте нужные данные (например, получить полный список всех товаров)

Касательно возможных ограничений сайта (лимиты, капча, и пр.)

Такое встречается очень редко (только для порталов с огромной посещаемостью, — типа Google, Яндекс, Авито, Beru, Ozon, и т.п.), — но, тем не менее, я всегда об этом предупреждаю:

Парсер — не какая-то волшебная программа, которая сможет обойти ограничения, сделанные для людей.
Если сайт выдаёт капчу (требует ввести текст с картинки) — потребуется настраивать автораспознавание капчи, или же пользователю парсера придётся вводить этот текст во всплывающем окне (наличие капчи усложняет настройку, что сказывается на стоимости)
Если сайт позволяет загрузить не более 100 страниц в сутки, — парсер не сможет обойти это ограничение (в таких случаях, иногда настройка парсера становится бессмысленной)
Потому, если вы знаете о каких-то ограничениях сайта, — сразу укажите это при заказе (чтобы можно было оценить сложность и возможность получения необходимых данных с сайта)

После отправки заказа парсера на почту order@excelvba.ru,
с вами свяжется наш сотрудник, который займётся настройкой парсера для вас, — с ним уже обсудите нюансы (если из задания будет не всё понятно) и стоимость настройки.

Парсеры по сферам применения

Для организаторов совместных покупок

Данная категория парсеров обычно устанавливается на сайты производителей товаров, чтобы любой пользователь, в случае необходимости, мог выгрузить весь ассортимент. Интуитивно понятный интерфейс позволяет осуществлять выгрузку как всего каталога, так и отдельных товаров, причем данные могут быть представлены в любом удобном формате. К числу наиболее популярных подобных парсеров относятся Турбо.Парсер, Облачный парсер, Q-Parser.

Парсеры цен конкурентов

Парсеры для наполнения сайтов

В данном случае с сайтов-доноров собираются названия товаров, а также описания, изображения и цены, с последующим размещением на портале, что значительно ускоряет работу по его наполнению. Подобные парсеры дают возможность автоматически добавлять свою наценку, а также обновлять данные по расписанию. В качестве примера можно привести Catalogloader и Диггернаут.

Парсеры для SEO

В данном случае имеют место парсеры, предназначенные для максимального упрощения анализа оптимизации сайта. Подобные инструменты позволяют провести анализ robots.txt и sitemap.xml, проверить коды ответа страниц, обнаружить недействительные ссылки, а также проанализировать метатеги.

Интегрировано с

Zapier автоматически перемещает данные между вашими веб-приложениями.

Zapier |
Использование

Tableau — Business Intelligence платформа, лидер рынка платформ для бизнес-аналитики.

Tableau |
Использование

Еще один сервис с помощью которого вы сможете обходить капчи любой сложности.

rucaptcha |
Использование

С помощью сервиса Anti-captcha вы можете обходить капчи любой сложности.

Anti-captcha |
Использование

Luminati, это прокси сервис, который позволит вам иметь любое количество IP адресов.

Luminati |
Использование

С помощью сервиса Death by Captcha вы можете обходить капчи любой сложности.

Deathbycaptcha |
Использование

Proxy-Sellers предоставляют прокси из более чем 100 сетей и 300 различных подсетей.

Proxy-Seller |
Использование

Инфраструктура поддерживает миллиарды скраперов каждый месяц.

Blazing SEO |
Использование

A-Parser — парсер для профессионалов#

A-Parser — многопоточный парсер поисковых систем, сервисов оценки сайтов, ключевых слов, контента(текст, ссылки, произвольные данные) и других различных сервисов(youtube, картинки, переводчик…), A-Parser содержит более 90 встроенных парсеров.

Ключевыми особенностями A-Parser является поддержка платформ Windows/Linux, веб интерфейс с возможностью удаленного доступа, возможность создания своих собственных парсеров без написания кода, а также возможность создавать парсеры со сложной логикой на языке JavaScript / TypeScript с поддержкой NodeJS модулей.

Производительность, работа с прокси, обход защиты CloudFlare, быстрый HTTP движок, поддержка управления Chrome через puppeteer, управлением парсером по API и многое другое делают A-Parser уникальным решением, в данной документации мы постараемся раскрыть все преимущества A-Parser и способы его использования.

Парсеры поисковых систем#

Название парсера Описание
SE::Google Парсинг всех данных с поисковой выдачи Google: ссылки, анкоры, сниппеты, Related keywords, парсинг рекламных блоков. Многопоточность, обход ReCaptcha
SE::Yandex Парсинг всех данных с поисковой выдачи Yandex: ссылки, анкоры, сниппеты, Related keywords, парсинг рекламных блоков. Максимальная глубина парсинга
SE::AOL Парсинг всех данных с поисковой выдачи AOL: ссылки, анкоры, сниппеты
SE::Bing Парсинг всех данных с поисковой выдачи Bing: ссылки, анкоры, сниппеты, Related keywords, Максимальная глубина парсинга
SE::Baidu Парсинг всех данных с поисковой выдачи Baidu: ссылки, анкоры, сниппеты, Related keywords
SE::Baidu Парсинг всех данных с поисковой выдачи Baidu: ссылки, анкоры, сниппеты, Related keywords
SE::Dogpile Парсинг всех данных с поисковой выдачи Dogpile: ссылки, анкоры, сниппеты, Related keywords
SE::DuckDuckGo Парсинг всех данных с поисковой выдачи DuckDuckGo: ссылки, анкоры, сниппеты
SE::MailRu Парсинг всех данных с поисковой выдачи MailRu: ссылки, анкоры, сниппеты
SE::Seznam Парсер чешской поисковой системы seznam.cz: ссылки, анкоры, сниппеты, Related keywords
SE::Yahoo Парсинг всех данных с поисковой выдачи Yahoo: ссылки, анкоры, сниппеты, Related keywords, Максимальная глубина парсинга
SE::Youtube Парсинг данных с поисковой выдачи Youtube: ссылки, название, описание, имя пользователя, ссылка на превью картинки, кол-во просмотров, длина видеоролика
SE::Ask Парсер американской поисковой выдачи Google через Ask.com: ссылки, анкоры, сниппеты, Related keywords
SE::Rambler Парсинг всех данных с поисковой выдачи Rambler: ссылки, анкоры, сниппеты
SE::Startpage Парсинг всех данных с поисковой выдачи Startpage: ссылки, анкоры, сниппеты

Как выбрать подходящий парсер

В первую очередь необходимо определить, для каких именно целей требуется данный инструмент, а также выяснить, какой объем данных предстоит получать, и в каком виде. После этого необходимо понять, потребуется разовый сбор данных, либо подобную операцию нужно будет проводить с определенной периодичностью

Отобрав наиболее подходящие под решение поставленных задач инструменты, можно опробовать демоверсии, обратив особое внимание на оказание технической поддержки. После того, как взвешены все за и против, — подобрать наиболее подходящий сервис, обратив внимание на соотношение цены и качества

В подавляющем большинстве случаев будет достаточно стандартного решения, причем иногда даже бесплатной версии, однако если требуется проводить достаточно сложную обработку большого объема данных, то в данном случае лучше разработать собственный парсер, заточенный под конкретные задачи.

Способы применения

Парсинг для начинающих начинается с анализа конкурирующих фирм, чтобы сформировать собственную ценовую политику и план продвижения, стратегию интернет-маркетинга. А уже уверенные пользователи одновременно используют парсеры и для изучения конкурентов, и для аудита своего ресурса, для сравнения полученных сведений. Такая работа в тесной связке помогает поддерживать конкурентоспособность на высоком уровне.

Как парсить данные

Можно пойти двумя путями – купить программу, которых представлено большое множество, или создать приложение собственными силами фактически на любом из языков программирования.

Второе особенно актуально, когда нужно выставить только несколько параметров. Посмотрим теперь на особенности парсинга некоторых данных для «чайников».

Как спарсить цену

Определение ценовой политики – это самая ходовая задача для приложений. Для этого необходимо посмотреть код анализируемого товара и ввести его в программу. Она автоматически подтянет другие позиции, отвечающие запросу. Сэкономить время и повысить эффективность можно, если ограничить круг страничек. Например, так он не будет искать по разделу с информационными статьями. Добавлять стоит категории и сами карточки продукции. Прописываются ссылки на них в карте XML.

Как парсить структуру сайта

Это важное занятие, которым также часто занимаются новички. Основная задача – узнать, из каких разделов, подразделов и категорий состоит веб-ресурс, чтобы сделать аналогичные

Структурирование определяется, благодаря изучению breadcrumbs, или хлебных крошек в буквальном переводе. На самом деле термин подразумевает навигационную цепочку, которая выстраивается от начального элемента (корневого файла) до итогового.

Что нужно для этого сделать:

  • навести курсор на одну из строчек навигации;
  • скопировать код по аналогии с тем, как мы это делали с ценами;
  • отправить его в приложение.

Данный алгоритм следует повторить и с другими элементами структуры.

Парсеры параметров сайтов и доменов#

Название парсера Описание
SE::Google::TrustCheck Проверка сайта на trust
SE::Google::Compromised Проверка наличия надписи This site may be hacked
SE::Google::SafeBrowsing Проверка домена в блеклисте Google
SE::Yandex::SafeBrowsing Проверка домена в блеклисте Yandex
SE::Bing::LangDetect Определение языка сайта через поисковик Bing
SE::Yandex::SQI Проверка Индекса качества сайта в Яндексе
Net::Whois Определяет зарегистрирован домен или нет, дату создания домена, а так же дату окончания регистрации
Net::Dns парсер резолвит домены в IP адреса
Rank::Cms Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков
Rank::Alexa Определяет позици. в глобальном рейтинге Alexa
Rank::Alexa::Api Быстрый чекер алексы через API
Rank::Archive Парсер даты первого и последнего кэширования сайта в веб архиве
Rank::Linkpad Парсер беклинков и статистики с сервиса linkpad.ru
Rank::MajesticSEO Парсер количества бек-линков с сервиса majesticseo.com
Rank::Mustat Оценка трафика на сайте, также стоимость и рейтинг домена
Rank::Social::Signal парсер социальных сигналов
Rank::Curlie проверка наличия сайта в каталоге Curlie (аналог DMOZ)
Rank::Ahrefs Парсер ahrefs.com
Rank::KeysSo Парсер keys.so
Rank::MOZ Парсер MOZ
SecurityTrails::Ip Собирает домены по IP
SecurityTrails::Domain Парсер SecurityTrails