Содержание
- Кластеризовали семантику — что дальше?
- Что делать с кластеризованным семантическим ядром: от ядра к контентному плану.
- Методика сравнения
- Обзор программ и сервисов
- Ручной способ распределения семантического ядра
- Немного теории
- Для чего кластеризовать семантическое ядро
- Этап 2. Сбор и чистка семантического ядра в Key Collector
- Основные возможности программы:
- Ручной способ кластеризации
- Алгоритмы кластеризации
- Группировка фраз по составу
- Типология задач кластеризации[править]
- Пошаговая кластеризация на реальном примере
- Заключение
Кластеризовали семантику — что дальше?
Важно понимать, что ни один сервис кластеризации не обеспечит идеального результата. Необходимо анализировать полученные кластеры, экспериментировать с точностью кластеризации, удалять некоторые фразы, проверять посадочные URL
Тем не менее без автоматизации процесс группировки ядра затянется на дни или даже недели, и полученный результат не позволит учесть особенности поисковых алгоритмов.
Инструмент кластеризации от PromoPult — это отличное подспорье для вебмастеров и оптимизаторов, особенно с учетом цены, которая в 3-5 раз ниже, чем у конкурентов. Также вы можете бесплатно попробовать инструмент в действии, доступно 100 запросов.
Что делать с кластеризованным семантическим ядром: от ядра к контентному плану.
После того, как ядро кластеризовано, важно понимать следующее. Вообще говоря, каждому кластеру соответствует отдельная веб-страница
Но это не жесткое правило, а лишь рекомендация, точнее аргумент в пользу того, чтобы под отдельный кластер выделить отдельную веб-страницу. Но иногда на этот аргумент есть контраргумент, сводящийся к тому, что некоторые фразы попали в различные кластеры не потому, что они в принципе по природе своей настолько семантически различны, что не могут вообще попасть в один кластер, а потому что имеющиеся на данный момент сайты не раскрывают достаточно полно эти фразы на одной веб-странице. Или малое число сайтов в выдаче раскрывает эти фразы, например, менее трёх, если глубина кластеризации установлена равной трём.
Предположим, что оказалось, что запросы «ринопластика» и «ринопластика для мужчин» оказались в разных кластерах, о чём это нам говорит, что это для нас значит? Может быть одно из двух:
- Специфика пластики носа «по умолчанию» (которая чаще, по-видимому, для женщин применяется) и специфика пластики носа для мужчин настолько различны по свойствам целевой аудитории, по методике осуществления, по логике продажи этой услуги, что эти запросы признаются настолько семантически далекими друг от друга, что для них стоит создавать отдельные веб-страницы.
- Возможно, эти фразы все же не настолько содержательно далеки друг от друга, чтобы их обязательно нужно было размещать на различных страницах, а просто подавляющее большинство страниц по ринопластике очень слабо раскрывают или же не раскрывают вообще тему ринопластики именно для мужчин и, следовательно, по этому запросу не ранжируются. Из-за этого поисковые выдачи по данным запросам оказываются столь отличными друг от друга. В этом случае можно «обыграть» обе фразы на одной веб-странице.
Существует и противоположный контраргумент не в пользу того, что фразы из разных кластеров можно разместить на одной странице, а за того, чтобы фразы из одного кластера разнести по различным веб-страницам. В каком же случае это может быть? Это происходит тогда, когда тема раскрыта настолько глубоко и всесторонне, что объем веб-страницы начинает превышать 3000 – 4000 слов, тогда оказывается целесообразным для некоторых разделов статьи выделить отдельные веб-страницы, даже несмотря на то, что, скажем, заголовок этого раздела и название всей статьи попадают в один кластер.
Таким образом, правильное семантическое ядро помогает при кластеризации определиться, какие фразы помещать на отдельные веб-страницы, а какие – на одну и ту же. То есть кластеризация помогает осуществить распределение фраз семантического ядра по страницам. Что же дальше? Теперь нужно распределить фразы внутри страницы по различным её элементам – тегам и метатегам. Здесь нам поможет использование Карты релевантности. Это инструмент организации в том числе многопользовательской работы над обоснованным распределением семантики по элементам страницы. В Карте релевантности отмечается как именно и где именно на странице будет «обыграна» некоторая фраза – в тайтле ли, в метаописании, в заголовке, в одном из подзаголовков, непосредственно в самом тексте. Использование карты релевантности позволяет перейти непосредственно к созданию ТЗ копирайтеру на написание контента. Стоит отметить, что существуют специальные сервисы, которые позволяют несколько автоматизировать создание такого ТЗ. В итоге получаем, что созданная система статей имеет наиболее эффективное распределение фраз семантического ядра как по статьям (благодаря кластеризации), так и внутри статей (благодаря использованию карты релевантности).
Методика сравнения
Суть сравнения сервисов в следующем: выбрать идеально кластеризованный список запросов – эталонное ядро. Сравнить результаты кластеризации каждого сервиса с эталонным.
Важно было хорошо составить такое эталонное ядро. Поскольку у нас контентный проект и большая часть контента – это вопросы и ответы пользователей, то материала для сбора статистики по проекту предостаточно
Было взято ядро на 2500+ ключевых фраз, которое отслеживается уже много месяцев. Из него выбраны только запросы вышедшие в топ-5 Яндекса. И из них взяты только те которые имеют релевантной страницу одного из широких разделов (категория вопроса, тема вопроса, категория документа, страница с формой «задать вопрос»), а не узкую страницу вопроса с ответами. Запросы были сгруппированы по релевантной странице. Оставлены только группы в которых более чем 4 запроса. В итоге получилось 292 запроса разбитых на 22 кластера.
Забегая вперед скажу, что сравнивались результаты кластеризации по Московской выдаче Яндекса и без геопривязки. Региональная московская выдача показала себя лучше, поэтому далее будем говорить про нее.
Обзор программ и сервисов
Использование бесплатных инструментов, как правило, предполагает группировку запросов в ручном режиме.
MS Excel, Google Docs, OpenOffice
Эти инструменты не выполняют кластеризацию поисковых запросов, а только облегчают процесс для оптимизатора. Этот способ позволяет достичь высокого качества группировки ключевых фраз за счет обработки результатов SEO-специалистом.
Преимущества:
- Бесплатные (кроме Excel)
- Возможность работать онлайн (в случае с Google Docs)
- Универсальные – дают возможность использовать формулы и так далее
- Более точная группировка за счет ручной работы
Недостатки:
- Низкая скорость обработки данных из-за применения ручного метода
- Необходимость делать бэкапы (за исключением Google Docs)
Сервис Coolakov.ru
Дает возможность автоматической группировки собранных ранее поисковых запросов. Разбивка осуществляется на основе схожести топ-10 «Яндекса». Бесплатно обрабатывает до тысячи запросов, если нужно больше – нужно заказывать услугу отдельно через электронную почту с указанием региона и предоставлением семантического ядра. В таком случае стоимость составит 20 копеек за запрос.
Преимущества:
- Бесплатный (до тысячи запросов)
- Работает в онлайн-режиме
- Гибкий выбор порога кластеризации (от 1 до 10 пересечений)
Недостатки:
- Кластеризация запросов только по «Яндексу»
- Группы нужно дополнительно корректировать вручную
- Нет возможности привязать кластер к URL сайта
KeyAssort
Десктопная программа, которая позволяет выполнить сбор и кластеризацию, создать структуру сайта и найти лидеров в выбранной нише. Пользователь может структурировать семантику, создавая категории и рассортировывая запросы по ним. Стоимость программы составляет 1 900 рублей. Вы можете бесплатно протестировать функционал, единственное ограничение – невозможность экспортировать запросы.
Преимущества:
- Возможность сбора топ-5, топ-10 (вплоть до топ-50)
- Наличие фильтров для ручной доработки
- Есть бесплатная демо-версия
Недостатки:
- Платный
- Десктопная программа только для Windows, на MacOS возможен запуск через виртуальную машину
- Необходимость ручной доработки кластеров
RushAnalytics
Один из онлайн-сервисов кластеризации на основе топ-10. Есть возможность выставить способ и силу группировки. Также при кластеризации можно использовать ручные маркеры на основе интентов. Результаты предоставляются в файле Excel на двух вкладках: первая – кластеры, вторая – некластеризованные запросы.
Преимущества:
- Работает онлайн
- Быстрая скорость сбора
- Удобный интерфейс
- Дополнительный функционал (проверка индексации и так далее)
Недостатки:
- Платный
- Относительно дорогой
- Также как и везде, кластеры нужно дополнительно перебирать вручную
Semparser
Кластеризация выполняется в автоматическом режиме, после разгруппировки всех запросов для пользователя открывается окно, в котором можно исправить ошибки. Результаты кластеризации скачиваются в файле Excel, в котором несколько вкладок – на первой – полученные группы с деталями, на второй – только группы, на третьей – топ-тематики. Сервис дает возможность установить силу группировки.
Алгоритм работы классический – на основе поисковой выдачи. Если для запроса не удалось найти группу, то шаг повторяется повторно, но требуемое количество пересечений снижается.
Преимущества:
- Работает в режиме онлайн
- Сохранение проектов
- Учет интента
- Тестовый режим (кластеризация 50 поисковых запросов после регистрации)
Недостатки:
- Платный
- Необходима ручная коррекция групп
Just Magic
Автоматический сервис группировки запросов по способу Hard на основе топ-10 выдачи «Яндекса» и Google. По умолчанию использует регион Москва, но изменить его можно, введя необходимые данные. Кластеризатор решает задачу, какие запросы могут продвигаться на одной странице, разделяя коммерческие и информационные, для главной и внутренней страницы и другое.
Преимущества:
- Работа в онлайн-режиме
- Информативность результатов (группы кластеров, число главных страниц в SERP, тематика фраз, геозависимость, проверка на «коммерческость»)
- Возможность кластеризации с учетом региона
- Определение релевантных страниц, если указан сайт
Недостатки:
- Высокая цена кластеризации
- Доступ к разделу кластеризации предоставлен только зарегистрированным пользователям
Ручной способ распределения семантического ядра
Ручным способом я называю такой вариант кластеризации ядра, при котором мы самостоятельно указываем группы, наводим порядок в них, формируем структуру СЯ самостоятельно. Конечно, без специальных программ здесь не обошлось. Вернее, без одной — Excel.
Распределение запросов с помощью программы Excel
Здесь все просто — выгружаем уже собранные и отредактированные поисковые запросы и ручками формируем группы и перекидываем в них подходящие фразы.
Подробно об этом варианте кластеризации я расписал в этом практическом мануале. Там я даю 3 способа группировки, выбирайте свой и дерзайте. Я лично их комбинирую в зависимости от ситуаций.
Кластеризация ключевых слов с помощью файла «Ядро»
Данный вариант отличается от предыдущего тем, что здесь уже мы перекидываем фразы благодаря умному скрипту «Ядро», сделанному в Excel. Все остальное проделывается тоже своими руками.
Скрипт «Ядро» сделали ребята из MFC (Made for content) для облегчения задачи распределения ключевиков. За основу они взяли наработку seo-специалиста Сергея Кокшарова, который и придумал вариант с Excel. Давайте посмотрим, как работает этот макрос. Для этого я воспользуюсь видеороликом ребят из MFC:
https://youtube.com/watch?v=lXOcjYDV0QY
В общем, все понятно. Ничего сложного здесь нет. Поэтому, если у Вас нет возможности использовать программу Key Collector, а семантических ядер для распределения у Вас много, используйте скрипт «Ядро» (погуглите). Даже если Вы делаете кластеризацию редко для своего сайта или блога, данный макрос лишним не будет. По крайней мере с него стоит начинать, а уже потом допиливать группировку первым ручным способом.
Да, забыл самое важное сказать про файл «Ядро» — он бесплатен!
Немного теории
Вебмастера используют два принципиально разных подхода к кластеризации:
- По составу ключевых фраз. Запросы объединяют в группы на основе анализа входящих в них слов.
- По поисковой выдаче. Для каждого запроса находят ТОП выдачи и устанавливают порог совпадения – например, 50%. Те ключи, по которым в ТОП выдачи совпадет хотя бы половина страниц, объединяют в одну группу. Порог совпадения можно взять любой, анализировать можно любое количество результатов выдачи: ТОП-3, ТОП-5, ТОП-10, ТОП-20.
Второй метод кластеризации – на основе анализа выдачи – более популярен, чем первый:
Первые 6 сайтов считают кластеризацию синонимом группировки на основе поисковой выдачи. У 4 сайтов это видно уже в сниппете, оставшиеся (2-й и 6-й) пишут об этом на страницах.
Что выбрать?
Сторонники группировки ключей по поисковой выдаче игнорируют две вещи.
Во-первых, у каждой поисковой системы свои алгоритмы ранжирования. Посмотрите, как выглядит поисковая выдача для фразы «что такое кластеризация запросов» для пользователей Яндекса из Москвы:
Сравним ее с выдачей Google, приведенной ранее.
Кластеризация запросов по ТОП выдачи означает, что мы сосредоточимся на продвижении сайта только в одной поисковой системе.
Во-вторых, в ТОПе появляются новые сайты и поисковая выдача меняется. Следовательно, через небольшое время кластеризация перестанет соответствовать ТОПу выдачи и нам придется по-новому группировать ключи и переписывать контент на сайте.
Кластеризация запросов по составу фраз решает обе проблемы.
Для чего кластеризовать семантическое ядро
Кластеризация запросов нужна для решения следующих задач:
- Планирование структуры будущего сайта. В идеале, сколько кластеров получилось – столько и должно быть страниц. В реальности же ресурсы ограничены, поэтому стоит выбирать наиболее приоритетные. Тип будущей страницы в свою очередь зависит от типа запросов, входящих в кластер. В одну группу попали информационные запросы – планируем написание статьи, если коммерческие запросы – делаем посадочную страницу и т. д.
- Оптимизация имеющихся страниц на сайте. Полученные кластеры распределяются по страницам, которые затем оптимизируются в соответствии со сгруппированными поисковыми запросами.
- Подбор целевых страниц для объявлений в контекстной рекламе. Если ключевые фразы, по которым настраивается реклама, находятся в одном кластере – можно спокойно направлять трафик по всем им на одну целевую страницу.
- Чистка семантического ядра, поиск минус-слов. Нерелевантные, нетематические ключи тоже объединяются в кластеры, поэтому их легко находить и удалять из семантического ядра или же заносить в список минус-слов.
Главное преимущество кластеризации – экономия денег и времени на чистке семантики, разработке дополнительных целевых страниц, оптимизации рекламных кампаний. Также кластеризация предупреждает так называемую каннибализацию.
Каннибализация возникает, когда одни и те же ключи используются и продвигаются на разных страницах. Это приводит к нерелевантной выдаче, неустойчивым позициям в поиске, ухудшению поведенческих факторов.
Этап 2. Сбор и чистка семантического ядра в Key Collector
Перед началом сбора семантического ядра необходимо указать регион, по которому следует собирать запросы и их частотность. Регион напрямую связан с магазином, для которого собирается семантика, то есть если ваш магазин находится в Москве, то и запросы с их частотностью нужно собирать по данному региону. Для этого в нижней части окна мы выбираем регион для сервисов Yandex.Wordstat и Яндекс Директ:
После выбора региона можно приступать к сбору семантики.
Методика
В основном меню нажимаем кнопку «Пакетный сбор слов из левой колонки Yandex.Wordstat»:
В открывшимся окне мы увидим поле, куда необходимо добавить запросы прямо из нашего файла. После их добавления в нижней правой части окна следует нажать на иконку разделения фраз по группам:
После нажатия на кнопку в правой колонке групп мы увидим, что наши группы добавлены, и во всплывающем окне появилось поле с названиями наших групп, внутри которых находятся соответствующие запросы. Далее мы можем нажимать кнопку «Начать сбор»:
Запустив парсинг левой колонки Yandex.Wordstat, мы автоматически получаем все расширения наших запросов из сервиса, и теперь не будем собирать их вручную.
Следующим шагом является сбор корректной частоты запросов. Для этого следует очистить данные общей частотности, собранной вместе с запросами из сервиса Yandex.Wordstat, нажав на заголовок столбца правой кнопкой мыши и выбрав пункт «Очистить данные в колонке»:
Для сбора частотности мы используем функционал «Сбор статистики Yandex.Direct»:
Во всплывающем окне выбираем период сбора равный году. Это необходимо потому, что спрос на товары зачастую является сезонным, и без годовой частотности мы не сможем выявить самые популярные запросы. Целью сбора выбираем «Базовую» и «Уточненную» частотность, после чего нажимаем кнопку «Получить данные»:
Когда частотность собралась, можно переходить к чистке семантики от мусорных фраз. Мы рекомендуем удалять запросы с «Уточненной» частотностью менее 10, так как это означает, что подобные запросы приносят меньше 1 посетителя в месяц.
Выделяем такие запросы и нажимаем кнопку «Удалить фразы»:
Теперь можно приступить к чистке запросов по фразам.
Для этого есть несколько инструментов:
1. Инструмент фильтрации позволяет быстро отсечь часть ненужных запросов. Используя его, можно оставить в основной таблице только те фразы, которые включают в себя английские символы, цифры или состоят из 4 и более слов и т.п. для пакетного удаления.
2. Инструмент «Стоп-слова» позволяет отмечать фразы на удаление или последующий перенос в другую/новую группу по заранее загруженным в поле словам. Можно сразу выделить запросы с вхождениями городов (отличных от выбранного региона), названий компаний конкурентов, а также информационные запросы со словами «как», «почему», «отзывы», «реферат» и пр.
3. Инструмент «Анализ групп» позволяет собрать запросы в группы по различным вариантам группировки и отмечать названия групп, выделяя сразу несколько запросов для удаления или последующего переноса в другую/новую группу.
Рекомендуем пользоваться всеми инструментами, основным из которых должен стать «Анализ групп». Данный инструмент находится во вкладке «Данные»:
Во всплывающим окне можно увидеть несколько вариантов группировки, из которых мы советуем использовать метод «по отдельным словам».
В данном методе все запросы будут присутствовать в таблице и не случится того, что запрос, не попавший ни в одну группу, будет исключен из таблицы и его придется искать позже вручную в общем списке запросов.
Просматривая группы одну за другой, отмечаем их или фразы внутри них, которые явно нам не подходят. В процессе мы будем наблюдать, что, выбирая пять групп, мы уже отметили в общей таблице 9 фраз:
После того как отметим все группы и запросы в них, мы можем закрыть данное окно и нажать на кнопку «Удалить фразы».
После чего следует перейти к выгрузке запросов в Excel для последующей ручной чистки запросов и группировки семантики.
Чтобы совершить пакетную выгрузку всех запросов из разных групп, необходимо в правой колонке программы отметить все наши группы и нажать кнопку «Режим просмотра мульти-группы». После этого можно выгрузить наше семантическое ядро в Microsoft Excel:
Основные возможности программы:
Кластеризация произвольного списка ключевых запросов методами Hard и Soft
- Автоматическая группировка поисковых запросов с возможностью «ручного» указания порога кластеризации (от 1 до 10):
- Возможность «ручной» группировки семантического ядра, создание произвольных папок и групп;
- Импорт данных выдачи Яндекс и Google из Key Collector для группировки фраз без использования XML-лимитов;
- Проверка позиций по запросам и определение релевантных посадочных страниц;
- Указание региона в Яндекс для сбора данных при кластеризации;
- Экспорт кластеризации в Excel (CSV).
Отличия KeyClusterer от аналогов
Кластеризация семантического ядра практически любого объема:
- Высокая скорость кластеризации, быстрое переключение между проектами;
- Низкие требования к ресурсам компьютера, малый расход оперативной памяти;
- Портативный формат (работает без установки на ПК или прямо со сменного носителя);
- Бесплатное распространение.
Десктопный кластеризатор семантического ядра имеет высокую скорость кластеризации семантики. Для примера, ядро в 5 000 (пять тысяч) запросов кластеризуется порядка 20-ти секунд.
Программа тестировалась на ядре в 200 тысяч поисковых запросов. Конечное число возможных запросов для кластеризации напрямую зависит от объема памяти и разрядности ОС. Чем больше ключевых запросов – тем дольше идет обработка данных.
Ручной способ кластеризации
Для группировки поисковых запросов используйте следующие сервисы и программы:
-
MS Excel;
-
Google Tabs;
-
Libre Office и т.д.
Кластеризируйте запросы в одну группу, руководствуясь следующими признаками схожести:
Однокоренные слова.
Пример: заказать хостинг, заказ хостинга;
Слова-синонимы, разные по названию, но одинаковы по смыслу.
А также те “разные” поисковые запросы, с помощью которых пользователь ищет одно и тоже.
Пример: VPS сервер — хостинг VPS;
Слова-интенты. Это те коммерческие слова, которые пользователи набирают с одинаковыми намерениями. В принципе это и есть слова-синонимы.
Пример: Хостинг цена — Хостинг купить.
Кластеризация вручную на примере Google Tabs
Рассмотрим, как проводится кластеризация поисковых запросов вручную. С помощью сервиса Google Tabs.
Что нам необходимо сделать:
-
Выгруженную семантическую массу предварительно очистите от “мусора”
-
Создайте файл на сервисе Google Tabs и назовите его example СЯ кластеризация:
-
Скопируете в столбики A и B соответственно запросы и их частотность;
-
Теперь переходим к формированию кластеров. Устанавливаем фильтры в колонках от A до D. Называем колонки соответственно: ключевые слова, семантическая группа, частота и частота и частота кластера;
-
С помощью фильтра в колонке “Ключевые слова” отыскиваем:
-
Однокоренные слова;
-
Слова-синонимы;
-
Слова-интенты.
-
Отбираем указанные выше ключевики как с помощью фильтра, так и вручную. Называем семантическую группу в соответствии с основным корнем в списке отобранных ключевиков.
Пример: ремонт кондиционеров Киев, срочный ремонт кондиционеров Киев, ремонт и чистка кондиционеров в Киеве кластеризируем как “ремонт кондиционеров”.
-
Слова-синонимы, которые Вы собираетесь разместить на одной странице, рекомендую разбивать по разным кластерам. Так будет удобнее, чтобы понять какие поисковые слова более приоритетные.
-
Информационные запросы в кластере отмечайте как “инфо”.
-
После того, как Вы провели разбивку по кластерам необходимо рассчитать суммарную частоту кластера.
Для автоматического подсчета набейте в верхнюю ячейку столбца “Частотность кластера” следующую формулу: =ЕСЛИ(B4=B2;C2+D4;C2), далее протяните ее вниз.
Предлагаем Вам образец кластеризации семантического ядра для сервисного центра бытовой техники.
Как определить слова-синонимы в поисковой выдаче?
-
Соберите те запросы, которые Вы считаете “кандидатами” в слова-синонимы.
-
Набейте их в поисковой строке;
-
Отследите поисковую выдачу каждого запроса;
-
Те слова, чья поисковая выдача будет совпадать, хотя бы 5 УРЛ из ТОП-10 являются синонимами.
Поисковые запросы:
VPS сервер и хостинг VPS
На данном скриншоте наглядно показана сравнение поисковой выдачи по двум запросам.
Красными стрелками обозначены одинаковые УРЛы в выдаче ТОП-10.
Отсюда делаем вывод, что эти слова являются синонимами с точки зрения поисковой машины.
Алгоритмы кластеризации
SEO-специалисты выделяют два типа классификации алгоритмов кластеризации:
Иерархические и плоские
Иерархические алгоритмы (еще их называют алгоритмами-таксонами) формируют не одно разделение множества на пересекающиеся кластеры, а многоуровневую структуру вложенных разбиений. В результате формируется дерево кластеров. В качестве его корня выступает общая выборка, а в качестве листьев — самые мелкие группы.
Плоские алгоритмы формируют одно разделение объектов на группы.
Четкие и нечеткие
Четкие алгоритмы связывают каждый элемент выборки с номером кластера. Нечеткие алгоритмы связывают каждый элемент выборки с комбинацией вещественных значений, отражающих меру принадлежности элемента к кластерам. Таким образом каждый элемент выборки относится к каждой группе с определенной долей вероятности.
Группировка фраз по составу
Для группировки ключей по составу фраз существует бесплатный онлайн-кластеризатор SEOQUICK.
У сервиса понятный интерфейс, поля для заполнения снабжены всплывающими подсказками.
Список слов. Сюда мы добавляем ключевые фразы, с частотностью или без. Их можно собрать из Яндекс.Вордстат, с помощью Semrush или других сервисов. Добавить ключи можем через копирование-вставку, можем через загрузку файла Excel с помощью кнопки «загрузить» под полем. Максимальное число ключевых фраз – 10 000.
Выбор частотности. Выбираем один из 4 вариантов группировки фраз: ВЧ (по 2 словам), СЧ (по 3), НЧ (по 4) и МЧ (по 5). Чем больше количество слов, по которым группируются запросы, тем больше получится групп и тем меньше ключей будет в каждой.
Сохранить. Позволяет сохранить содержимое поля «список слов» в файл Excel.
Поиск. Запускает кластеризацию.
Учитывать геозависимость. Если мы отметим эту опцию, то при кластеризации геозависимые запросы – с названиями стран и городов – попадут в разные группы.
Расширенные кластеры для семантики. После кластеризации часть запросов не попадет ни в одну группу – отсеется. Если мы выберем эту опцию, то сервис постарается рассортировать эти фразы по наиболее релевантным кластерам.
Считать, как одно слово. Словосочетания в этом поле будут обрабатываться системой как одно слово. Мы можем указать любое количество словосочетаний, разделяя их запятыми без пробелов после них.
Минус-слова. Перед кластеризацией сервис удалит фразы с вхождением минус-слов в любой форме. Если перед минус-словом поставить «!», то будут удалены фразы только с его точным вхождением. При вводе отделяем их друг от друга запятыми, пробелы не ставим.
Список игнорируемых слов. Слова, которые не будут учитываться при анализе и группировке ключей. Предлоги, союзы, некоторые наречия и прилагательные – все части речи, которые не влияют или почти не влияют на формирование поисковой выдачи. Как и минус-слова, разделяем запятыми и не ставим пробелы.
Список обязательных слов. Кластеризатор обработает только те фразы, в которые входят указанные в этом поле слова. При перечислении обязательные слова разделяем запятыми, с пробелами после них. Фразы и словосочетания указать нельзя.
Синонимы. В каждой строке через запятую с пробелом пишем слова, которые при кластеризации сервис будет считать одинаковыми. Каждая строчка – это один перечень синонимов. Для добавления нового перечня добавляем строки, нажимая зеленую иконку с плюсом справа.
Очистить поля. Нажав на эту кнопку, мы очистим все поля и удалим результаты кластеризации.
Как это работает. Этой кнопкой запускается демонстрационный режим работы.
Разобраться с настройками не сложно.
Теперь посмотрим, как работает кластеризация.
Типология задач кластеризации[править]
Типы входных данныхправить
- Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками (англ. features). Признаки могут быть как числовыми, так и категориальными;
- Матрица расстояний между объектами. Каждый объект описывается расстоянием до всех объектов из обучающей выборки.
Вычисление матрицы расстояний по признаковому описанию объектов может быть выполнено бесконечным числом способов в
зависимости от определения метрики между объектами. Выбор метрики зависит от обучающей выборки и поставленной задачи.
Цели кластеризацииправить
Классификация объектов. Попытка понять зависимости между объектами путем выявления их кластерной структуры. Разбиение выборки на группы схожих объектов упрощает дальнейшую обработку данных и принятие решений, позволяет применить к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»). В данном случае стремятся уменьшить число кластеров для выявления наиболее общих закономерностей;
Сжатие данных. Можно сократить размер исходной выборки, взяв один или несколько наиболее типичных представителей каждого кластера
Здесь важно наиболее точно очертить границы каждого кластера, их количество не является важным критерием;
Обнаружение новизны (обнаружение шума). Выделение объектов, которые не подходят по критериям ни в один кластер
Обнаруженные объекты в дальнейшем обрабатывают отдельно.
Методы кластеризацииправить
- Графовые алгоритмы кластеризации. Наиболее примитивный класс алгоритмов. В настоящее время практически не применяется на практике;
- Вероятностные алгоритмы кластеризации. Каждый объект из обучающей выборки относится к каждому из кластеров с определенной степенью вероятности:
- Иерархические алгоритмы кластеризации. Упорядочивание данных путем создания иерархии вложенных кластеров;
- Алгоритм -средних (англ. -means). Итеративный алгоритм, основанный на минимизации суммарного квадратичного отклонения точек кластеров от центров этих кластеров;
- Распространение похожести (англ. affinity propagation). Распространяет сообщения о похожести между парами объектов для выбора типичных представителей каждого кластера;
- Сдвиг среднего значения (англ. mean shift). Выбирает центроиды кластеров в областях с наибольшей плотностью;
- Спектральная кластеризация (англ. spectral clustering). Использует собственные значения матрицы расстояний для понижения размерности перед использованием других методов кластеризации;
- Основанная на плотности пространственная кластеризация для приложений с шумами (англ. Density-based spatial clustering of applications with noise, DBSCAN). Алгоритм группирует в один кластер точки в области с высокой плотностью. Одиноко расположенные точки помечает как шум.
Сравнение алгоритмов кластеризации из пакета scikit-learn
Пошаговая кластеризация на реальном примере
После сбора семантического ядра, его надо распределить по группам и составить структуру будущего сайта, если мы делаем семантику для нового сайта.
В самом начале нам надо принять решение, будем ли мы составлять структуру на основании распределённого по группам семантического ядра или на основании логики/конкурентов. Если второй вариант, то загружаем в программу готовую структуру, которую предварительно составили.
Если же первый вариант, то импортируем ядро, а структуру будем составлять после кластеризации, глядя на готовые группы. В данном примере мы импортируем файл с параметрами, т.к. нам важна частота запросов для дальнейшего принятия решения относительно того, какие группы мы будем использовать в первую очередь, а какие не будем использовать вообще.
Вот как это будет выглядеть после импорта:
Т.к. последнее время Google становится всё популярнее и популярнее Яндекса, принимаем решение собирать данные именно с google.
После регистрации на сервисе XMLRiver, пополняем счёт (1), в разделе «Покупка запросов» (2) копируем ссылку для запросов (3):
Эту ссылку нам надо вставить в окно настроек программы (1), установить топ10 (2) и другие настройки, связанные с местоположением:
Относительно топ10 – больше ставить нет никакого смысла, у Гугла в подавляющем большинстве случаев достаточно качественная выдача и увеличение количества собранных данных не приведёт к улучшению качества кластеризации.
Региональность можно указать как в программе, так и в настройках сервиса
Однако обратите внимание, что если эти данные указаны и в одном и во втором месте, приоритет будет у указанных в программе
Если указываете местоположение в программе, числовое значение этого местоположения надо брать из файла на скриншоте.
Также стоит упомянуть, что если вы хотите собрать данные, например, по Москве, то домен надо выбирать ru, язык — Russian, страну – Russia. Иначе данные могут быть не точны.
После описанных выше настроек и сбора данных переходим непосредственно к процессу кластеризации. Тематика у нас не самая конкурентная, поэтому выбираем вид кластеризации Middle с миграцией (это можно сделать горячими клавишами ctrl+Tab) и попробуем силу группировки 3. Если в результате получится слишком много групп с одним интентом, надо уменьшить силу кластеризации, если же фразы в группах будут слишком разнородными – увеличить и снова провести процесс кластеризации. Для этого заново собирать данные не требуется, достаточно нажать на кнопку «Восстановить», при этом семантическое ядро вернётся в первоначальное состояние до процесса кластеризации.
В нашем случае результат был достаточно хорошим, и, после небольших ручных правок, вырисовалась картина по структуре сайта, которая сразу была создана, а группы распределены по своим категориям.
Заключение
Теперь вы знаете, как делать кластеризацию запросов. Используйте приведенные выше рекомендации, и ваш сайт обязательно займет свое место в топе поисковой выдачи. Помните, что в SEO-продвижении не бывает малозначимых задач — каждый этап работы надо проводить тщательно и внимательно. Особенно это касается группировки ключевых фраз и создания структуры ресурса.
Каким образом кластеризация запросов помогает при продвижении?
Благодаря грамотной группировке фраз из ядра, образуется готовая структура (костяк) сайта. Заполните посадочные страницы качественным контентом, и ничто не помешает вам вывести площадку в топ без дополнительных затрат.
Почему нужно использовать сервисы для кластеризации семантического ядра?
Копание в запросах руками крадет драгоценное время, которое можно использовать для решения других задач — подготовки контента, крауд-маркетинга, ускорения скорости работы сайта и т. д.