Дубли страниц на сайте

Дубли страниц на сайте

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с .php или .html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют: 

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам. 
  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Ссылка на программу Netpeak Spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом.

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Источник: https://webmaster-seo.ru/seo/dubli-stranits-na-sajte/

Дубли страниц: что такое, как найти и удалить с сайта

Всем, привет! Дубли страниц на сайтах – одна из серьезных и к сожалению, весьма распространенных проблем. Из-за появления в интернете повторяющихся страниц и одинакового контента, возрастает нагрузка на сервера поисковых машин.

Как удалить дубли страниц и что это такое

Естественно, поисковые компании не хотят платить лишних денег за обработку одной и той же информации два, а то и несколько раз. Поэтому сайты, имеющие дубли страниц и дублированный контент, в случае их обнаружения поисковыми системами (что часто и бывает) подвергаются различным санкциям.

Кроме того, поисковые алгоритмы все еще не абсолютно совершенны. Зачастую в результате канонической (основной) посадочной страницы поисковые роботы выбирают дубль, случайно оказавшийся первым в поле внимания.

В результате ошибочного назначения канонической страницы ресурс требует ссылочную массу, ухудшается поисковое продвижение. Потенциальные клиенты попадают из поиска не на сервисную или продающую страницу, а на дубль и это приводит к снижению качества продаж.

Обратите внимание

Большое число одинаковых страниц увеличивает потребление программно-аппаратного ресурса на сервере хостинг-провайдера, из-за чего нормальная работа сайта оказывается затруднена. В этом случае дубли могут привести к необходимости переходить на более дорогой тариф хостинговых услуг.

Неопрятности, возникающие из-за появления дублей на сайте, можно еще долго перечислять. Важно разобраться с вопросом – как найти и удалить дубли страниц практически?

Причины возникновения дублей веб-страниц

Приводит к появлению одинаковых или очень похожих веб-страниц могут как ошибки человеческого фактора, так и технические проблемы.

  • Баги систем управления контентом.
  • Недоработки плагинов.
  • Ошибки в работе систем автоматизации SEO-оптимизации динамических сайтов.

Больше всего нареканий со стороны веб-мастеров в отношении дублирования к самой популярной в мире CMS WordPress. В частности, при использовании функции пагинации на сайтах, движок Вордпресс оформляет страниц так, что с точки зрения поисковых алгоритмов они выглядят как дубли.

Однако решить проблему дублирования для абсолютно всех плагинов Вордпресс нереально – слишком много и часто создаются расширения и дополнения для этой самой распространенной системы управления сайтами. Зачастую плагины разрабатываются независимыми программистами, а исходный код дополнения не публикуется в открытом доступе.

В итоге, задачу найти и удалить дубли на сайте приходится решать вручную либо при помощи различных SEO-приложений и онлайн-сервисов.

Способы обнаружения дублей и удаления на сайта

Для масштабных интернет-ресурсов с тысячами страниц основная задача – максимально автоматизировать процесс и избавиться от ручного просмотра всех разделов ресурса в поисках повторений.

Следует учитывать и то, что для поисковых роботов-индексаторов дублями будут являться не полные клоны (реплики) веб-страниц, но повторяющиеся мета-теги Title, Description, совпадающие фрагменты текста (низкая уникальность), похожие URL-адреса. Как вы понимаете, если все эти параметры проверять вручную – на это уйдет слишком много времени, которого веб-мастерам и администраторам сайтов и так всегда не хватает.

Поэтому чтобы найти дублированные элементы используется специальное программное обеспечение.

  • Онлайн-анализаторы, иногда отдельные инструменты в составе комплексных SEO-сервисов.
  • Устанавливаемое на компьютер программное обеспечение. Возможны варианты поиска дублей в онлайн-режиме, с запросом данных непосредственно на сервере хостинг-провайдера либо офлайн-приложения, для которых файлы сайта необходимо предварительно скопировать на локальный диск компьютера.
  • Плагины для систем управления контентом. В частности, для CMS WordPress разработан плагин «Trash Duplicate».
  • Профессиональные конструкторы сайтов обычно имеют встроенный SEO-модуль, с помощью которого можно провести комплексное тестирование (аудит) сайта на предмет поиска различного рода ошибок. В том числе найти и удалить дубли. Например, такой модуль для комплексного тестирования и автоматизации процесса исправления ошибок имеется в конструкторе сайтов Serif WebPlus.

Источник: https://seovpmr.ru/kak-sozdat-sajt-na-wordpress-s-nulya/dubli-stranits.html

Как найти дубли страниц на сайте

Наличие дублей страниц в индексе — это такая страшная сказка, которой seo-конторы пугают обычно владельцев бизнеса.

Мол, смотрите, сколько у вашего сайта дублей в Яндексе! Честно говоря, не могу предоставить примеры, когда из-за дублей сильно падал трафик.

Но это лишь потому, что эту проблему я сразу решаю на начальном этапе продвижения. Как говорится, лучше перебдеть, поэтому приступим.

Что такое дубли страниц?

Дубли страниц – это копии каких-либо страниц. Если у вас есть страница site.ru/bratok.html с текстом про братков, и точно такая же страница site.ru/norma-pacany.html с таким же текстом про братков, то вторая страница будет дублем.

Могут ли дубли плохо сказаться на продвижении сайта

Могут, если у вашего сайта проблемы с краулинговым бюджетом (если он маленький).

Если в индексе будет то одна страница, то другая, в этом случае они не будут нормально получать возраст, поведенческие и другие «подклеивающиеся» к страницам факторы ранжирования.

Кроме того, пользователи могут в таком случае ставить ссылки на разные страницы, и вы упустите естественное ссылочное. Наконец, дубли страниц съедают часть вашего краулингового бюджета.

А это грозит тем, что они будут занимать в индексе место других, нужных страниц, и в итоге нужные вам страницы не будут находиться в поиске.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress такой херни обычно нету, а вот всякие Джумлы генерируют огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Способы поиска дублирующего контента

Можно искать дубли программами или онлайн-сервисами. Делается это по такому алгоритму — сначала находите все страницы сайта, а потом смотрите, где совпадают Title.

XENU

XENU – это очень олдовая программа, которая издавна используется сеошниками для сканирования сайта. Лично мне её старый интерфейс не нравится, хотя задачи свои она в принципе решает. На этом видео парень ищет дубли именно при помощи XENU:

Читайте также:  Подчеркнутый текст html

Screaming Frog

Я лично пользуюсь либо Screaming Frog SEO Spider, либо Comparser. «Лягушка» — мощный инструмент, в котором огромное количество функций для анализа сайта.

Comparser

Comparser – это все-таки мой выбор. Он позволяет проводить сканирование не только сайта, но и выдачи. То есть ни один сканер вам не покажет дубли, которые есть в выдаче, но которых уже нет на сайте. Сделать это может только Компарсер.

Поисковая выдача

Можно также и ввести запрос вида site:vashsite.ru в выдачу поисковика и смотреть дубли по нему. Но это довольно геморройно и не дает полной информации. Не советую искать дубли таким способом.

Онлайн-сервисы

Чтобы проверить сайт на дубли, можно использовать и онлайн-сервисы.

Источник: http://znet.ru/raskrutka/kak-nayti-dubli-stranits-na-sayte/

Как найти и удалить дубли страниц на сайте

Всем привет, друзья!
В данной статье я напишу о том, как найти дубли страниц на сайте в также как удалить их. Я покажу на примере этого блога, как я находил дубликаты и удалял. Если на вашем ресурсе присутствуют проблемы с индексацией, то советую прочитать этот пост внимательно и до конца.

Не секрет, что если на блоге есть дубликаты документов, то это плохо. Во-первых, дублируется сам контент на странице и таким образом он получается уже не уникальным. Во-вторых, бывает такое, что внутренние ссылки проставлены не на продвигаемые страницы, а на их дубликаты. Таким образом важные документы не получают тот вес, который они бы могли получить.

Перед тем, как перейти к поиску дублирующих документов, нужно прикинуть, сколько на сайте есть полезных для посетителя страниц. На моем блоге опубликована 81 статья, создано 7 категорий, и присутствует 12 страниц навигации + главная.

Категории запрещены к индексации в robots.txt. Получается, что поисковики должны индексировать примерно 94 страницы. Теперь наша задача узнать, сколько документов проиндексировано на самом деле.

И в этом нам поможет, конечно, RDS Bar:

Мы видим, что Яндекс индексирует 74 документа, а Гугл 400. Учитывая то, что Яндекс еще не успел проиндексировать несколько последних постов, а также некоторые страницы навигации он не индексирует, то можно сделать вывод, что в индексе Яндекса точно нет дубликатов. Теперь что касается Гугла.

Мы видим, что он индексирует 400 страниц, но в основном индексе только 24%. Получается, что 97 страниц присутствуют в основном индексе, а 303 документа – это «сопли». Моя задача определить дубли страниц и удалить их с поиска Гугла.

Но я также покажу, как находить дубликаты в Яндексе, возможно у вас, наоборот, с Гуглом все нормально, а Яндекс индексирует ненужные документы.

Итак, как определить дубли страниц на сайте

1. Для того, чтобы узнать, какие страницы присутствуют в основном индексе Гугла не включая «сопли», достаточно ввести вот такой адрес: site:vachevskiy.

ru/&
А если нужно найти все страницы вместе с «соплями», нужно ввести вот так: site:vachevskiy.ru
В моем случае необходимо вводить как раз последний вариант. Ввожу site:vachevskiy.

ru, дальше перехожу на самую последнюю страницу и нажимаю на ссылку «Показать скрытые результаты»:

Мне прекрасно видно, что Гугл включает в дополнительный поиск даже те документы, которые запрещены в файле robots.txt:

Вот, например, адрес страницы, которая разрешена к индексированию выглядит так:

Важно

А вот эта страница появляется тогда, когда нажать на кнопку «Ответить», на последний комментарий:

Почему закрытая страница вообще появляется в результатах поиска, для меня остается загадкой :smile::

Как видим, вместо сниппета пишет: «описание веб-страницы недоступно из-за ограничений в файле robots.txt». То есть Гугл и не скрывает, что страница закрыта от индексации, но, с поиска ее почему-то не удаляет. Значит, будем искать другие варианты ее удаления, об этом я напишу немного позже.

С Яндексом все гораздо проще, там нет никаких «соплей», он или индексирует страницу или не индексирует. Причем, если документ запрещен в robots.txt, то он его индексировать не будет.

Для того, чтобы узнать, какие страницы присутствуют в индексе Яндекса, достаточно ввести вот такой запрос: site:vachevskiy.

ru
Если страниц на сайте немного, то можно пробежаться по заголовкам и легко определить дубликаты.

2. Найти дубли страниц на сайте можно также с помощью текста. Для этого откройте расширенный поиск в Яндексе, укажите в кавычках любой кусочек текста со станицы, которая уже проиндексировалась, и нажмите «найти»:

Если на вашем блоге есть дубликат страницы, с которой был взять кусочек текста и эта страница также индексируется Яндексом, то вы увидите ее в результатах поиска. В моем случае дубликата нет, поэтому Яндекс показал мне только один документ:

Источник: https://vachevskiy.ru/kak-najti-i-udalit-dubli-stranic-na-sajte/

Дубли страниц, решение проблемы

Дубли страниц на сайтах или блогах, откуда они берутся и какие проблемы могут создать.
Именно об этом поговорим в этом посте, постараемся разобраться с этим явлением и найти пути минимизации тех потенциальных неприятностей, которые могут принести нам дубли страниц на сайте.

Приветствую Вас на страницах моего блога inetmkt.ru. Итак, продолжим.

Что такое дубли страниц?

Дубли страниц на каком-либо веб-ресурсе означает доступ к одной и той же информации по разным адресам. Такие страницы еще называют внутренними дублями сайта.

Если тексты на страница совершенно идентичны, то такие дубли называют полными или четкими. При частичном совпадении дубли называют неполными или нечеткими.

Неполные дубли – это страницы категорий, страницы перечня товаров и тому подобные страницы, содержащие анонсы материалов сайта.

Полные дубли страниц – это версии для печати, версии страниц с разными расширениями, страницы архивов, поиска на сайте, страницы с комментариями так далее.

Источники дублей страниц

На данный момент большинство дублей страниц порождаются при использовании современных CMS – системами управления контентом, еще их называют движками сайтов.

Это и WordPress, и Joomla, и DLE и другие популярные CMS. Это явление серьезно напрягает оптимизаторов сайтов и вебмастеров и доставляет им дополнительные хлопоты.

В интернет-магазинах дубли могут появиться при показе товаров с сортировкой по различным реквизитам (производителю товара, назначению товара, дате изготовления, цене и т.п.).

Также надо вспомнить о пресловутой приставке WWW и определиться, использовать ли ее в имени домена при создании, развитии, продвижении и раскрутке сайта.

Как видим, источники возникновения дублей могут быть различными, я перечислил только основные, но все они хорошо известны специалистам.

Дубли страниц, негативны

Несмотря на то, что многие на появление дублей не обращают особого внимания, это явление может создать серьезные проблемы при продвижении сайтов.

Поисковая система может расценить дубли как спам и, вследствие этого, серьезно понизить позиции как этих страниц, так и сайта в целом.

Совет

При продвижении сайта ссылками может возникнуть следующая ситуация. В какой-то момент поисковая система расценит как наиболее релевантную страницу-дубль, а не ту, которую Вы продвигаете ссылками и все ваши усилия и затраты будут напрасными.

Но есть люди, которые стараются использовать дубли для наращивания веса на нужные страницы, главную, например, или любую другую.

Методы борьбы с дублями страниц

Как же избежать дублей или как свести на нет негативные моменты при их появлении?
И вообще стоит ли с этим как-то бороться или же все отдать на милость поисковым системам. Пусть сами разбираются, раз они такие умные.

Использование robots.txt

Robots.txt – это файл, размещающийся в корневом каталоге нашего сайта и содержащий директивы для поисковых роботов.

В этих директивах мы указываем какие страницы на нашем сайте индексировать, а какие нет. Также можем указать имя основного домена сайта и файл, содержащий карту сайта.

Для запрещения индексации страниц используется директива Disallow. Именно ее используют вебмастера, для того, чтобы закрыть от индексации дубли страниц, да и не только дубли, а любую другую информацию, не относящуюся непосредственно к содержанию страниц. Например:

Использование файла .htaccess

Файл .htaccess (без расширения) тоже размещается в корневом каталоге сайта. Для борьбы с дублями в этом файле настраивают использование 301 редиректа.

Этот способ хорошо помогает сохранить показатели сайта при смене CMS сайта или изменении его структуры. В результате получается корректная переадресация без потери ссылочной массы.

При этом вес страницы по старому адресу будет передаваться странице по новому адресу.
301 редирект применяют и при определении основного домена сайта – с WWW или без WWW.

Использование тега REL = “CANNONICAL”

При помощи этого тега вебмастер указывает поисковику первоисточник, то есть ту страницу, которая должна быть проиндексирована и принимать участие в ранжировании поисковых систем. Страницу принято называть канонической. Запись в HTML-коде будет выглядеть следующим образом:

При использовании CMS WordPress это можно сделать в настройках такого полезного плагина как All in One Seo Pack.

Дополнительные меры борьбы с дублями для CMS WordPress

Применив все вышеперечисленные методы борьбы с дублями страниц на своем блоге у меня все время было чувство, что я сделал не все, что можно. Поэтому покопавшись в интернете, посоветовавшись с профессионалами, решил сделать еще кое-что. Сейчас я это опишу.

Я решил устранить дубли, которые создаются на блоге, при использовании якорей, я о них рассказал в статье «Якоря HTML». На блогах под управлением CMS WordPress якоря образуются при применении тега «#more» и при использовании комментариев. Целесообразность их применения довольно спорная, а вот дубли они плодят явно.
Теперь как я устранил эту проблему.

Сначала займемся тегом #more

Нашел файл, где он формируется. Вернее мне подсказали.
Это ../wp-includes/post-template.php
Затем нашел фрагмент программы:

Фрагмент, отмеченный красным цветом убрал

И получил в итоге строку вот такого вида.

Убираем якоря комментариев #comment

Теперь перейдем к комментариям. Это уже сам додумал.
Тоже определился с файлом ../wp-includes/comment-template.php
Находим нужный фрагмент программного кода

Аналогично фрагмент, отмеченный красным убрал. Очень аккуратно, внимательно, вплоть до каждой точки.

Получаем в итоге следующую строку программного кода.

Естественно все это проделывал, предварительно скопировав указанные программные файлы к себе на компьютер, чтобы в случае неудачи легко восстановить состояние до изменений.

В результате этих изменений при нажатии на текст «Прочитать остальную часть записи…» у меня формируется страница с каноническим адресом и без добавки к адресу хвоста в виде «#more-….». Также при клике на комментарии у меня формируется нормальный канонический адрес без приставки в виде «#comment-…».

Читайте также:  Вывод html с помощью javascript

Тем самым количество дублей страниц на сайте несколько уменьшилось. Но что там еще сформирует наш WordPress сейчас сказать не могу. будем отслеживать проблему дальше.

И в заключение предлагаю Вашему вниманию очень неплохое и познавательное видео по этой теме. настоятельно рекомендую посмотреть.

Всем здоровья и успехов. До следующих встреч.

Источник: http://inetmkt.ru/seo-optimizacia/dubli-stranits-reshenie-problemyi

Как найти и удалить дубли страниц на сайте — Денис Бидюков

Многих людей на каком-то этапе начинает беспокоить вопрос поиска дублей страниц на их сайте. Данной проблеме особенно подвержены интернет-магазины, особенно старые и на самописных движках (да, такие ещё встречаются). В принципе это не удивительно, поскольку любая работа над сайтом в итоге сопровождается появлением дублей.

В этой статье я не буду пичкать вас бесполезной теорией. В этом нет нужды ибо именно теории посвящены тысячи статей. Сейчас я вам расскажу о том, как определить наличие или отсутствие проблем и их характер.

Полное отсутствие проблем конечно же может констатировать только SEO-специалист. Вы же сможете только понять есть ли серьезные проблемы у сайта или нет.

В этой статье мы определим есть ли проблемы у сайта с дублями страниц и со страницами низкого качества.

Беглый осмотр

Чтобы понять каково текущее состояние сайта, достаточно зайти в Яндекс.Вебмастер в раздел «Страницы в индексе».

После этого мы попадем на страницу, где собрана вся информация касаемо процесса индексации нашего сайта. Первым делом смотрим на график, если видим примерно вот такую картину:

Зеленые столбики без синих означают что серьезных проблем у сайта нет. Но если же мы видим примерно вот такую картину:

Обратите внимание

То начинаем ерзать на стуле, поскольку это говорит о явных проблемах. Чуть ниже под графиком кликаем кнопку «Исключенные страницы» и смотрим с каким комментарием удаляются страницы.

Как видите в поле «Статус» финурируют понятия «Дубль», «Недостаточно качественная». Это очень плохо. Если же в колонке «Статус» фигурируют «Редирект», «Ошибка 404», «Запрешщено тем-то», то можете спать спокойно, у вашего сайта нет серьезных проблем. Спускаемся в конец страницы и смотрим количество страниц с исключенными страницами.

Значение в 2500 максимальное и говорит о том, что как минимум на вашем сайте 50 000 проблемных страниц. На самом деле это число может быть в десятки раз выше. На одном сайте с 800 товарами Яндекс загрузил свыше 4 миллионов страниц.

Это было самым большим количеством загруженных страниц, которое попадалось мне за мою практику. Из этого количества только 1 000 страниц является уникальными, все остальное дубли. Зато, со слов владельца сайта, этот самописный сайт очень удобный. Честно говоря в одно место такое удобство.

Разработчикам таких, с позволения сказать, CMS хочется оторвать руки. Две недели я буду просто удалять ссылки.

Но это ерунда, перед этим ко мне обратились одни товарищи с интернет-магазином на ViartShop, вот где полный атас. Там карточка товара может иметь до трех дублей без возможности установить хотя бы rel canonical.

тут только на удаление мусорных ссылок мне потребовалось бы от 40 до 50 дней, при том, что договор заключался всего на 60 календартный дней и за это время я должен был показать результаты в виде увеличения продаж. Само собой пришлось с товарищами расстаться.

Загадят сайт, а потом жесткие условия ставят.

Первый шаг: определяем характерные особенности «мусорных» ссылок

Для этого нам потребуется изучить ссылки исключенных страниц. Поскольку частая причина возникновения дублей — это фильтрация, то как правило общим признаком таких страниц является наличие знака вопроса «?» в  URL.

По идее мы можем закрыть их все всего лишь одной директивой «DisallowL *?*», но эта директива закроет вообще все страницы где есть знак «?». Если на сайте нет важных страниц с параметрами, то можно использовать эту директиву.

Но не всегда есть возможность разобраться с сайтом, а действовать надо прямо сейчас, то проще сначала закрыть от индексации страницы с конкретными параметрами.

Важно

Второй, по популярности, причиной появления дублей является пагинация. Эти страницы также необходимо закрывать от индексации.

Хорошо если в URL этих страниц имеются явные признаки в виде «?page=6» или «/page/6», но бывают случаи когда такие признаки отсутствуют, например пагинация имеет в URL просто цифру «blog/5», такие страницы будет сложно закрыть от индексации без «хирургического» вмешательства в движок.

Но в случае с моим подопытным таких проблем не было. Все ссылки с параметрами являются бесполезными и их можно смело закрывать от индексации. Остается только определить их ключевые признаки:

  • /catalog/dveri-iz-massiva?158=***
  • /mezhkomnatnye-dveri?sort=price&162=***
  • /catalog/stalnye-dveri/torex?156=***
  • /catalog/mezhkomnatnye-dveri?162=***&161=***
  • /products?page=23
  • /catalog/mezhkomnatnye-dveri/sibir-profil?162=***&sort=name
  • /catalog/dveri-s-plenkoj-pvh/?162=***

Если бы разработчики движка, на котором работает подопытный сайт, хоть чуть-чуть разбирались в SEO, то сделали бы параметры в виде массива:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter[162]=***&filter[sort]=name

Или каждый параметр снабжали бы префиксом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter_162=***&filter_sort=name

В обоих случаях можно было бы прикрыть все страницы фильтрации всего лишь одной директивой «Disalow: *filter*».

Но увы, криворукие программисты в данном случае забили на все что связано в SEO и иными «бесполезными» вещами, которые так или иначе связаны с SEO, и  не оставили мне другого выхода кроме как закрывать от индексации страницы фильтрации путем указания параметров.

Конечно же я мог внести изменения и устранить этот недостаток, но самописный движок всегда ящик Пандоры, стоит начать его ковырять и ошибки начинают выскакивать пачками. По этой причине я решил избежать действий, которые могли привести к непредвиденным последствиям..

В итоге у меня получился примерно вот такой список директив:

  • Disallow: *sort=*
  • Disallow: *page=*
  • Disallow: *153=*
  • Disallow: *154=*
  • Disallow: *155=*
  • Disallow: *156=*

Правильность директив можно проверить на странице «Инструменты -> Анализ robots.txt». Там в самом низу есть поле, копируем туда ссылку и жмем кнопку «Проверить».

Результат проверки разрешения URL

Если под надписью «Результат» мы видим параметр одной из диркектив, выделенный красным, значит ссылка запрещена, если же там зеленая галка, значит ссылка не запрещена к индексации. Необходимо корректировать параметр директивы, отвечающий за запрет к индексации подобных страниц.

Самое главное — это соблюдать осторожность в формировании параметров директив. Можно таких дров наломать, что мама дорогая. Я однажды в погоне за «хвостами» от переноса сайта с Wix закрыл от индексации весь сайт клиента. Приятным бонусом было таки исчезновение этих «хвостов» из индекса.

Второй шаг: удаление «мусора»

Тут у нас с вами два пути:

  1. Забить и ждать пока Яндекс сам все удалит из индекса.
  2. Ускорить этот процесс путем использования инструмента «Удаление страниц из поиска».

Первый вариант может затянуться на месяцы и если вы никуда не спешите, то можно в принципе не заморачиваться. Второй вариант тоже не самый быстрый, но побыстрее чем первый. Единственный его минус — это возможность удаления страниц из поиска до 500 в сутки.

Когда с этой проблемой я столкнулся на своем сайте, то там я не стал заморачиваться автоматизацией, поскольку надо было удалить всего 400 с лишним URL. Но даже на это у меня ушло два дня. Сидеть и вручную копипастом перебивать ссылки то ещё занятие.

Но для удаления нескольких тысяч я решил все-таки написать скрипт на PHP, который выворачивает весь индекс сайта и выбирает из него страницы, которые необходимо удалить. Эти страницы он складывает в файлик.

После этого нам остается «вырезать» из этого файла ссылки и вставлять в поле на странице «Удаление страниц из поиска».

К сожалению и в случае со скриптом есть одно «но», для работы со скриптом необходима регистрация и настройка Яндекс XML, поскольку скрипт работает на основе этого сервиса.

Перед использованием необходимо со своего аккаунта в Яндекс получить ключ и вставить его в скрипт. После этого скрипт будет готов к работе.

Ключ необходимо скопировать из ссылки , которая указана в верхней части страницы с настройками(см. фото).

Совет

Обратите внимание на лимиты, прежде чем приступать к работе со скриптом. Необходимо убедиться что лимит запросов к сервису достаточно велик. Ни в коем случае не запускайте скрипт на хостинге, ничего хорошего это не даст.

Источник: https://dampi.ru/kak-nayti-i-udalit-dubli-stranits-na-sayte

Внутренние дубли страниц сайта: последствия, поиск, удаление

Привет, друзья! Сейчас оптимизация сайта под поисковые системы это по большому счету систематический труд по его развитию, нежели применение каких-то секретных действий и технологий. Одним из таких систематических мероприятий является удаление из выдачи поисковиков дублей контента. Вот об этом действии и пойдет речь в сегодняшнем материале.

В первую очередь, нужно ответить на вопрос, почему дубли страниц негативно сказываются на его продвижении. На это есть несколько причин:

  1. Размывается внутренний ссылочный вес. Это происходит в том случае, когда в структуре сайта некорректные линки ссылаются на дубли страниц вместо того, чтобы увеличивать «значимость» продвигаемых документов.
  2. Смена релевантных страниц. Например, вы продвигаете карточку товара, текст которой полностью дублируется в категории. Поисковая система раздел может посчитать более релевантным. Итого получится, что вместо того, чтобы пользователь сразу попадал на товар, он направляется в общую категорию, где продвигаемый продукт может просто потеряться среди других. Потенциальный клиент может превратиться в уходящего посетителя.
  3. Уникальный контент, который представлен только в одном месте, ценнее того, который дублируется во множестве веб-документов.

В основном дубли появляются из-за особенностей систем управления контентом (CMS), либо из-за действий вебмастера, который копирует тексты или создает практически идентичные документы. Они бывают полными или частичными (здесь я не беру в расчет момент, когда тексты копируются на другие сайты). Полные — это когда контент полностью идентичен под другим URL, частичные — когда частично.

На мой взгляд, если один и тот же кусок контента частично дублируется в нескольких документах на сайте в пределах 10-15%, то ничего страшного. Если же больше 50%, то с этим уже нужно что-то делать.

Соотношение «реальных» страниц с количеством проиндексированных

Иногда встречаю фразы типа:

На первый взгляд какая-то проблема с индексацией в отечественном поисковике, но после уточняющего вопроса о количестве опубликованных постов, все становится на свои места. Оказывается у автора в блоге всего лишь 30 записей.

Читайте также:  Брокеры для бинарных опционов

Это говорит о том, что с Яндексом все в порядке, а вот в Гугле большое количество дублей.

В связи с этим нужно сначала соотнести количество «реальных» страниц на сайте, которые могут быть полезны пользователю и (или) поисковику, а также не запрещены к индексации, с количеством проиндексированных. Как это сделать?

И снова пример на основе блога. Сейчас количество проиндексированных документов выглядит следующим образом.

Источник: https://Sosnovskij.ru/vnutrennie-dubli-stranic-sajta/

Дубликаты страниц сайта. Простой поиск дублей — Академия SEO (СЕО)

Ваш сайт продвигается слишком медленно? Постоянно случаются откаты на более низкие позиции? И это при том что внутренняя и внешняя оптимизация веб-ресурса выполнена на высшем уровне?

Подобное случается по нескольким причинам. Самая частая из них –дубликаты страниц на сайте, имеющих разные адреса и полное или частичное повторение содержания.

Чем опасны дубли страниц на сайте

Дубликаты страниц на сайте делают текст, размещенный на них неуникальным. К тому же снижается доверие к подобному веб-ресурсу со стороны поисковых систем. 

Чем же еще опасны дубли страниц на сайте?
 

  1. Ухудшение индексации. Если веб-ресурс достаточно объемный и по каким-либо причинам регулярно происходит дублирование контента на сайте (бывают случаи, когда у каждой страницы существует по 4–6 дублей), это достаточно негативно влияет на индексацию поисковиками. 

    Во-первых, из-за того, что роботы поисковиков расходуют время при индексации лишних страничек.

    Во-вторых, поисковики постоянно выполняют поиск дублей страниц. При обнаружения таковых они занижают позиции веб-ресурса и увеличивают интервалы между заходами своих роботов на его страницы. 

     

  2. Ошибочное определение релевантной страницы. На сегодняшний день алгоритмы поисковых систем обучены распознавать дублирование контента на сайте, который индексируется. Но выбор поисковых роботов не всегда совпадает с мнением владельца веб-ресурса. В итоге в результатах поиска может оказаться совсем не та страничка, продвижение которой планировалось. При этом внешняя ссылочная масса может быть настроена на одни странички, а в выдачу будут попадать дубликаты страниц на сайте.

    В результате ссылочный профиль будет неэффективным и поведенческие факторы будут колебаться из-за распределения посетителей по ненужным страницам. Другими словами, будет путаница, которая крайне негативно скажется на рейтинге Вашего сайта.

     

  3. Потеря естественных ссылок. Посетитель, которому понравилась информация с Вашего веб-ресурса, может захотеть кому-нибудь ее рекомендовать. И если эту информацию он почерпнул на странице- дубликате, то и ссылку он будет распространять не ту, которая требуется.

    Такие ценные и порой дорогие естественные ссылки будут ссылаться на дубли страниц на сайте, что в разы снижает эффективность продвижения.

 

Дублирование контента на сайте. Причины

Чаще всего дубли страниц на сайте создаются по одной из причин:

  1. Не указано главное зеркало сайта. То есть одна и та же страница доступна по разным URL — с www. и без.
  2. Автоматическая генерация движком веб-ресурса. Такое довольно часто происходит при использовании новых современных движков. Поскольку у них в теле заложены некоторые правила, которые делают дубликаты страниц на сайте и размещают их под другими адресами в своих директориях.
  3. Случайные ошибки веб-мастера, вследствие которых происходит дублирование контента на сайте. Результатом таких ошибок часто становится появление нескольких главных страничек, имеющих разные адреса.
     
  4. Изменение структуры сайта, которое влечет за собой присваивание новых адресов старым страницам. При этом сохраняются их копии со старыми адресами.

Как найти дубликаты страниц

Проверить сайт на дубли страниц поможет один из несложных методов:

  1. Анализ данных в сервисах поисковых систем для вебмастеров.

Источник: https://seo-akademiya.com/baza-znanij/vnutrennyaya-optimizacziya/dublikatyi-stranicz-sajta.-prostoj-poisk-dublej/

Поиск и устранение дублей страниц на сайте WordPress

Пока писал эту статью, на почту поступило приглашение поучаствовать в проводимом на сайте 9seo.ru марафоне по увеличению посещаемости сайта. Некоторое время я размышлял, что мне это может дать и как правильно поступить.

В итоге решил, что со своим режимом дня и загруженностью на основной работе вряд ли смогу участвовать в интенсивной борьбе за призовые места.

К тому же, основная моя цель – не обеспечение дохода стороннему ресурсу (участие в марафоне на 9seo стоит 999 рублей), а развитие собственных блогов на WordPress.

Обратите внимание

Поэтому буду набивать шишки и получать опыт продвижения в том ритме и с той скоростью, которую способен осилить.

Возвращаюсь к собственному марафону, замечу, что для многих блогеров какая-то (возможно, подавляющая) часть шагов, которые я буду предпринимать и подробно описывать – этап давно пройденный.

Так что, буду ориентироваться на то, что информация может оказаться полезной для новичков и профессиональных «чайников», пытающихся разобраться в теме «Развитие блога на WordPress». Итак, шаг первый:

Устранение дублей страниц

Оптимизация индексации – важная часть работ по внутренней оптимизации ресурса. Для роботов поисковых систем страницы с частично или полностью одинаковым содержанием и различающимися адресами представляют дублированный контент. По какой бы причине – недосмотру или халатности вебмастера – ни появились дубли страниц, их необходимо выявлять и устранять.

Неуникальный дублированный контент, кроме того, что не приносит блогу на WordPress особой пользы, еще и способствует занижению основных страниц сайта в поисковой выдаче и опасен наложением фильтров от ПС.

Другой негативный момент заключается в том, что при дублировании страниц дублируются и ссылки, расположенные на них, следовательно, поисковики видят уже не одну ссылку с вашего блога, а столько, сколько найдено было дублей страницы.

Главный инструмент для борьбы с дубликатами – файл robots.txt, позволяющий исключать из поиска все ненужные страницы. В репозитории WordPress при желании можно найти различные плагины для выполнения этой задачи. Но мы легких путей не ищем, будем избавляться от мусора в поиске классическими методами.

Откуда берутся дубли страниц

Дубли в выдаче – результат архитектуры движка WordPress, особенностей формирования и представления информации в этой CMS. В оправдание WordPress можно лишь сказать, что эта болезнь преследует и другие системы управления контентом с динамическим представлением.

Дубли могут быть как полными – когда страницы отличаются лишь адресом, так и неполными – когда контент на страницах дублируется частично.

Источниками дублированного контента в WordPress служат теги, категории, RSS-лента, трэкбэки, комментарии, печатные версии страниц, неудачные реализации шаблонов.

Как найти дубли страниц на сайте

Проверить свой сайт на дубли страниц можно по-разному. Самый простой способ увидеть свой блог глазами поисковой системы – воспользоваться инструментами вебмастера от Гугл или Яндекс. Вот что показывал Яндекс Вебмастер до проведения работ по удалению дублей страниц.

Как видим, среди проиндексированного материала достаточно много мусора — при том, что основную часть дублей Яндекс отсеял самостоятельно.

Источник: http://vervekin.ru/poisk-i-ustranenie-dublej-stranic-na-sajte-wordpress.html

Как найти дубли страниц на своем сайте?

Они критично воспринимаются поисковыми системами Яндекса и Гугла и могут привести к серьезным потерям в позициях или к наложению фильтра. Чтобы этого избежать, важно вовремя находить и избавляться от дублей.

Дубликаты на сайте — в чем их опасность?

Дело в том что поисковикам нужно определить какую страницу ранжировать по данном ключу или кластеру ключей и в случае дублей ему придется выбирать из одинаковых страниц одну и показать ее в результатах выдачи.

Как они получаются?

Проблема дублирования страниц перекликается с проблемой поиска канонического адреса страницы поисковым анализатором Яндекса и Гугла. В ряде случаев робот может определить канонический адрес, например, если в динамическом URL был изменен порядок параметров:

?&cat=10&prodyct=25

По сути, это та же страница, что и

?prodyct=25&cat=10

Но в большинстве случаев, особенно при использовании ЧПУ, каноническую страницу определить сложно, поэтому, полные и частичные дубли попадают в индекс.

Возникновение такой дилеммы может привести к негативным последствиям:

  1. Снижению релевантности основной посадочной страницы и позиций ключевых слов.
  2. «Скачкам» позиций ключевых слов.
  3. Общему понижению в ранжировании, когда проблема приобретает масштабы не отдельных URL, а всего сайта.

Какими бывают дубли?

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам.
  • Частичные дубли — когда часть контента дублируется на многих страницах, но они уже не являются полными копиями.

Полные дубликаты — откуда они берутся?

1 Одна и та же страница по адресу с «www» и без «www», со слешем, без слеша.

Такую проблему еще часто называют: «Не выбрано главное зеркало сайта».

2 Дубли главной страницы по адресам:

http://mysite.ru/index, http://mysite.ru/index/, http://mysite.ru/index.php, http://mysite.ru/index.php/, http://mysite.ru/index.html,

http://mysite.ru/index.html/.

Один из этих URL может быть адресом главной страницы по умолчанию.

3  Дубли, сгенерированные реферальной ссылкой.

Когда пользователь приходит по URL адресу с параметром «?ref=…», должно происходить автоматическое перенаправление на URL без параметра, что, к сожалению, часто забывают реализовать программисты.

4 Иерархия URL.
Так, например, один и тот же товар может быть доступен по четырем разным URL-адресам:

http://mysite.ru/catalog/dir/tovar.php, http://mysite.ru/catalog/tovar.php, http://mysite.ru/tovar.php,

http://mysite.ru/dir/tovar.php.

5 Некорректная настройка страницы 404 ошибки, приводящая к возникновению «бесконечных дублей» страниц вида:

http://mysite.ru/av-test-av

6 Страницы с utm-метками и параметрами «gclid».

Частичные дубликаты — что представляют из себя?

Как и в случае с полными дублями, частичные возникают, в первую очередь, из-за особенностей CMS сайта, но значительно труднее обнаруживаются. Кроме того, от них сложнее избавиться, но об этом чуть ниже, а пока наиболее распространенные варианты:

1 Страницы пагинаций, сортировок, фильтров.

Как правило, каким-то образом меняя выводимый товарный ассортимент на странице категории магазина, страница изменяет свой URL (фактически все случаи, когда вывод не организован посредством скриптов). При этом SEO-текст, заголовки, часто и мета-данные(тайл, дескрипшен, h1) — не меняются.

Например:

http://mysite.ru/catalog/category/ — стартовая страница категории

http://mysite.ru/catalog/category/?page=2 — страница пагинации

При том, что URL адрес изменился и поисковая система будет индексировать его как отдельную страницу, основной SEO-контент будет продублирован.

Это нужно доработывать, дописывать в тайтл — Страница 2, в дескрипшен — Страница 2 или другую переменную информацию, h1 может быть дублирован.

2  Страницы отзывов, комментариев, характеристик

Достаточно часто можно встретить ситуацию, когда при выборе соответствующей вкладки на странице товара, происходит добавление параметра в URL-адрес, но сам контент фактически не меняется, а просто открывается новый таб.

3 Версии для печати, PDF для скачивания

Данные страницы полностью дублируют ценный SEO-контент основных страниц сайта, но имеют упрощенную версию по причине отсутствия большого количества строк кода, обеспечивающего работу функционала. Например:

http://mysite.ru/main/hotel/al12188 — страница отеля http://mysite.ru/main/hotel/al12188/print — ЧБ версия для печати http://mysite.ru/main/hotel/al12188/print?color=1 — Цветная версия для печати.

Источник: https://fairdirect.ru/blog/kak-najti-dubli-stranic-na-svoem-sajte/

Ссылка на основную публикацию