Как бороться с повторяющимся контентом

Нет времени читать? Отправим материал на почту

Материал успешно отправлен на вашу почту!

Содержание: [Скрыть]

Количество информации в сети ежедневно растет, ее объем увеличивается в огромных масштабах. Неудивительно, что появилась такая проблема, как дубли страниц на сайте. Под этим термином подразумеваются веб-страницы, которые не отличаются по содержанию, но имеют отличные друг от друга адреса в интернете. Чтобы у сайта не возникло проблем, необходимо регулярно проводить поиск дублей страниц сайта. Для этого существуют инструменты анализа, которые помогают своевременно обнаружить проблему. Знакомимся с методикой анализа и последствиями бездействия, когда сохраняются на портале, остается дублированный внешний или внутренний контент.

Что такое дубли. В чем опасность

Дубли информации на сайте появляются, когда одна и та же информация отображается по нескольким URL–адресам. Самый простой способ создать дублированный контент – сделать копию страницы. Увидеть проблему можно с помощью анализа портала на наличие дублированной информации. Но это не единственная причина того, что возникают повторения информации на страницах сайта. Проблема может быть связана с тем, что не получается убрать страницы с тестовым режимом, они продолжают индексироваться поисковиками, либо поиск дублирований осуществляется за счет невозможности организовать переадресацию с нескольких интернет-точек на один адрес.

Опасность того, что поисковик находит дубли контента, заключается в потере рейтинга портала. В результате конкуренты будут выходить на более высокие позиции в поиске, а значит и получать больше клиентов. Такая ситуация происходит, потому что алгоритм не может разглядеть точный ответ на вопрос пользователя. Достигнуть уникальности и оригинальности контента, который будет отвечать требованиям поисковиков можно, только, если будет сделана проверка дублирований информации с последующим удалением повторов.

Почему появляются дубли

Поиск дублированного контента может быть необходим в рамках одного портала в результате человеческого фактора, либо особенностей кода. С целью улучшения работы информационного ресурса необходимо найти причину возникновения дублей. Сео специалисты часто выявляют следующие источники образования дублированного контента:

дублирующая информация образуется в результате ошибки контент-менеджера. Человек, занимающийся порталом, мог дважды вставить информацию на сайт, создав две разные страницы с идентичной информацией. Узнать о проблеме можно, проведя анализ сайта дубли страниц. Избежать подобной ошибки, поможет создание контент-плана. Он даст возможность отслеживать публикации;
поиск дублей информации на сайте часто выявляет ошибку из-за параметров адреса URL. Они возникают при применении фильтров, создании UTM-меток, создании ошибок в пагинации или желании направить через URL технические данные;
проверка дублей может выявить наличие продуктов, которые продает портал с однотипными характеристиками. Например, на разных страницах представлена одна и та же модель футболки с различающейся расцветкой. В данном случае простым выходом из ситуации будет одна страница с вариантами выбора расцветки при помещении продукта в корзину;
поиск дублей может найти повторы в региональных порталах, которые копируют страницы для отдельных городов, регионов. Проверка сайта на дублирование актуальна в данном случае;
повторный контент на сайте появляются в тех случаях, когда один и тот же товар в интернет-магазине присутствует в разных категориях;
проверка сайта на дубли страниц онлайн часто сталкивается с возникновением повторами из-за технических проблем. Анализ позволяет быстро определить проблемы.

Как найти дубли на своем сайте

Проверка на дубли осуществляется с помощью 3 основных методов. Поиск дублей страниц сайта проводят сервисами:

повторение страниц на сайте быстро находит автоматизированный Гугл-вебмастер, который позволяет осуществить анализ. Для того чтобы им воспользоваться и осуществить поиск дублированной информации, потребуется зайти в панель управления Google и выбрать пункт меню «Оптимизация HTML». Анализ страниц через поиск покажет список повторяющихся заголовков и описаний. Проверка сайта таким способом возможна для полного повтора контента;
поиск дублированного контента часто выполняют профессиональные оптимизаторы через программу Xenu. Проверка повторяющейся информации с ее помощью позволяет проанализировать весь портал на наличие повторных заголовков;
самый простой способ провести анализ сайта – просмотреть поисковую выдачу. Для работы с поисковиком, потребуется ввести запрос site:mysite.ru -site:mysite.ru/&. Анализ информации покажет как частичное, так и полное повторение контента на портале.

После того, как удалось найти повторную информацию в полном объеме, потребуется позаботиться о ее удалении. Еще один анализ дублирований на портале, позволит оценить результат работы.

Проблемы внутреннего и внешнего дублирования

Поиск информации может привести к выявлению внутренних и внешних повторений контента. Внутренние повторы размещаются на одном портале. В такой ситуации несколько подстраниц определенного адреса отображаются идентично по одному ключевому слову. Это можно увидеть через проведение детального анализа контента. Если ситуацию не устранить, найденное повторение информации через поисковик приведет к тому, что портал не будет отображаться в выдаче, либо систематически будет из нее исчезать. В данном случае убрать повторения страниц будет довольно сложно.

Поиск дублирования приводит к обнаружению воровства контента, либо рекламных площадок, где владелец портала, его менеджер самостоятельно опубликовал тот же текст, что и на своем ресурсе. В таком случае контент в исходнике, будет отображаться в поисковой выдаче, только если портал хорошо оптимизирован. Анализ позволит оценить существующие проблемы.

Существует дублированный контент со 100% показателями, он носит название полного дублирования. Кроме того, поиск повторной информации может выявить, что она взята с одной страницы и частично присутствует на других адресах. В данном случае повторение называется частичным дублированием и выявляется с большим трудом.

Причины внутреннего дублирования

Поиск дублей страниц сайта внутри системы однажды придётся проводить любому владельцу ресурса. Самой распространенной причиной того, что будет необходима проверка – товары, размещенные по разным адресам. Чаще всего контент-менеджеры не хотят делать двойную работу, создавая уникальные описания для каждого товара и проводя проверки. Поиск дублей - распространенная проблема, связанная с тем, что для каждой пары обуви в 16 расцветках не хочется делать отдельное описание. Потребуется решить вопрос, как избавиться от дублированного контента.

Как бороться с проблемой дублирования контента

Когда требуется решить, как убрать дубли страниц, но очевидного решения нет, можно воспользоваться внутренним указанием для поисковиков, где находится главная страница. Для этого используется тег rel = canonical. Проверка дублированного контента перестанет выявлять повторение контента, если разработчик позаботится о создании карточки продукта с возможностью настройки критериев (размера, расцветки). В тех случаях, когда проверка на повторную информацию продолжает выявлять дублирование, можно для каждой страницы создать отдельный адрес со своими особенными ключами, которые помогут осуществить оценку порталов.

Как создается внешнее дублирование

Анализ сайта во внешней среде поможет отыскать тех, кто своровал информацию и воспользовался ей в своих личных целях. Проверка дублей страниц часто выявляет копипаст. Создатели страниц с ворованным контентом не задумываются о последствиях и необходимости осуществлять проверку данных на повторения. В данном случае у уникальной страницы будет преимущество, так проверка контента всегда приводит к первой странице, где был опубликован оригинальный контент. Дубли могут возникнуть во внешней интернет-среде и в том случае, когда разработчик создал субдомен для отдельного региона или города. Чтобы убрать повторную информацию, в данном придется выложить в интернет оригинальную информацию, в таком случае поиск дублей даст отрицательный результат.

Как найти дубли страниц на сайте?

Поиск дублей в рамках портала может проводиться онлайн, либо через специальные программы. Для лучших результатов в анализе необходимо пользоваться сразу несколькими методами. Проверка повторяющегося контента в онлайн-сервисах может дать поверхностную оценку ситуации. Установленная специализированная программа оценит наличие повторений более детально. Например, Netpeak Spider. ПО позволяет просканировать данные и обнаружить как полные и частичные дубли, так и повторяющиеся теги и метатеги. Еще одна популярная страница для анализа сайта на дубли страниц — XENU. Она дает возможность провести полноценный анализ веб-ресурса и найти его дубли. XENU является программой для проверки сайта на дубли страниц онлайн по полным совпадениям текстовых фрагментов. Однако с поиском частичных дублей могут возникнуть сложности. Также анализ хорошо осуществляет утилита Screaming Frog SEO Spider. Кроме того, в вопросе, как найти дубли страниц на сайте важную роль играют онлайн-сервисы, такие как ApollonGuru и Check Your Redirects and Statuscode. Последний вариант работает только в тех случаях, когда требуется проверка информации внутри одного портала.

Поиск дублированного контента может проводиться с помощью панелей веб-мастера Яндекса и Google. Для всех вариантов потребуется осуществлять настройки параметров по порталу.

Как бороться с дублями страниц на сайте

Когда анализ информации в сети показывает наличие покоряющегося контента, предпочтительнее использовать ручной метод исправления ситуации. Дубли страниц на сайте можно исправить путем работы с кодом, но для этого потребуется хорошо разбираться в работе с CMS. Известны 4 метода оценки повторного контента с последующим их устранением:

Существует известный метод для устранения повторной информации. Он носит название 301 редирект и требует навыков в работе с языком программирования. Работать, чтобы устранить повторение, придется через конфигуратор «.htacces». Метод подходит для тех случаев, когда выявляются ошибки в коде;
Ручная работа над контентом, с которой сможет справиться даже начинающий. Он позволяет устранить ситуацию, когда поиск дублей нашел статистические проблемы;
Через введение файла запрета индексации «robots.txt», можно решить вопрос, повтора контента и его воровства навсегда. Файл robot.txt дает возможность заблокировать скопированные страницы при помощи директивы Disallow. При обработке данных в файле поисковые алгоритмы получают следующие виды инструкций:

Частичный доступ, который предполагает возможность сканирования отдельных элементов веб-ресурса.
Полный доступ. В процессе допускается возможность сканирования всех данных.
Полный запрет, то есть сканировать нельзя ни один элемент на сайте.

Важно учитывать, что даже при внесении страницы в robots.txt с директивой Disallow, она все равно может индексироваться поисковыми системами и выпадать в результатах выдачи по запросу. Это говорит о том, что такие ресурсы уже были проиндексированы ранее, а также о том, что на них есть внутренние и внешние ссылки. Все инструкции в файле больше считаются рекомендательными. Следовательно, они не гарантируют полное удаление дублей.

Метатег <meta name="robots" content="noindex, nofollow> и <meta name="robots" content="noindex, follow>

Этот метатег дает роботу команду не индексировать данные и не переходить по url-адресам. Принцип действия схож с robots.txt, однако, в этом случае используется прямая команда, которая не будет проигнорирована поисковыми алгоритмами. Метатег <meta name="robots" content="noindex, nofollow> и <meta name="robots" content="noindex, follow> дает указание роботу не индексировать данные документа, но переходить по адресам, которые он содержит. Чтобы воспользоваться этим способом избавления от дублей, необходимо на страницах-дублях в блоке “Head” поставить один из представленных выше метатегов.

Через размещение тега «rel=canonical». С его помощью проверка на наличие дублированной информации будет выявлять в первую очередь страницу исходник. Этот способ обычно применяется тогда, когда удалять веб-ресурс нельзя, при этом его нужно сделать открытым для просмотра. Тег используется для удаления дублирования на страницах фильтров, ресурсах с get-данными. Также он применяется для печати. Важно учитывать, что атрибут совместим не со всеми поисковыми системами. Например, google с ним работает успешно. А вот Яндекс в принципе его игнорирует.

Поиск повторной информации – только первый этап борьбы с проблемой ворованного контента и ошибок в работе над порталом. Гораздо сложнее будет устранить повторения и в дальнейшем предупредить их возникновение. Сделать это возможно с помощью расстановки правильных тегов.

Выводы

Дубли страниц на сайте - распространенная проблема, с которой сталкиваются многие владельцы порталов. Проверка необходима, чтобы ресурс не терял своих позиций в поисковике, а конкуренты размещались ниже в поисковой выдаче. Дубли возникают неожиданно, даже если порталом управляет профессионал. По этой причине поиск дублированного контента будет проводиться систематически, как профилактическая работа. Лучший способ убрать повтор информации - заранее позаботиться о том, чтобы каждая страница была с уникальным описанием и отдельными ключами. В тех случаях, когда выполняется проверка наполнения портала, важно запомнить следующую информацию:

дубли контента в полном и частичном формате снижают позицию портала в рейтинге поисковиков и обнаруживаются, когда производится поиску повторений;
проще всего проводить анализ контента на наличие полного повтора. Его будет легче удалить и обнаружить;
частичные дубли страниц приводят к постепенному, едва заметному понижению рейтинга, который потом сложно восстановить. Важно их найти и устранить;
если детально изучить вопрос, можно подобрать для себя оптимальное сочетание программ, поисковых веб-консолей от Яндекса и Google для оценки наличия внешних или внутренних дублей.