Дублированный контент: причины и решения. Дублированный контент: выявление и методы устранения

1. Введение в проблему

В настоящее время все острее и острее встает проблема дублирования информации в интернете. Чаще всего такое дублирование совершается умышленно, с нарушением авторских прав. Злоумышленники используют авторский контент для наполнения собственных сайтов, чтобы извлекать для себя выгоду.

Такое дублирование информации ухудшает выдачу поисковых систем, вследствие чего последние активно борются с этим явлением. Действительно, если пользователь получает по запросу 10 одинаковых документов («одинаковость» определяется пользователем по ), это вряд ли добавляет популярности поисковику. Несколько лет назад такая ситуация наблюдалась в Рамблере, вследствие чего поисковик растерял часть своего рейтинга. Однако сейчас Rambler отфильтровывает и скрывает дубликаты.

Также нужно отметить, что дублирование контента засоряет индекс поисковика, ему становится труднее выдавать быстрые ответы пользователю. При этом все документы нужно регулярно индексировать, а появление новых документов с неоригинальным контентом явно вредит скорости индексации.

2. Теория по определению «нечетких дубликатов»

a. Что такое «нечеткий дубль»

Для начала нужно определиться с терминологией. Единого мнения по этому поводу в еще нет, и поэтому данная терминология отталкивается просто от здравого смысла.

Дубль (дубликат) web-документа – точная копия web-документа. «Нечеткий дубликат» web-документа – web-документ, частично измененный в содержательной части и/или в части форматирования (использование других тегов html для оформления страницы).

Мы будем трактовать «дубликат web-документа» только с точки зрения поисковой системы, а не пользователя. Поэтому мы не будем рассматривать такое явление как «копирайтинг», т.е. переписывание текста специально для поисковых систем с использованием других слов, но с сохранением общего смысла. Такой текст для поисковика будет всегда оригинальным, т.к. смысл текста компьютеры пока различать не могут.

Существует несколько основных методов определения дубликатов.

b. Метод «описательных слов»

Данный метод работает по следующему принципу.

Сначала формируется небольшая (ок. 2000-3000 слов) выборка. Выборка должна удовлетворять следующим условиям:

С ее помощью можно достаточно полно описать практически любой документ в сети
- описание документа не должно быть при этом избыточным

Таким образом, для формирования выборки нужно отбросить слова, которые наиболее и наименее употребительны, т.е. не учитывать стоп-слова и различные узко тематические термины. Также в выборку не попадают прилагательные, так как они не несут в русском языке смысловой нагрузки.

Далее каждый документ сопоставляется с выборкой и рассчитывается вектор, размерность которого равна количеству слов в выборке. Компоненты вектора могут принимать два значения – 0 или 1. 0 – если слова из выборки нет в документе, 1 – если слово встречается в документе. Далее документы проверяются на дублирование путем сопоставления их векторов.

По такому алгоритму Яндекс определяет нечеткие дубликаты.

c. Метод шинглов

Метод шинглов заключается в следующем. Для всех подцепочек анализируемого текста рассчитывается «контрольная сумма». Контрольная сумма (или "сигнатура") - это уникальное число, поставленное в соответствие некоторому тексту и/или функция его вычисления. Функция вычисления контрольных сумм может преследовать несколько целей: например "невзламываемость" (минимизируется вероятность того, что по значению контрольной суммы можно подобрать исходный текст) или "неповторяемость" (минимизируется вероятность того, что два разных текста могут иметь одну контрольную сумму) - Электронный журнал "Спамтест" No. 27.

Обычно используются следующие алгоритмы вычисления контрольных сумм: fnv, md5, crc. После вычисления контрольных сумм строится случайная выборка из полученного набора. По этой выборке документ можно сличать с другими документами, для которых также предварительно рассчитана выборка.

Данный метод расчета является достаточно ресурсоемким и его можно обойти, незначительно изменив текст, так как, прежде всего, шинглы зависят от расстояния между словами.

Сейчас метод шинглов эволюционировал до алгоритма «супершинглов», при котором стоится ограниченный набор контрольных сумм. Эксперименты на РОМИП привели к следующим результатам – 84 шингла, 6 супершинглов над 14 шинглами каждый. Тексты считаются совпавшими при совпадении хотя бы двух супершинглов из 6.

Официальными лицами неоднократно заявлялось, что Яндекс не рецензент и не будет бороться с проблемой воровства контента в сети .

Вот официальный ответ А. Садовского:

... поиск Яндекса при обнаружении дубликатов пытается определить оригинал документа. Существующие алгоритмы, конечно, несовершенны и мы работаем над их улучшением. Что касается юридического регулирования, поисковые системы пока не могут идентифицировать авторство текста. В случае удаления из сети «тыренного» контента (например, в результате действий правообладателя), Яндекс также удалит его из базы по мере обхода роботом. Этот процесс можно ускорить, воспользовавшись формой http://webmaster.yandex.ru/delurl.xml

Теперь рассмотрим, а что есть для Яндекса «дубликат документа»? Автор предлагает следующую трактовку. (Если ниже приведенный текст показался вам знакомым, то не думайте плохого, автор не так давно пытался активно обсуждать данную проблему на форумах)))

Существует два вида дубликатов: «нечеткие дубликаты» и «полные дубликаты».

«Нечеткие дубликаты» зависят от сниппета, т.е. определяются фактически запросом пользователя. Происходит это следующим образом.

1. Пользователь задает запрос.
2. Яндекс вычисляет релевантность сайтов запросу и ранжирует сайты, но пока еще не показывает пользователю.
3. Далее Яндекс сравнивает сниппеты отобранных документов на предмет определения дубликатов (возможно, сниппеты сравниваются методом шинглов).
4. И наконец, выдает отфильтрованную выдачу, удаляя некоторые дубликаты (по какому принципу оставляются те или иные документы – неясно; возможно, выбирается самый релевантный документ, и вместе с ним в выдачу попадают наименее похожие на него документы; возможно, играет роль только ссылочное окружение сайтов).

Существование фильтр такого типа косвенно доказывают слова Садовского (пост №9) и то, что выдача с различными настройками поиска (конкретно, количество отображаемых фрагментов со словами запроса) различная.

При настройках «отображать не более 5 фрагментов» в выдаче больше сайтов, чем при настройках «отображать не более 1 фрагмента». Попробуем запрос «Во & второй & главе & реферата & посвящена & практике & маркетинговой & деятельность & организации & на & примере & сервер & дукса» (запрос задается без кавычек!) - в первом случае (отображать 1 фрагмент в сниппете) в выдаче 21 сайт, во втором (5 фрагментов) – 27 сайтов.

Все здесь логично – при отображении одного пассажа в сниппете, сниппеты более похожи, чем когда отображается 5 пассажей в сниппете. Например, во втором случае у второго сайта сниппет отличается от сниппетов первого и третьего сайта.

Теперь разберемся с «полными дубликатами». Автор считает, что такие дубликаты определяются в момент индексации страницы. Это удобно, так как сразу позволяет отсечь мусор и не добавлять в базу данных поисковика дублированную информацию.

Метод определения дубликатов - «метод описательных слов» (о котором говорилось выше).

Страницы, выявленные как полные дубликаты – выкидываются из базы. Часто такое происходит со страницами одного сайта (например, каталог товаров, когда значимой информации гораздо меньше, чем слов в навигационной части). По какому принципу Яндекс выкидывает те или иные дубликаты – неизвестно, скорее всего, по совокупности признаков как то: временные факторы, «рейтинг ресурса», доверие к ресурсу и проч.

Как Яндекс определяет первоисточник в случае обнаружения «нечетких дублей» и определяет ли его? Давайте попробуем разобраться…

Сначала выделим факторы, которые могут указывать на первоисточник контента…

Дата создания документа
- релевантность документа запросу
- «доверие к ресурсу» (например, больше всего можно доверять ресурсам, имеющим хорошую позицию в Каталоге Яндекса, и высокую посещаемость)
- перелинковка между дубликатами (например, если все дубликаты ссылаются на один и тот же документ – он и есть первоисточник)

Попробуем осуществить небольшой эксперимент. Возьмем страницу href=http:// zoom.cnews.ru/ru/publication/index.php?art_id80=1523 и фразу "По дизайну Lumix FZ50 похожа на свою 8-мегапиксельную предшественницу FZ30". Явно это оригинал. Теперь посмотрим, кто еще использует текст статьи: зададим запрос с использованием параметра rd=0. Без rd в выдаче только сайт №1 и №5.

Характеристики сайтов следующие (заметим, что ссылаются только на первую страницу, у остальных бэклинков нет):

Станица тИЦ Рубрика каталога PR PR стр-цы
zoom.cnews.ru/ru/publication/index.php?art_id80=1523 3800 Да 6 4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50 170 Да 5 0
www.apitcomp.ru/analytic/genre3/page637 700 Да 4 0
www.toplist.ru/card/35859 110 Нет 3 0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316 0 Нет 1 0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323 0 Нет 0 0
www.media.nrd.ru/index.php?showtopic=3323&st=100 40 Нет 0 0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523 0 Нет 0 0

Заметим, что сниппеты у всех сайтов одинаковые.

На первый взгляд совершенно неясно, почему Яндекс отфильтровал все сайты кроме пятого. Сайт явно не является авторитетным в глазах Яндекса. Логичнее было бы оставить в выдаче страницу с сайта www.apitcomp.ru – сайт является более авторитетным или оставить страницы с форумов (позиция 6 и 7).

Аналогично проверим для страницы http://www.3dnews.ru/digital/lumix_fz50/ и фразы "В наше время, когда покупателей, жаждущих хороших характеристик". Жирным выделены сайты, которые показываются без rd=0, красным – первоисточник, который, кстати, фильтруется!

Страница тИЦ YACA LS LP PR Page PR
saturn-plus.ru/ 70 Да 54 20349 3 3
saturn.24online.ru/ 0 Нет 1 1 0 0
www.3dnews.ru/digital/lumix_fz50/print 11000 Да 0 0 6 2
fotomag.com.ua/handbook14.html 400 Да 0 0 4 0
Deshevshe.net.ua/ua/review-73/4.html 80 Нет 0 0 4 0
Ephotolink.ru/?mod=articles&act=show&sort=date&page=9 1400 Да 0 0 4 1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html 0 Нет 0 0 0 0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&… 4300 Да 0 0 6 0
www.velc.ru/podderjka/stati/lumix_fz50/ 120 Да 0 0 3 0
Ephotolink.tkat.ru/?mod=articles&id_article=21007 10 Нет 0 0 3 0
www.ru-coding.com/rss.php?p=501 130 Да 0 0 3 0
www.toprunet.com/article.php?id=6388 200 Нет 0 0 3 0
www.dphotographer.com.ua/camera/from/2/ 90 Нет 0 0 4 0
www.asmedia.ru/news/id8242.html 400 Нет 0 0 3 0
www.mega-bit.ru/obzor/read/?id=70 40 Нет 0 0 3 0
www.audiovideophoto.ru/panasonic1.html 0 Нет 0 0 0 0
www.foto-piter.ru/news/2006/12/01/127/ 10 Нет 0 0 2 0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html 20 Нет 0 0 1 0
www.novoe.nnov.ru/articles/?parent_id=33 0 Нет 0 0 0 0
iwy.com.ua/top.php?p=326 0 Нет 0 0 0 0
www.5-uglov.ru/articles_view.php?id_news=1222 90 Да 0 0 3 0
www.techhome.ru/catalog/photo/article_17112.html 950 Да 0 0 5 3
www.panasonic-spb.ru/articles_view.php?id_news=1222 0 Нет 0 0 1 0
new-articles.ru/page_215.html 40 Нет 0 0 3 0
www.ekvator-hifi.ru/articles_view.php?id_news=1222 10 Нет 0 0 1 0
shop.key.ru/shop/goods/36608/ 230 Нет 3 18 4 0
www.pc-shop.kz/index.php?g_id=1711 Нет 0 0 3 0
Portalink.ru/portal/ecamera/infoat_15269.htm 110 Нет 0 0 3 3
www.rusdoc.ru/articles/13085/ 1100 Да 3 13 5 1
www.docs.com.ru/articles.php?p=509 220 Нет 0 0 4 0
e-libed.ru/a31/ 0 Нет 1 17 0 0
dvdlink.ru/portal/Ecamera/infoat_15269.htm 140 Нет 0 0 3 0
www.articlesearch.ru/a3b856d85.html 0 Нет 0 0 0 0
www.bestarticles.ru/a31/ 0 Нет 1 5 2 0
www.temu.ru/a31/ 0 Нет 0 0 2 0

LP – ссылающихся страниц, LS – ссылающихся сайтов, Page PR – PR страницы, PR – PR главной страницы сайта.

Аналогичная картина – критерии фильтрации совершено неясны. Однако, если посмотреть на сниппеты, то мы увидим, что у страниц на сайтах uaport.net, www.megastoke.ru , portalink.ru сниппеты несколько отличаются от сниппетов других сайтов и поэтому первый и третий сайт не фильтруется.

Что сказать в итоге? Прежде всего, конечно нужно еще много экспериментировать и анализировать, однако уже видно, что решение о фильтрации «нечетких дубликатов» основывается на анализе многих факторов, главным из которых является оригинальность сниппета.

4. Google и дублирование контента

Google стремится выдавать на запросы пользователя сайты только со свежим и уникальным контентом.

Google считает, что пользователи не хотят видеть дубликаты в результатах поиска, поэтому такие документы скрываются в suggestion results. Если пользователь все же захочет увидеть дубликаты (например, это веб-мастер, который хочет выяснить, кто ворует контент с его сайта), то он должен добавить параметр «&filter=0» в конец URL.

Google считает, что идентификация автора контента поможет улучшить поиск. Однако отмечает, что такие способы определения первоисточника как фиксация даты создания документа или регистрация контента авторами в специальных сервисах не эффективны. Пока Google ориентируется по большей части на авторитетность ресурса и количество входящих ссылок. Поэтому вполне возможна ситуация, когда какой-нибудь известный ресурс позаимствовал статью, например, у специализированного ресурса, далее большинство узнало о статье из известного ресурса и поставило на него ссылки; в итоге Google определит известный сайт как первоисточник…

В случае дублирования контента на одном сайте (например, страница-оригинал и страница для печати) Google предлагает веб-мастерам активно использовать robots.txt. Также предлагается отказаться от использования идентификаторов сессий, так как это тоже может привести к дублированию контента. Т.е. поисковик может проиндексировать одну и ту же страницу, но с разным url, отличающимся значением параметра sessid.

5. Над чем можно поэкспериментировать и как это лучше сделать

Итак, мы выяснили основные моменты по проблеме дублирования контента. Принципы работы фильтра (в частности Яндекса) достаточно просты, однако определить в точности, как учитываются различные факторы достаточно сложно.

Итого, что нужно проверить экспериментальным путем:

Как дубликаты фильтруются в момент выдачи? По какому принципу?
- Метод «описательных слов» - как формируется выборка слов и как сравниваются вектора?
- По какому принципу выкидываются «полные дубликаты»?

Можно предложить следующий вариант:

Создаем один сайт с оригинальным контентом. Немного спамим его, чтобы он проиндексировался. Создаем далее некоторое количество клонов (дубликатов). Клоны можно сделать различным образом: перемешать слова первоисточника, сделать рерайтинг, взять отдельные абзацы. Клоны можно разместить как на отдельных сайтах (на нормальных и обычных хостингах) так и на внутренних страницах сайтов. Можно частично проспамить клоны. Потом оцениваем результат умозрительно и делаем выводы.
- Определить принципы, по которым фильтруются «нечеткие дубликаты» можно по методике, описанной выше, т.е. просто путем анализа отфильтрованных сайтов.

6. Дополнительная литература

Дубли контента – это частично или полностью одинаковый текст, картинки и прочие элементы наполнения сайта, доступные по разным адресам страниц (URL). Наличие дублей может значительно затруднять поисковое продвижение сайта.

По оценке специалистов, дублированный контент – самая распространенная ошибка внутренней оптимизации, присутствующая на каждом втором веб-ресурсе.

Как проверить, есть ли дубли на вашем сайте, и каким образом от них избавиться? Об этом мы расскажем в новом выпуске нашей рассылки.

Какие бывают дубли

Дубли бывают четкие и нечеткие (или полные и неполные).

Четкие дубли – страницы-копии с абсолютно одинаковым контентом, содержимым мета-тега Description и заголовка Title, доступные по разным адресам. Например, у исходной страницы могут появиться следующие дубли:

  • зеркало с WWW или без;
  • страницы с разными расширениями (.html, .htm, index.php, GET-параметром «?a=b» и т. д.);
  • версия для печати;
  • версия для RSS;
  • прежняя форма URL после смены движка;
  • и так далее.

Нечеткие дубли – частично одинаковый контент на разных URL.

В качестве примеров таких дублей можно привести следующие варианты:

  • карточки однотипных товаров с повторяющимся или отсутствующим описанием;
  • анонсы статей, новостей, товаров в разных рубриках, на страницах тегов и постраничной разбивки;
  • архивы дат в блогах;
  • страницы, где сквозные блоки по объему превосходят основной контент;
  • страницы с разными текстами, но идентичными Title и Description.

Чем опасны дубли для продвижения

1. Затрудняется индексация сайта (и определение основной страницы)

Из-за дублей количество страниц в базе поисковых систем может увеличиться в несколько раз, некоторые страницы могут быть не проиндексированы, т. к. на обход сайта поисковому роботу выделяется фиксированная квота количества страниц.

Усложняется определение основной страницы, которая попадет в поисковую выдачу: выбор робота может не совпасть с выбором вебмастера.

2. Основная страница в выдаче может замениться дублем

Если дубль будет получать хороший трафик и поведенческие метрики, то при очередном апдейте он может заменять основную (продвигаемую) страницу в выдаче. При этом позиции в поиске «просядут», т.к. дубль не будет иметь ссылочной популярности.

3. Потеря внешних ссылок на основную страницу

4. Риск попадания под фильтр ПС

И Яндекс, и Google борются с неуникальным контентом, в связи с чем могут применить к «засоренному» сайту фильтры АГС и Panda.

5. Потеря значимых страниц в индексе

Неполные дубли (страницы категорий, новости, карточки товаров и т. д.) из-за малой уникальности имеют шанс не попасть в индекс поисковиков вообще. Например, это может случиться с частью товарных карточек, которые поисковый алгоритм сочтет дублями.

Как найти и устранить дубли на сайте

Будучи владельцем сайта, даже без специальных знаний и навыков вы сможете самостоятельно найти дубли на вашем ресурсе. Ниже дана инструкция по поиску и устранению дублированного контента.

Поиск полных дублей

Самый быстрый способ найти полные дубли на сайте – отследить совпадение тегов Title и Description. Для этого можно использовать панель вебмастера Google или популярный у оптимизаторов сервис Xenu. Поиск ведется среди проиндексированных страниц.

Минусы: не все дубли можно (и нужно) удалять (например версии страниц с рекламными метками); трудоемкая работа, занимающая при большом количестве страниц много времени. Не исключает появления новых дублей. Вес с дублей не передается основной странице.

  • Плюсы: не требует специальных навыков программирования.

6. Готовые решения для популярных CMS

Разработчики популярных CMS предусмотрели ряд решений, предотвращающих появление дублей. При этом вебмастерам при работе с движком необходимо внимательно выставлять настройки. Если вы что-то упустили из виду и дубли все же появились, никогда не поздно все исправить и устранить копии. Внятные инструкции по настройкам движка и использованию SEO-плагинов можно найти на профильных блогах и на форумах WordPress, Joomla, Drupal, Битрикс, а также других широко представленных CMS.

Полезные SEO-плагины для борьбы с дублями:

  • WordPress: All in One SEO Pack, Clearfy;
  • Drupal: Global Redirect, Page Title;
  • Joomla: Canonical Links All in One, JL No Dubles.

7. Борьба на уровне движка

Универсальное решение для самых разных CMS – предупредить появление новых дублей на уровне движка. Необходимо задать такое условие, при котором в процессе обработки адресных ссылок CMS будет отличать «хорошие» от «плохих» и отображать в строке браузера только те, которые разрешены правилом. Это позволит избежать формирования страниц-синонимов (со знаком «/» и без него, с ненужным окончанием.html, GET-параметрами и проч.), однако не защитит от возникновения дублей, если у страниц не будут уникализированы Title и Description.

Для реализации данного метода в файле.htaccess необходимо включить следующее правило:

RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php

Кроме этого, следует реализовать необходимые проверки в самом движке.

Метод отличается высокой сложностью и требует обращения к специалистам по разработке.

  • Минусы: крайне высокая степень сложности.
  • Плюсы: предотвращает появление страниц-синонимов.

Поиск неполных дублей

1. Ищем при помощи вебмастера Google или сервиса Xenu

Алгоритм действий в этих сервисах абсолютно такой же, как и для поиска полных дублей. Единственное отличие заключается в том, что среди найденных дублей необходимо отобрать те страницы, которые имеют идентичные Title и/или Description, но совершенно разный контент.

В результате поиска в Google мы обнаружили группу неполных дублей (Рис. 2).

Рис. 2. Совершенно разные новости с дублированными мета-данными

2. Ищем в строке поиска Яндекса или Google

Страницы с частично похожим контентом, но разными мета-данными указанным выше способом выявить не удастся. В этом случае придется работать вручную.

Для начала условно выделите зоны риска:

  • скудный контент (сквозные блоки по объему превосходят основной текст страницы);
  • копированный контент (описание схожих товаров);
  • пересечение контента (анонсы, рубрики/подкаталоги, фильтры, сортировка).

Из каждой группы выберите несколько страниц.

Для наглядной иллюстрации примера мы воспользовались одной из карточек товаров на сайте мебельного магазина, проходившего аудит в нашей рубрике «Экспертиза». Вероятность появления дублей здесь достаточно высока, так как в карточках преобладают картинки и сквозные блоки, а уникальный контент сведен к минимуму.

Указываем в строке поиска Google фрагмент текста из описания товара, заключенный в кавычки, и домен сайта с оператором site: (Рис. 3).

Привет, Друзья! Дублирование контента на сайте носит хронический характер в электронной коммерции. Кажется, каждая платформа, независимо от того, насколько она оптимизирована для , создает некую форму повторяющегося материала, не давая сайту достигнуть максимальной производительности.

Как дублирование контента на сайте убивает SEO

Для начала давайте разберемся, что такое дублирующий контент. Возможно, это не совсем то, о чем вы думаете.

Вопреки распространенному мнению, санкций за дублируемый контент не существует. Ещё в 2008 году Google в своем блоге написали: «Давайте расставим все по местам раз и навсегда, ребята. Такой вещи, как наказание за дублируемый контент, попросту нет».

И все же существует вполне реальная, но менее заметная проблема с подобным контентом. Алгоритмическое ослабление или снижение эффективности происходит со всеми типами страниц, содержащих повторяющиеся материалы.

Дублированный контент на сайте конкурирует сам с собой по одним и тем же ключевым словам в тематике и делит весомость ссылки между двумя или большим количеством страниц.

Две вещи напрямую указывают на важность в поисковых системах:

  1. релевантность
  2. авторитет

Наличие более одной страницы, таргетированной одними и теми же , делает их все менее релевантными по для поисковых машин, поскольку им сложно определить, какую именно страницу необходимо ранжировать. И поскольку несколько страниц связаны одинаковыми ключами, ссылки, которые могли бы подкреплять одну страницу, вместо этого слабо поддерживают каждую из этих страниц, не принося ни одной из них преимущества.

Ослабление в таком случае означает более слабые сигналы, посылаемые сайтом в поисковые системы, что влияет на возможность его ранжирования.

Почему за это нет наказаний?

В мире Google наказание назначается вручную реальным человеком из отдела веб-качества системы, когда конкретная страница или сайт попадают под установленное определение спама. Кто-то должен физически применять санкции к ресурсу, если это действительно наказание. Ослабление же алгоритмическое явление по своей природе и его сложнее определить, поскольку Google не будет предупреждать вас о нем, как это происходит в случае с установленным вручную штрафом через Google Search Console.

Нежелательные эффекты

Проблема избавления от дублированного контента состоит в том, что простое удаление страниц может повлечь за собой пару нежелательных эффектов.

В некоторых случаях вашим покупателям необходимо видеть такие страницы. Отсортированные сетки просмотра, страницы списка желаний, страницы для печати и т. п. могут быть технически дублированным контентом. Удаление этих страниц может повредить вашему клиенту и, возможно, вашему доходу.

Авторитетность ссылки

Каждый индексируемый URL имеет мало-мальский вес. Простое уничтожение страниц в конечном счете приводит к потере авторитетности ссылки, и по иронии, в попытках помочь своей SEO, вы ей навредите.

Цель состоит в том, чтобы точно определить, чего вам нужно добиться:

  1. Вы хотите удалить страницу для поисковых систем, но сохранить ее для покупателей?
  2. Вам нужно ликвидировать страницу как для покупателей, так и для поисковых систем?
  3. Важнее избавиться от страницы немедленно (по юридическим или иным причинам), независимо от ее влияния SEO, или же вы пытаетесь улучшить SEO при помощи запланированных действий?

Следующая таблица поможет вам в процессе принятия решения.

7 способов избавиться от дублированного контента

Первой в списке идет переадресация 301 – главная звезда в SEO. По возможности используйте именно этот метод удаления дублированного контента, поскольку только он позволяет достичь сочетания перенаправления бота и клиента, передавая ссылку на новый URL-адрес и удаляя старый. В отличие от некоторых других вариантов Переадресация 301 — это команда для поисковых систем, а не просто запрос, который может быть проигнорирован.

Если ваша команда разработчиков избегает этот метод, или если покупатели должны продолжать видеть страницу, которую поисковые системы считают дублированным контентом, попробуйте в качестве замены канонические теги (Canonical). Им по-прежнему требуется поддержка разработчиков, но для них понадобится меньше тестирований во время внедрения и меньшее использование ресурсов сервера на их существование. Однако имейте в виду, что Google может проигнорировать канонические теги, если посчитает, что вы допустили ошибку, или просто сочтет, что нет необходимости им подчиняться по какой-либо алгоритмической причине.

Третьей в списке идет переадресация 302, хотя она присутствует в списке только потому, что связана с всемогущей переадресацией 301. По словам инженера Google Джона Мюллера, 302 переадресация действительно перенаправляет полномочия ссылки, но в 99% случаев нет причин проверять эту теорию, поскольку переадресация 301 дает больше при тех же усилиях. Причиной для использования переадресации 302 может быть ситуация, когда необходимо временное перенаправление, и Google не должен деиндексировать страницу, поскольку она скоро вернется.

Удаленный контент наносит вред

Оставшиеся четыре метода только деиндексируют контент. Они не перенаправляют или покупателя, и они не передают полномочия ссылки другой странице. Поэтому используйте их, если они являются единственным жизнеспособным вариантом, поскольку уничтожение страниц без перенаправления с них тратит ресурсы ссылок.

Авторитетность ссылки — самый ценный и труднодоступный продукт в естественном поиске. Вы можете создать прекрасный контент, можете оптимизировать свою на своем сайте, направляя авторитетность туда, где она необходима. Но этический рост весомости ваших ссылок, с поистине разнообразной и авторитетной коллекцией внешних сайтов, требует редкого сочетания удачи, цифрового охвата, отношений с прессой, офлайн-маркетинга и т. д. Сайты, которым удалось этому научиться, весьма немногочисленны и редки.

Если вам необходимо уничтожить страницу, определитесь, нужно ли от нее избавиться исключительно по причинам SEO (например, дублированный контент) или же по юридическим причинам (например, больше никто и никогда не должен ее видеть). Если вы всего лишь хотите временно исключить его из Google, это можно быстро и легко сделать в Google Search Console, воспользовавшись инструментом «Удалить URL-адреса» (Индекс Google> Удалить URL-адреса). Для клиентов страница будет по-прежнему отображаться при просмотре, но Google немедленно уберет ее из индексации.

Будьте осторожны с этим инструментом. При неправильном использовании он способен деиндексировать весь ваш сайт.
Единственный способ исключить страницу из доступа как для людей, так и для бота – удалить ее с серверов, тем самым заставляя URL выдавать ошибку 404 File not found или, используя переадресацию 301, перенаправлять на новый URL.

Метатеги noindex для роботов и команды robots.txt disallow стоят последними в этом списке по ряду причин:

На этом сегодня всё, всем удачи и до новых встреч!

Наверняка, вам не раз приходилось слышать словосочетание “дублированный контент” и вы, как опытный владелец сайта, никогда не стали бы размещать один и тот же контент дважды, не так ли?

Дублированный контент можно сравнить с банковским овердрафтом. Только в этом случае вы расходуете свой ценный краулинговый бюджет.

Краулинговый бюджет - это количество страниц на сайте, которое поисковый робот может сканировать за определенной отрезок времени. Поэтому так важно расходовать его на нужные нам страницы.

Проявляя себя в различных формах, дублированный контент может стать одной из самых неуловимых и невидимых проблем, которая может негативно влиять на ранжирование и продвижение сайта. Его появление зачастую связано с особенностями архитектуры сайта или ограничениями CMS.

К сожалению, нет такого чекера в Google Вебмастере, который бы мог легко обнаружить дубли контента. Даже самые продвинутые сторонние инструменты не всегда хорошо справляются с этой задачей, особенно, когда источник проблемы находится внутри. Ручной проверки не избежать.

Перед вами - список с 8 потенциальными причинами появления дублей страниц на сайте:

HTTP и HTTPS страницы

Одна из самых быстрых проверок того, что у вас есть две доступные к индексированию версии сайта - это попробовать зайти на него, используя как HTTP, так и HTTPS-протокол. Если обе версии открываются, очевидно, что ваш разработчик перевел сайт на HTTPS и не настроил 301 редирект с HTTP-версии.

До того как Google стал активно призывать веб-мастеров переводить свои сайты полностью на HTTPS, многие подключили HTTPS только на отдельных страницах, которые нуждались в дополнительной безопасности, например, страницы авторизации или страницы с транзакциями. Если разработчик использовал относительные ссылки, то каждый раз, когда поисковый робот посещает защищенные страницы, он вынужден добавлять HTTPS ко всем URL, что, в конечном счете, приводит к появлению дублей страниц.

Таким же образом, нужно проверить нет ли у сайта двух версий страниц как с WWW, так и без WWW. Решить эту проблему можно настроив 301 редирект и указав предпочитаемый домен (главное зеркало) в Google Вебмастере.

Cайты, ворующие ваш контент

До тех пор пока не существует законодательства, позволяющего вернуть вам украденный контент, есть только способы, которые вы можете использовать в коде, чтобы усложнить задачу ворам, пытающимся выдать ваш контент за свой собственный. Для этого всегда используйте на сайте абсолютные ссылки вместо относительных:

Абсолютные ссылки: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (начинается с указания протокола и содержит имя сайта).
Относительные ссылки: /wiki/dublirovannyi-kontent.html (берет начало от корня сайта или текущего документа).

Почему это важно? При использовании относительных URL-адресов, ваш браузер предполагает, что ссылка указывает на страницу, на которой вы уже находитесь. Некоторые разработчики предпочитают относительные URL-адреса, потому что они упрощают процесс написания кода.

Если разработчик не желает переписывать весь сайт, можно использовать ссылающиеся на себя канонические теги. Когда ваш контент будет размещен на другом сайте, канонические теги могут остаться, помогая Google определить, что ваш сайт является первоисточником контента.

Чтобы узнать, что ваш контент украли, можно использовать любой из бесплатных сервисов (например, Siteliner, Copyscape. Etxt, AdvegoPlagiatus и др.)

Заброшенные поддомены

Предположим, вы отказались от какого-либо поддомена и решили использовать вместо этого субдиректорию. Или, например, вы создали совершенно новый сайт. В любом случае, ваш старый контент может быть доступен и, более того, он может плохо повлиять на ранжирование новых страниц. Для решения проблемы лучше всего использовать 301 редирект с этого субдомена на новый сайт/каталог. Это особенно важно, если ваш старый ресурс имеет большую ссылочную массу.

Скрытые страницы в стадии разработки

Решили обновить дизайн? Готовите ваш сайт к большим переменам? Если перед этим вы не закрыли свои тестовые страницы (а тем более дев-версии сайта) от индексации, то вы не застрахованы от того, что робот их не обнаружит.

Существует распространенное заблуждение, что никто никогда не догадается ввести в браузерную строку какой-то выдуманный URL на вашем сайте http://razrabotka.sait.ru/, если нигде нет ссылки на нее в коде, кажется, что это просто нереально. Но это не так! Google постоянно ищет и индексирует новые веб-страницы, в том числе и находящиеся в разработке. Все это может повлиять на результаты ранжирования, а также ввести пользователей в заблуждение.

Это не только наносит огромный урон сайту с точки зрения конфиденциальности и безопасности, но также может нанести серьезный ущерб краулинговому бюджету. Избежать этого просто: используйте мета-тег robots c noindex на всех тестовых страницах или заблокируйте их в файле robots.txt.


или

Оба варианта обозначают запрет на индексацию текста и переход по ссылкам на странице.

Помните, что, перенося страницы из дев-режима на лив, необходимо удалить эти блокирующие директивы из кода.

Динамически генерируемые параметры в URL

Чаще всего динамические URL генерируются на основе используемых на сайте фильтров. Как же именно выглядят такие URL?

URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Это простой пример, однако, ваша CMS может добавлять различные параметры фильтров и генерировать излишне длинные строки URL-адресов, которые могут участвовать в процессе сканирования поисковым роботом.

Таким образом, Google может создавать и индексировать бесконечные комбинации URL, которые пользователь даже не запрашивает.

В данном случае, примените канонический тег с указанием предпочитаемого URL и настройте параметры сканирования URL в Google Вебмастере.

Вы можете пропустить этот шаг и заблокировать определенные URL-адреса в файле robots.txt с использованием символа (*), чтобы запретить индексацию всего, что входит в указанный каталог. Например: Disallow:/chocolate/cake/*

Зеркальные подкаталоги

Ваш бизнес работает в нескольких регионах? Некоторые компании предпочитают создать основную целевую страницу, которая позволяет пользователям выбрать наиболее подходящий для них регион, а затем перенаправляет их в соответствующий подкаталог. Например:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Хоть это и может казаться логичным, подумайте, действительно ли существует необходимость в этой настройке. Ведь, в то время как вы нацелены на разную аудиторию, есть вероятность, что оба подкаталога будут полностью дублировать друг друга по содержанию. Чтобы решить эту проблему, используйте Google Вебмастер для настройки геотаргетинга.

Синдицикация контента

Синдицикация контента - повторное использование одного и того же контента на разных ресурсах с целью продвижения вашего сайта/бренда/контента и привлечения дополнительного трафика.

Синдикация является отличным способом ознакомить новую аудиторию с вашим сайтом, однако, стоит определить правила для тех, кто будет перепубликовать ваш контент.

В идеале, необходимо попросить издателей использовать атрибут “rel=canonical” на странице материала, чтобы указать поисковым системам, что ваш веб-сайт является первоисточником контента. Кроме этого, они также могут закрыть контент от индексации, что позволит решить потенциальные проблемы с дублированием в результатах поиска.

В конце концов, издатели могут ссылаться на первоначальную статью с указанием вас как первоисточника.

Схожий контент

Схожий контент может причинить не меньше вреда, чем дублированный. В определении Google про дублированный контент даже фигурирует фраза «существенно похожий». И пусть части материала могут быть разными по синтаксису, общее правило заключается в том, что, если вы можете почерпнуть из них одну и ту же информацию, то нет никакой причины для существования на веб-сайте их обеих. Здесь, отличным вариантом решения проблемы является использование канонического тега или рассмотрение вопроса об объединении этих частей контента в один.

Выводы

Очень важно следить за появлением дублей контента на сайте, чтобы избежать израсходования вашего краулингового бюджета, ведь это препятствует поиску и индексированию роботом новых и нужных вам страниц. В данном случае, лучшими инструментами в вашем арсенале могут послужить канонические теги, 301 редирект, атрибуты nofollow/noindex в мета-теге "robots" и директивы в файле robots.txt. Работайте над выявлением и удалением дублированного контента, добавив эти пункты проверки в свой seo-аудит.

Повторяющимся контентом обычно называют большие блоки информации в рамках одного или нескольких доменов, содержание которых либо полностью совпадает, либо почти не отличается. Как правило, в данном случае не преследуется цель ввода пользователя в заблуждение. Повторяющийся контент может использоваться без злого умысла, например:

  • страницы форумов в обычных версиях сайтов и версиях для мобильных устройств;
  • товары в интернет-магазине, показываемые при переходе по разным URL;
  • версии страниц для печати.

Если на вашем сайте хранится несколько страниц с почти одинаковым контентом, вы можете указать предпочитаемый URL для Google. Это можно сделать разными способами. Такая процедура называется "нормализацией".

Однако в некоторых случаях контент намеренно дублируется в разных доменах с целью манипулирования рейтингом в поисковой системе или увеличения объема трафика. Использование обманных приемов, подобных этому, может оставить у пользователей негативное впечатление, так как в результатах поиска они будут видеть практически один и тот же многократно повторяющийся контент.

Google делает все возможное, чтобы индексировать и показывать страницы с уникальной информацией. Например, если на вашем сайте имеются "стандартная" и "печатная" версии каждой статьи, не отмеченные метатегом noindex , в результатах поиска будет отображаться только одна из них. В тех редких случаях, когда Google считает, что повторяющийся контент показывается для того, чтобы манипулировать рейтингом или вводить пользователей в заблуждение, мы внесем изменения в индекс и рейтинг рассматриваемых сайтов. В связи с этим рейтинг сайта может понизиться или сайт может быть вообще удален из индекса Google и будет недоступен для поиска.

Ниже приведены инструкции о том, как избежать проблем, связанных с повторяющимся контентом, и добиться того, чтобы пользователи видели нужный вам контент.

  • Используйте 301. Если вы изменили структуру своего сайта, используйте переадресацию 301 ("постоянную переадресацию") в файле.htaccess для быстрой переадресации пользователей, робота Google и различных "пауков". (Для Apache это можно сделать с помощью файла.htaccess. Для IIS – через консоль администратора.)

  • Будьте последовательны . Старайтесь использовать внутренние ссылки последовательно. Например, не создавайте ссылки на страницы http://www.example.com/page/ , http://www.example.com/page и http://www.example.com/page/index.htm .

  • Используйте домены верхнего уровня . Чтобы помочь нам выбрать самую подходящую версию документа, используйте домены верхнего уровня во всех возможных случаях для показа контента, предназначенного для конкретной страны. Например, контент, связанный с Россией, рекомендуется размещать на сайте http://www.example.ru , а не на сайте http://www.example.com/ru или http://ru.example.com .

  • Будьте осторожны при синдикации . Если вы предоставляете свой контент другим сайтам, то при каждом поисковом запросе Google всегда будет показывать ту версию, которую считает наиболее приемлемой для пользователей. Эта версия необязательно совпадает с той, которую выбрали бы вы. Однако стоит удостовериться, что на всех сайтах, на которых размещается ваш контент, имеется ссылка на исходную статью. Вы также можете попросить владельцев сайтов, использующих ваш синдицированный материал, заблокировать его с помощью метатега noindex, чтобы поисковые системы не включали в индекс их версии.

  • Используйте Search Console, чтобы уведомить Google o предпочтительном для вас методе индексирования. Вы можете, в частности, указать главный домен (например, http://www.example.com или http://example.com).

  • Избегайте шаблонных повторений . Например, вместо того чтобы помещать весь текст об авторских правах в нижней части каждой страницы, указывайте только самые основные сведения со ссылкой на страницу, на которой приводится подробная версия. Кроме того, с помощью инструмента Параметры URL можно выбрать предпочтительный способ обработки параметров URL в Google.

  • Не применяйте программные "заглушки". Пользователям неинтересны пустые страницы. Например, не публикуйте страницы, содержание которых ещё не готово. Если же без страниц-заполнителей не обойтись, заблокируйте их с помощью метатега noindex , чтобы они не индексировались.

  • Изучите свою систему управления контентом . Ознакомьтесь с тем, каким образом содержание показывается на вашем сайте. В блогах, на форумах и в других подобных системах один и тот же контент часто отображается в нескольких форматах. Например, запись блога может появиться на главной странице блога, на странице с архивами, а также на странице с другими записями – и всегда под одним названием.

  • Уменьшите количество похожего контента . Если на вашем сайте много похожих страниц, добавьте на каждую из них уникальный контент или объедините их в одну. Предположим, у вас туристический сайт с отдельными страницами для двух городов, где представлена одна и та же информация. Вы можете вместо них разместить страницу с описанием обоих городов, или добавить на каждую уникальные материалы.

Google не рекомендует блокировать доступ поисковых роботов к повторяющемуся контенту с помощью файла robots.txt или иных способов. Если поисковые системы не имеют возможности сканировать страницы с таким содержанием, то они не смогут автоматически определять, что разные URL имеют одинаковый контент, и будут обращаться с ними как с уникальными страницами. Лучше всего разрешить сканирование этих URL, но при этом пометить их как точные копии с помощью ссылки rel="canonical" , инструмента обработки параметров URL или переадресации 301. Если наличие многочисленных копий значительно замедляет сканирование страниц, настройте частоту сканирования в Search Console.

Наличие на сайте повторяющегося контента не является основанием для принятия каких-либо мер по отношению к нему. Такие меры применяются только в том случае, если это сделано с целью ввести пользователей в заблуждение или манипулировать результатами поиска. Если у вас возникают проблемы из-за повторяющегося содержания, но вы не последовали приведенным выше советам, то мы выберем версию контента для показа в результатах поиска на свое усмотрение.

Однако если результаты нашей проверки показали, что вы использовали обманные приемы и ваш сайт был удален из наших результатов поиска, внимательно изучите свой сайт. Ознакомьтесь с нашим руководством для веб-мастеров и внесите необходимые изменения. Убедившись в том, что сайт соответствует требованиям, отправьте нам запрос .

В некоторых случаях алгоритмы Google могут выбрать URL стороннего сайта, на котором без разрешения размещены копии ваших материалов. Если ваше содержание было размешено на другом сайте с нарушением авторских прав, попросите его владельца удалить это содержание. Вы также можете отправить в Google запрос об удалении страницы, нарушающей авторские права, из результатов поиска. Для этого нужно отправить уведомление о нарушении Закона США "Об авторском праве в цифровую эпоху".

Была ли эта статья полезна?

Как можно улучшить эту статью?