Файлы sitemap как сделать. Что такое Sitemap? Плагины для CMS

Что такое карта сайта

Содержимое любого веб-ресурса рано или поздно будет проиндексировано поисковыми системами. А как сделать так, чтобы этот процесс происходил побыстрее?

Один из наиболее эффективных способов – использование так называемой карты сайта (Sitemap ).

Карта сайта (Sitemap ) – это xml -файл с информацией для поисковых систем о страницах веб-ресурса, которые подлежат индексации. Sitemap помогает поисковикам определить местонахождение объектов веб-ресурса, время их последнего обновления, частоту обновления, приоритетность.

Формат протокола Sitemap состоит из XML -тегов.

В файле необходимо использовать кодировку UTF-8 .

Атрибуты XML -тегов Sitemap

– обязательный атрибут. Инкапсулирует этот файл и указывает стандарт текущего протокола;

– обязательный атрибут. Родительский тег для каждой записи URL . Остальные теги являются дочерними для этого тега;

– обязательный атрибут. URL страницы; должен начинаться с префикса (например, http:// ) и заканчиваться косой чертой, если ваш веб-сервер требует этого. Длина этого значения не должна превышать 2048 символов;

– необязательный атрибут. Дата последнего изменения файла; должна быть в формате W3C Datetime . Этот формат позволяет при необходимости опустить сегмент времени и использовать формат ГГГГ-ММ-ДД;

– необязательный атрибут. Вероятная частота изменения этой страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать частоте сканирования этой страницы. Допустимые значения: always , hourly , daily , weekly , monthly , yearly , never ;

– необязательный атрибут. Приоритетность URL относительно других URL на вашем сайте. Допустимый диапазон значений – от 0,0 до 1,0. Это значение не влияет на процедуру сравнения ваших страниц со страницами на других сайтах – оно только позволяет указать поисковым системам, какие страницы, по вашему мнению, более важны для сканеров (приоритет, который вы назначили странице, не влияет на положение ваших URL на страницах результатов той или иной поисковой системы). Приоритет страницы по умолчанию – 0,5.

Пример XML -файла Sitemap

(необязательные теги выделены ):

http://сайт/

2010-04-19

daily

0.8


http://сайт/aldan.htm
2009-10-03
monthly

0.5

http://сайт/aldan-weather.htm

2010-04-15

weekly

0.5

Если ваш сайт содержит много веб-страниц, вы можете опустить необязательные атрибуты (это позволит значительно уменьшить размеры файла Sitemap ):

http://сайт/

http://сайт/aldan.htm

http://сайт/aldan-weather.htm

Использование файлов индекса Sitemap

Файл Sitemap должен содержать не более 50000 URL , при этом его размер не должен превышать 10МБ .

При необходимости файл Sitemap можно сжать с помощью архиватора gzip , чтобы уменьшить требования к пропускной способности канала.

Если необходимо перечислить более 50000 URL , следует создать несколько файлов Sitemap . При этом необходимо перечислить каждый из этих файлов в файле индекса Sitemap . В файле индекса Sitemap может быть перечислено не более 50000 файлов Sitemap . Размер этого файла не должен превышать 10МБ .

Как создать карту сайта

Для создания карты сайта можно воспользоваться так называемыми генераторами Sitemap , а можно всё сделать самому:

– откройте Блокнот ;

– соблюдая правила протокола Sitemap , заполните файл Sitemap ;

– в соответствующее текстовое поле введите имя файла (например, sitemap.xml );

– в выпадающем списке Тип файла выберите Все файлы (*.*) ;

– в выпадающем списке Кодировка выберите UTF-8 , нажмите Сохранить ;

– закачайте Sitemap в корневую директорию вашего сайта.

Уведомления для сканеров поисковиков о наличии и месторасположении файла Sitemap

После того, как файл Sitemap создан и размещен на веб-сервере, необходимо сообщить о его местонахождении поисковым системам, поддерживающим этот протокол. Это можно сделать следующими способами:

Передача файла Sitemap с помощью веб-интерфейса поисковой системы

Чтобы отправить файл Sitemap напрямую в поисковую систему, которая предоставляет возможность получать информацию о статусе и ошибках обработки, обратитесь к справочной системе поисковика.

Например, передать

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться

Предположим у вас есть сайт, забитый уникальным контентом, на котором проведена SEO оптимизация и сидите вы, потирая ладошки в ожидании, когда же ваше детище начнет посещаться поисковым роботом, индексироваться и приносить заветный трафик. Идет время, а результат ваших стараний не особо-то и виден. В чем же дело? Возможно, что-то все же было упущено из виду, что-то да забылось в погоне за ништяками. Предположим, что сайт по-прежнему уникальный и оптимизаторы из вас хоть куда. Тогда нужно разбираться, почему поисковик так неохотно вас посещает и по какой причине все происходит так медленно.

Каждый web-проект должен иметь два важных, а может и основных файла: это роботс (robots.txt) и карта сайта (). Если какой-то из них отсутствует или неверно заполнен, велика вероятность, что ресурс не даст того результата, на который вы рассчитывали. Ведь у поисковых ботов есть заданные ограничения как по времени нахождения на ресурсе, так и по количеству документов, которые они могут проверить и занести в базу. А это все к тому, что если вами не были заданы пути перемещения для поискового робота, то он может добраться до контента очень нескоро, перед этим побродив в файлах движка.

Чтобы избежать подобной неразберихи, в файле роботс мы говорим, на что ботам не стоит тратить время, а с помощью карты сайта, наоборот, подсказываем куда следует заглянуть и где побродить.

Предположим, что у нас все срослось и поисковики начали индексировать наш проект, а вот отсутствие второго может затянуть достижение поставленных целей. А теперь подробнее про создание sitemap.

XML и HTML версии карты сайта

Sitemap.html выступает в роли навигации для гостей нашего ресурса, которая помогает понять структуру сайта и найти интересующий их раздел.

Sitemap.xml подсказывает и помогает поисковым ботам обнаружить и начать индексировать страницы нашего проекта. Если мы имеем большой уровень вложенности и многочисленное количество веб-страниц на сайте, XML гарантирует, что боты не упустят из вида, то что нужно проиндексировать. Как приятный бонус мы получаем плюсик к карме в виде увеличения доверия к ресурсу со стороны поисковиков.

Положительные стороны присутствия sitemap. xml на сайте

  • ускоренное индексирование недавно созданных страниц;
  • стопроцентная вероятность того что поисковик отыщет необходимые страницы;
  • возможность указать приоритеты при проверке, частоту и дату последнего обновления страницы;
  • немного увеличивается доверие к ресурсу.

Важно!

  • используйте для карты сайта кодировку UTF-8 ;
  • вес файла должен быть не более 10 MB и его содержание не должно быть больше 50 тысяч URL .

Как создать и добавить sitemap. xml на сайт

Берем любой текстовый редактор, например Notepad++, и начинаем творить.

Первым блоком идет стандартная часть, в которой мы указываем:

http://Наш сайт.ru/ 2016-05-23T23:45:36+00:00 daily 1.0

Значения тегов:

  • «loc» - в него мы заключили адрес страницы нашего сайта, которую в скором времени должны проиндексировать поисковые роботы;
  • «lastmod» - отображается последняя дата обновления страницы указанной в первом теге;
  • «changefreq» - показывает как часто будет обновляться контент (в нашем случае каждый день);
  • «priority» - задает приоритетность к индексации страницы (от 0 до 1)

Сохраняем получившийся файлик в формате XML и помещаем его в . Далее указываем путь к нему в robots. txt прописывая данную строчку:

http://Наш сайт/sitemap.xml

Либо мы можем использовать один из онлайн-генераторов. Например, , который рассчитан на создание не больше чем 500 страниц. Но зачастую больше и не надо, поэтому работаем с ним.

В первую строку вписываем полный URL нашего сайта с http://Наш сайт.

Вторая строка, которая называется « Change frequency», показывает поисковым роботам, как часто будут обновляться веб-страницы. Можем выбрать: never, weekly, daily, hourly, monthly, yearly.

Третья строка « Last modification » показывает, когда последний раз обновлялась страница, можем выбрать либо дату когда мы решили создать карту сайта, либо выбрать « Use server’s response » - тогда генератор автоматически внесет дату последнего изменения.

И четвертая строка « Priority», как мы уже ранее обсуждали позволяет выбрать приоритет к индексации, выбираем « Automatically Calculated Priority ».

Нажимаем кнопку «Start» и ждем когда сгенерируется карта сайта в формате XML , после опять проделываем манипуляции с помещением в корень и указания пути в robots.txt.

Как сообщить о файле sitemap после создания Google и Яндекс

Заходим в Вебмастер и действуем следующим образом.

Выбираем проверку карты сайта:

И задаем путь к нашему файлу sitemap.

Проверяем что получилось:

Убеждаемся, что все в порядке и отправляемся на поклон к Google.

Для того чтобы попасть в Search Console Гугл, в которой, собственно, и можно сообщить о нашей карте, переходим

Обновляем страницу - перед нами результат проверки и если в колонке «Проблемы» стоит прочерк, значит, мы все сделали правильно.

Подведем итоги

Создать и разместить файл sitemap. xml на ресурсе по факту минутное дело, для этого можно использовать любой текстовый редактор или онлайн-генератор. Если у вас есть карта сайта на своем ресурсе вы ускоряете и упрощаете жизнь поисковому роботу, который следует по указанному пути и индексирует нужные страницы. Это значит, что результат вашей работы по оптимизации имеет шанс быстрее стать заметным. Но важно не забывать про карту сайта и периодически ее обновлять, т.к. страница может перестать участвовать в продвижении, а боты будут продолжать ее посещать, что отразится на позициях. Также наш XML-проводник может служить помощником не только роботам, но и воришкам контента, ведь в sitemap мы указываем нужные нам документы, что значительно упрощает жизнь копипастерам. Поэтому рекомендуем периодически проверять контент вашего ресурса на уникальность. Соблюдая эти правила вы повышаете доверие поисковых систем Google и Яндекс к своему ресурсу.

При знакомстве с проектом специалист по оптимизации обязательно вводит в адресную строку после имени сайта фразу «sitemap.xml». Анализ карты сайта позволяет выяснить, почему не индексируется тот или иной контент. Как создать и внедрить грамотную sitemap.xml, я расскажу в очередном выпуске .

Что такое XML-карта

XML-карта сайта — файл с информацией для поисковых систем о страницах, которые необходимо проиндексировать. Другими словами, карта сайта — список всех страниц в формате XML, доступных для сканирования поисковым роботом. При этом стоит отличать XML-карту от обычной карты сайта, которая находится по адресу http://site.com/sitemap/ .

С помощью XML-карт определяется:

  • местонахождение страниц сайта;
  • время последнего обновления каждой из страниц;
  • частота (периодичность) обновления и важность относительно других страниц сайта;
  • важность (приоритетность) страниц в структуре.

Из каких элементов состоит XML-карта

В первой строке документа указывается версия xml и кодировка — UTF-8.

Также используются особенные теги XML:

  • sitemapindex — родительский тег в начале и конце файла;
  • sitemap — родительский тег для каждого файла sitemap, указанного в файле. При этом данный тег — дочерний относительно sitemapindex;
  • url — блок, который содержит значение самого URL и прочие элементы;
  • loc — непосредственно URL страницы;
  • changefreq — как часто данная страница может изменяться. Возможные значения: always, hourly, daily, weekly, monthly, yearly, never;
  • priority — приоритет структурных элементов, помогает определить, какие страницы более приоритетные для краулинга. Ему присваивается значение до единицы, например: 0,5.
  • lastmod — время последнего обновления контента страницы, не обязательный параметр. Для сайтов со статическим контентом достаточно использовать changfreq.

Пример структуры файла c XML-картой сайта:

http://example.com/ 2017-02-05 monthly 0.8

Для больших сайтов лучше сформировать несколько XML-карт. Например, в этот индекс в формате XML входят два файла sitemap:

http://www.example.com/sitemap1.xml http://www.example.com/sitemap2.xml.

XML sitemap для изображений

Отдельные XML-карты часто создаются для индексации изображений. Они актуальны только для Google, Яндекс не распознаёт теги image:

Данные XML-карты могут помочь поисковым системам найти контент, который иначе нельзя было бы обнаружить (например, если он загружается с помощью JavaScript), и указать изображения, которые необходимо сканировать и индексировать.

Для карт изображений используются теги:

Кроме того, можно использовать необязательные теги:

Пример XML-карты для изображений:

http://example.com/page.html http://example.com/pic1.jpg http://example.com/pic1.jpg

Если на сайте представлен уникальный видеоконтент, для него также можно сделать отдельную XML-карту.

Интересно, что в данной карте URL видеозаписей можно открыть для поиска в разделе Google Видео. В результатах будет отображаться значок видео, который, кстати, можно сделать индивидуальным, а также другая указанная в карте информация. Например, название.

Результат:

Какие сведения о видео можно отправлять в Google с помощью sitemap:

  • название;
  • описание,
  • продолжительность;
  • миниатюру и так далее.

Обязательные теги:

  • — страница, где находится видео;
  • — название видео, до 100 символов;
  • — место размещения плеера для видео;
  • — место размещения конкретного видео;
  • — превью (миниатюра) видео, не менее чем 120х90 px;
  • — контейнер для описания видео;
  • — описание видео, до 2000 символов.

Кроме этого, можно использовать другие теги — не обязательные и носящие рекомендательный характер:

  • — длительность видео, до 8 часов, пишется в секундах;
  • — категория видео, например, техника;
  • — имя человека (компании), добавившего видео. Допускается указание одного имени для файла;
  • — указывается, требуется ли для просмотра видео подписка. Как платная, так и бесплатная, с доступными значениями: yes, no;
  • — дата публикации, в формате YYYY-MM-DD или YYYY-MM-DDThh:mm:ss+TZD;
  • — здесь указывается, может ли видео быть доступным для безопасного поиска или нет;
  • — список стран, в которых видео может воспроизводиться или не воспроизводиться. Допустимые значения — коды стран в формате ISO 3166. Для каждого видео может отображаться только один тег . Если тег отсутствует, предполагается, что видео можно воспроизводить на всех территориях;
  • — ссылка на галерею;
  • — дата и время, когда видео становится неактуальным;
  • — стоимость с указанием валюты в формате ISO 4217;
  • — теги видео;
  • — количество просмотров видео;
  • — рейтинг видео (от 0 до 5);
  • — список площадок, где видео может воспроизводиться и не воспроизводиться. Доступные значения: web, mobile, tv. При отсутствии тега предполагается, что видео может воспроизводиться на всех платформах;
  • — указывает на то, является ли видео прямой трансляцией (live). Доступные значения: yes, no.

http://www.example.com/videos/video_1.html http://www.example.com/thumbs/video_1.jpg Обзор смартфона Xiaomi Redmi 3 Note Pro Подробный обзор внешнего вида и функций смартфона Xiaomi Redmi 3 Note Pro от интернет-магазина Example. http://www.example.com/video123.flv http://www.example.com/videoplayer.swf?video=123 600 4.3 1223 2017-01-05T19:20:30+03:00 yes no

Google «поддерживает» следующие форматы:

  • .mpg, .mpeg, .mp4, .m4v;
  • .wmv;
  • .asf, .avi;
  • .ra, .ram, .rm;
  • .mov;
  • .flv.

XML-карта для Google Новостей

Для сайтов-новостников можно создать отдельную sitemap с динамической генерацией и ежедневным обновлением. Данные файлы будут работать только для ресурсов, включенных в списки Google Новостей. Если сайт не находится в списке, можно отправить запрос на его добавление.

Файл sitemap должен содержать только URL статей, опубликованных за последние два дня. Статьи, опубликованные более двух дней назад, можно удалить из файла, при этом они останутся в индексе Google Новостей в течение 30 дней.

Эта карта сайта может содержать не более 1000 URL. Если на сайте за два дня появляется больше контента, можно создать файл индекса sitemap для нескольких карт.

Обязательные теги:

  • — общий тег, в котором указывается издание. У него есть два обязательных дочерних тега:
    • — название издания;
    • — язык в формате ISO 639;
    — дата публикации в формате W3C с указанием полной даты. Поисковой робот Google понимает даты вплоть до долей секунд, например:
ГГГГ-ММ-ДДTчч:мм:cc.с±чч:мм (2017-05-10T19:20:30.45+01:00)
  • — название статьи, аналогичное названию на сайте.

Кроме этого, существуют необязательные теги:

  • — свойства статьи. Допустимые значения:
    • PressRelease — официальный пресс-релиз;
    • Satire — статья, которая выставляет предмет обсуждения в комической форме.
    • Blog — любая статья, которая опубликована в блоге или в формате блога.
    • OpEd — любая статья, выражающая личное мнение и размещенная в колонке редактора.
    • Opinion — любая статья, выражающая личное мнение и не включенная в колонку редактора. Сюда относятся как рецензии колумнистов, так и интервью.
    • UserGenerated — материал, созданный пользователем и прошедший официальную редакторскую правку.
  • ключевые слова по теме статьи;
  • — список биржевых/финансовых символов (не более пяти, через запятую). Подходит для статей о бизнесе. Перед каждым символом должно указываться название соответствующей биржи, совпадающее с записью в Google Финансах, например NASDAQ:AMAT или BOM:500325.

Пример sitemap для Google Новостей:

http://example.ua/news/wow55.html Новости ru Blog 2017-05-10 Рацион питания среднестатистического студента студенты, еда, мивина, пельмени, revo

Как построить XML-карту для мультиязычных сайтов

Файлы sitemap можно использовать, чтобы передать Google атрибут rel="alternate" hreflang="x" . Благодаря этому пользователям показываются страницы на нужном языке и с URL-адресами с правильной региональностью.

Пространство имен XHTML должно быть указано так:

Xmlns:xhtml="http://www.w3.org/1999/xhtml"

Также необходимо создать отдельный элемент URL для каждого адреса. В свою очередь каждый элемент должен включать:

  1. Тег loc, который указывает на URL-адреса;
  2. Подэлемент xhtml:link rel="alternate" hreflang="XX" для каждой альтернативной версии страницы, обязательно включая текущую версию.

Например, на сайте есть раздел на русском языке, предназначенный для пользователей со всего мира. Кроме того, существуют две версии этой страницы: на украинском и на английском.

Полный набор URL выглядит так:

  • example.com/ua/
  • example.com/ru/
  • example.com/en/

Файл sitemap, который приведен на примере ниже, сообщает Google о том, что у страницы example.com/ru/ существует соответствующая версия на украинском и английском языках:

http://example.com/ru/ http://www.example.com/deutsch/ http://www.example.com/en/

Яндекс поддерживает два формата файлов sitemap:

  • XML (рекомендуется);
  • текстовый файл.

Требования для карт Яндекс:

  • размер в несжатом виде не должен превышать 10 Мб;
  • Яндекс распознает Punycode (пуникод) как в закодированном виде, так и в оригинале.

Принципиально:

  • до 50 000 ссылок на файлы sitemap;
  • общий размер до 50 Мб (в несжатом виде).

Форматы, которые поддерживает Google в качестве sitemap:

  • XML — стандартный файл;
  • RSS, media RSS и Atom 1.0 — подходит для блогов с фидом RSS или Atom;
  • Сайты Google. Если сайт создан и подтвержден с помощью сервиса «Google Сайты», файл sitemap создается автоматически. Его нельзя изменить, но можно отправить в Google, чтобы получать сведения для отчетов. Если в одном подкаталоге содержится более 1000 страниц, файл sitemap может отображаться некорректно.
  • Текстовый файл.txt.

Основные требования к текстовым файлам:

  • кодировка UTF-8;
  • файл не должен содержать ничего, кроме списка URL;
  • текстовому файлу можно дать любое имя, но только с расширением.txt (например, sitemap.txt).

Как внедрить XML-карту

  1. Файл с XML sitemap следует поместить в корневую директиву сайта: http://<адрес сайта>/sitemap.xml .
  2. Если карт сайта несколько, необходимо создать индекс карт, где должны быть перечислены ссылки на все XML-файлы. рекомендуемых генераторов.

    Как найти ошибки в XML-картах

    Как анализировать карту сайта в Яндекс.Вебмастере

    В Яндекс.Вебмастере для работы с XML-картами следует перейти по пути «Индексирование» — «Файлы sitemap».

    Отдельно в разделе Инструменты, представлен «Анализатор файлов sitemap», где на проверку можно отправить текст, URL или прикрепить сам файл. При проверке он показывает тип и размер файла, количество ссылок и ошибки.

    В панели вебмастеров Google в разделе «Сканирование» есть пункт «Файлы sitemap».

    Здесь можно:

    • добавить или проверить файлы sitemap;
    • отследить количество отправленных и проиндексированных страниц различных типов;
    • увидеть ошибки и проблемы в картах сайта;
    • отправить карты XML заново или удалить их.

    Выводы

    XML-карта сайта нужна поисковым роботам для обнаружения всех ваших страниц. Она содержит URL-адреса страниц сайта, а также относящиеся к ним данные, такие как время их последнего обновления, частоту их обновления и важность относительно других страниц сайта. Отдельные карты можно создавать для изображений, видео, XML можно размечать и для Google Новостей.

    Создавать карту вручную не стоит — используйте бесплатные генераторы или специализированные программы. Проверить ошибки в картах можно в панелях вебмастеров Яндекс и Google.

    Появились вопросы? С удовольствием отвечу в комментариях.

01.03.2012, 14:41

Товарищи!
Мне генератор сайтмэпа выдал файлик, куда вписал и site.com/ и site.com/index.html.
Естественно, это одна и та же страница.
Как лучше сделать для гугла? Оставить обе строчки или какую-то из них кастрировать? Если кастрировать, то какую?

01.03.2012, 14:55

site.com/ главная
дубль site.com/index.html, можете делать редирект на главную или rel="canonical"

01.03.2012, 15:28

А зачем вообще в карте сайта корневая страница? Вы думаете он сайтмап проиндексирует а на главную не заглянет? :)
Толку от sitemap нет. Он служит лишь для сообщения поисковику о наличии страницы и нужен лишь в тех случаях, если на какую-то страницу нельзя добраться внутренними ссылками.

богоносец

01.03.2012, 17:44

Вообще, идиотизм встречается и на сайтах (http://www.google.com/search?q=site:romip.ru+inurl:index.html), где специалистами являются все - по определению. И даже на мегапроектах (http://www.google.com/search?q=site:yandex.ru/index.html).

01.03.2012, 18:38

Толку от sitemap нет

02.03.2012, 00:11

Рискну выразить мнение, что можно ускорить индексацию новых страниц Гуглом.
При обновлении sitemap в вебмастере Гугл, бот сразу же его забирает, я проверял в логах сервера.
Новую страничку добавил в sitemap, обновил его в WMT, на следующий день страничка уже в индексе.
А через 2 месяца половины страниц в индексе уже нет. Так?))

богоносец

02.03.2012, 01:22

Естественно, это одна и та же страница.
Это разные... зеркала типа... и даже если вы не внесёте в сайтмап /index.html его вам могут проиндексить... и надо всячески этому препятствовать.

02.03.2012, 08:42

и даже если вы не внесёте в сайтмап /index.html его вам могут проиндексить
Если убрать со всех страниц index.html, и на неё нет внешних ссылок, то поисковики её уберут из индекса.
У меня была такая ситуация. Со всех страниц на главную ставил короткую ссылку index.html. А внешние были в формате http://хххххххх.ru/. Обе были в индексе. И http://хххххххх.ru/, и http://хххххххх.ru/index.html
Проставил на всех внутренних страницах http://хххххххх.ru/ и через несколько апдейтов http://хххххххх.ru/index.html не стало в поиске и у Яндекса и у Гугла.

Добавлено 02.03.2012 в 09:49 ----------

С помощью robots.txt?
Нет. Надо просто у себя на всех страницах, где проставлена index.html заменить на http://хххххххх.ru/. Вроде такие ссылки называют абсолютными.
А короткие внутренние - относительными.
Но боюсь опять будут укорять меня за внедрение новых терминов.....)))
И нигде не надо ставить http://хххххххх.ru/index.html

Бизнесмен:)

02.03.2012, 09:20

Если убрать со всех страниц index.html, и на неё нет внешних ссылок, то поисковики её уберут из индекса....

Согласен, есть такой же опыт. только в роботсе на всякий тоже можно закрыть;)

02.03.2012, 11:16

Рискну выразить мнение, что можно ускорить индексацию новых страниц Гуглом.
При обновлении sitemap в вебмастере Гугл, бот сразу же его забирает, я проверял в логах сервера.
Новую страничку добавил в sitemap, обновил его в WMT, на следующий день страничка уже в индексе.

Для этой цели можно использовать RSS фид и пинг

богоносец

02.03.2012, 13:56

С помощью robots.txt?
Как вам удобнее.

Http://www.bdbd.ru/index.php
http://www.bdbd.ru/index.html
должны отвечать 301

Http://www.unmedia.ru/index.html
Данные запроса
GET /index.html HTTP/1.1
User-Agent: Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.10.229 Version/11.61
Host: www.unmedia.ru
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: ru-RU,ru;q=0.9,en;q=0.8
Accept-Encoding: gzip, deflate
Cookie: PHPSESSID=cc2a67ae9b5ae208cd2b96470619d10b; BITRIX_SM_GUEST_ID=100454; BITRIX_SM_LAST_VISIT=02.03.2012+14%3A53%3A27
Connection: Keep-Alive
Тело запроса

Данные ответа
HTTP/1.1 301 Moved Permanently
Server: nginx/0.6.32
Date: Fri, 02 Mar 2012 10:53:45 GMT
Content-Type: text/html; charset=iso-8859-1
Connection: keep-alive
Location: http://www.unmedia.ru/

Если убрать со всех страниц index.html, и на неё нет внешних ссылок
То в индексе могут (http://www.google.com/search?q=site:yandex.ru/index.html) ещё остаться (http://www.google.com/search?q=site:platon.ya.ru+%D0%B1%D0%BE%D1%82) ...

Sitemap позволяет владельцам сайтов и веб-мастерам сообщить поисковым системам о структуре сайта и обновлении контента на его страницах. Таким образом при правильном использовании sitemap можно добиться лучшего индексирования страниц веб-ресурса поисковыми системами. Соответственно, при неправильном использовании данной технологии можно навредить самому себе (точнее своему интернет детищу).

В этой статье я хочу коротко рассказать вам о Google Sitemap, предоставить программный код на Java для простой генерации sitemap.xml, ну и открыть некоторые нюансы обнаруженные моим другом и мной, и о которых, как мне кажется, многие не знают.

Sitemap состоит из набора блоков, каждый из которых описывает одну страницу сайта и предоставляет некоторую информацию о динамике ее обновления. Вот небольшой пример sitemap.xml, сгенерированный с помощью программы на java, которую я предоставлю ниже:

http://www.javenue.info/post/20 weekly 0.5 2009-02-20T15:32:20+02:00 http://www.javenue.info/post/73 daily 0.3 http://www.javenue.info/post/2 weekly 0.5

Расскажу о каждом элементе входящем в блок url:

1. loc - собственно URL страницы

2. changefreq - как часто данная страница может изменяться. Возможные значения - always, hourly, daily, weekly, monthly, yearly, never. Судя по всему, данный параметр еще используется поисковиками, для того чтобы вычислить приблизительную дату следующего захода на страницу.

3. priority - приоритет страницы, помогает поисковому спайдеру определить, какие из страниц более приоритетные для краулинга по вашему мнению. Так как обычно количетсов страниц, которые скачает краулер ограничено, данный параметр может оказаться очень полезным для сайтов, где контент меняется очень часто. На выдачу поисковиков данный параметр не влияет.

4. lastmod - время последнего обновления конетнта страницы. Для сайтов со статическим контентом можно не использовать lastmod, changfreq будет более чем достаточно.

Ну а вот ужасная вещь: практически во всех статьях, которые я читал о google sitemap и о генерации сайтмеп, есть очень подозрительная вещь:

2009-02-20

Здесь не указано время обновления страницы. Google конечно понимает разные форматы дат, но давайте рассмотрим такой случай:

1. вы обновили страничку, например 2009-02-20.

2. crawler заходит на сайт, скачиавет страничку. Скорее всего он помечает, что заходил на эту страницу 2009-02-20.

3. В этот же день вы находите ужасные недочеты в контенте страницы и полностью переделываете ее. После изменений дата lastmod все равно остается 2009-02-20.

4. в следующий раз spider скачивает sitemap.xml и видит, что та самая страничка последний раз менялась 2009-02-20. Но в этот день гугл уже якобы скчивал страницу. А значит нет смысла заново ее загружать. Таким образом гугл никогда не узнает о ваших изменениях, если конечно вы еще раз не обновите lastmod.

Ну а вот и обещаный программный код для генерации sitemap:

Public class GoogleSitemap { private String publicUrl; private List urls = new ArrayList(); public String getPublicUrl() { return publicUrl; } public void setPublicUrl(String publicUrl) { this.publicUrl = publicUrl; } public List getUrls() { return new ArrayList(urls); } public Url addUrl(Url url) { urls.add(url); return url; } public void removeUrl(Url url) { urls.remove(url); } private String w3cDateTime(Date date) { SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"T"HH:mm:ssZ"); String formated = df.format(date); return formated.substring(0, 22) + ":" + formated.substring(22); } public void write(Writer writer) { PrintWriter xml = new PrintWriter(writer); xml.println(""); xml.println(""); for (Url url: urls) { xml.println(""); xml.println("" + (publicUrl == null ? "" : publicUrl) + url.loc + ""); xml.println("" + url.changefreq.name().toLowerCase() + ""); xml.println("" + url.priority + ""); if (url.lastModified != null) xml.println("" + w3cDateTime(url.lastModified) + ""); xml.println(""); } xml.println(""); xml.flush(); } public static class Url { private String loc; private float priority = 0.5f; private Changefreq changefreq = Changefreq.WEEKLY; private Date lastModified = null; public Url(String loc) { this.loc = loc; } public Url(String loc, Changefreq changefreq) { this.loc = loc; this.changefreq = changefreq; } public Url(String loc, Changefreq changefreq, float priority) { this.loc = loc; this.changefreq = changefreq; this.priority = priority; } public String getLoc() { return loc; } public void setLoc(String loc) { this.loc = loc; } public float getPriority() { return priority; } public void setPriority(float priority) { this.priority = priority; } public Changefreq getChangefreq() { return changefreq; } public void setChangefreq(Changefreq changefreq) { this.changefreq = changefreq; } public Date getLastModified() { return lastModified; } public void setLastModified(Date lastModified) { this.lastModified = lastModified; } } public static enum Changefreq { ALWAYS, HOURLY, DAILY, WEEKLY, MONTHLY, YEARLY, NEVER } public static void main(String args) throws IOException { GoogleSitemap sitemap = new GoogleSitemap(); sitemap.setPublicUrl("http://www..setLastModified(new Date()); sitemap.addUrl(url1); sitemap.addUrl(new Url("/post/73", Changefreq.DAILY, 0.3f)); sitemap.addUrl(new Url("/post/2", Changefreq.WEEKLY)); sitemap.write(new PrintWriter(System.out)); } }

Если вы спросите, что такое

Formated.substring(0, 22) + ":" + formated.substring(22);

Так вот, это небольшой хак. Дело в том, что по стандарту w3c в таймзоне должно присутствовать двоеточие, а Z для таймзоны в SimpleDateFormat двоеточие не ставит.

Надеюсь, статья была вам интересна и информация из статьи когда-нибудь вам пригодится. Всего вам хорошего.