Владельцы активно развивающихся интернет-ресурсов нередко сталкиваются со следующей проблемой – одна и та же страница с одинаковым содержанием может быть найдена по нескольким различным адресам. Такое положение дел является абсолютно нормальным, но о-очень «не нравится» поисковым роботам, которые оказываются в положении буриданова осла – из множества страниц им необходимо выбрать одну, подлежащую отображению в результате. Правда, в отличие от воображаемого животного, боты не имеют обыкновения «умирать от голода» и вынуждены самостоятельно принимать решение о выборе предпочтительной страницы...или пользоваться подсказкой атрибута rel=«canonical»!
Наиболее частыми причинами появления клонов/дублей страниц эксперты поисковиков Bing, Google и техподдержки Tsohost называют следующие:
Дублями считаются два (или больше) документа/страницы, имеющих одинаковое содержание.
«Логика» поискового робота проста: пользователь не желает просматривать в выдаче системы одно и то же содержимое несколько раз. Значит, при обнаружении дубля требуется исключить его из индексации!
(Есть и ещё одна неафишируемая причина нелюбви поисковых систем к клонам: ни один поисковик «не хочет» заниматься монотонной постоянной обработкой миллионов дублированных интернет-страниц, расходуя на этот скучный процесс значительную часть своих мощностей)
А это значит, что даже если какая-то информация размещена на нескольких страницах, в выдаче поисковой системы отображается только одна из них! И совсем не факт, что URL, выбранный роботом, является оптимальным. Более того, он даже не обязательно на самом деле ведёт к оригинальной публикации!
Каноническая страница – первоисточник, первоначальная страница, благодаря которой результаты выдачи поисковой системы удовлетворяют целям автора контента. Каноническая ссылка, имеющая атрибут rel=canonical, указывает поисковому роботу на страницу, выбранную в качестве канонической.
Главными правилами проставления атрибута специалисты Google называют:
Запретить поисковым роботам самостоятельно «устанавливать правила» поисковой индексации достаточно просто. Для этого достаточно использовать атрибут rel=canonical в тегах каждой страницы, содержащей одинаковый контент.
При этом дополнительные свойства нужного URL-адреса канонической страницы – связанные сигналы, Page Rank и т.п. – автоматически переносятся на указанную страницу с дублированных.
Эксперты Google выделили несколько основных типов ошибок, которые, как показывает статистика, особенно «популярны» среди оптимизаторов и веб-мастеров, проставляющих атрибут rel=canonical:
Если ресурс имеет несколько страниц с нумерацией:
и страницы № 2 и № 3 не являются дубликатами страницы № 1, использование атрибута rel=canonical для страницы №1 в качестве канонической – ошибка! Это ведёт к «выпадению» всех последующих страниц сайта из индекса.
Несмотря на то, что атрибут rel=canonical может использоваться как для относительных, так и для абсолютных ссылок, специалисты Google советуют отдать предпочтение именно последним – относительные ссылки в этом случае вычисляются на их основе. Если абсолютная ссылка на каноническую страницу записана без указания протокола (http:// или https://), то поисковые алгоритмы проигнорируют указание на каноничность выбранной страницы.
Атрибут rel=canonical не должен использоваться в разделе документа кода , а должен быть включён в раздел HTML-кода – иначе он будет проигнорирован поисковыми алгоритмами.
Использование атрибута rel=canonical особенно актуально для торговых интернет-площадок с большим количеством товаров: продвижение магазина с 5 000 ежедневно пополняемых основных страниц и 10 000 дублированных без указания канонических страниц может составлять серьёзную проблему и привести к штрафным санкциям со стороны поисковых систем.
Важно помнить, что использование атрибута rel=canonical: