Skip to content
Обучение Измерение Блог Case studies О сайте
Join and donate to 🇺🇦 DevFest for Ukraine, a charitable tech conference happening June 14–15 supported by Google Developers and Google Cloud.
Содержание
  • Причины плохих результатов аудита robots.txt в Lighthouse
  • Как исправить проблемы с robots.txt
    • Убедитесь, что robots.txt не возвращает код состояния HTTP 5XX
    • Размер robots.txt не должен превышать 500 КиБ
    • Исправьте ошибки форматирования
  • Ресурсы

Аудит «Недопустимый файл 'robots.txt'»

May 2, 2019 — Обновлено May 29, 2020
Available in: Español, 日本語, 한국어, Português, 中文, English
Appears in: SEO-аудиты
Содержание
  • Причины плохих результатов аудита robots.txt в Lighthouse
  • Как исправить проблемы с robots.txt
    • Убедитесь, что robots.txt не возвращает код состояния HTTP 5XX
    • Размер robots.txt не должен превышать 500 КиБ
    • Исправьте ошибки форматирования
  • Ресурсы

Файл robots.txt сообщает поисковым системам, какие страницы вашего сайта они могут сканировать. Недопустимый файл robots.txt может вызвать проблемы двух типов:

  • Это может помешать поисковым системам сканировать общедоступные страницы, в результате чего ваш контент будет реже отображаться в результатах поиска.
  • Это может привести к тому, что поисковые системы будут сканировать страницы, которые вы не хотите показывать в результатах поиска.

Причины плохих результатов аудита robots.txt в Lighthouse #

Lighthouse отмечает недопустимые файлы robots.txt:

Аудит Lighthouse показывает недопустимый файл robots.txt
Большинство аудитов Lighthouse применяется только к той странице, на которой вы сейчас находитесь. Однако, поскольку robots.txt определяется на уровне имени хоста, этот аудит применяется ко всему вашему домену (или субдомену).

Разверните аудит «Недопустимый файл robots.txt» (robots.txt is not valid) в своем отчете, чтобы узнать, что не так с вашим robots.txt.

К распространенным ошибкам относятся:

  • No user-agent specified (директива user-agent не задана)
  • Pattern should either be empty, start with "/" or "*" (правило начинается не с символа / и не с символа *)
  • Unknown directive (неизвестная директива)
  • Invalid sitemap URL (некорректный формат URL файла Sitemap)
  • $ should only be used at the end of the pattern (символ $ можно использовать только в конце правила)

Lighthouse не проверяет правильность расположения файла robots.txt. Для правильной работы файл должен находиться в корне вашего домена или субдомена.

Each SEO audit is weighted equally in the Lighthouse SEO Score, except for the manual Structured data is valid audit. Learn more in the Lighthouse Scoring Guide.

Как исправить проблемы с robots.txt #

Убедитесь, что robots.txt не возвращает код состояния HTTP 5XX #

Если ваш сервер возвращает ошибку сервера (код состояния HTTP 5xx) для robots.txt, поисковые системы не будут знать, какие страницы следует сканировать. Они могут перестать сканировать весь ваш сайт, что предотвратит индексацию нового контента.

Чтобы проверить код состояния HTTP, откройте robots.txt в Chrome и проверьте запрос в Chrome DevTools.

Размер robots.txt не должен превышать 500 КиБ #

Поисковые системы могут прекратить обработку robots.txt на середине, если размер файла превышает 500 КиБ. Это может сбить с толку поисковую систему и привести к некорректному сканированию вашего сайта.

Чтобы robots.txt не превышал допустимый размер, старайтесь меньше исключать индивидуальные страницы и больше внимания уделяйте более широким шаблонам. Например, если вам нужно заблокировать сканирование файлов PDF, не запрещайте каждый отдельный файл. Вместо этого запретите все URL-адреса, содержащие .pdf, используя disallow: /*.pdf.

Исправьте ошибки форматирования #

  • В robots.txt допускаются только пустые строки, комментарии и директивы, соответствующие формату «имя: значение».
  • Убедитесь, что значения allow и disallow либо пусты, либо начинаются с / или *.
  • Не используйте $ в середине значения (например, allow: /file$html).

Убедитесь, что для user-agent есть значение #

Имена пользовательских агентов сообщают сканерам поисковых систем, каким директивам следует следовать. Вы должны указать значение для каждого экземпляра user-agent, чтобы поисковые системы знали, нужно ли следовать соответствующему набору директив.

Чтобы указать конкретный сканер поисковой системы, используйте имя пользовательского агента из ее опубликованного списка. (Например, вот список пользовательских агентов Google, используемых для сканирования.)

Используйте символ *, чтобы указать все поисковые роботы, не указанные иным способом.

Неправильно

user-agent:
disallow: /downloads/

Пользовательский агент не определен.

Правильно

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Определены общий пользовательский агент и пользовательский агент magicsearchbot.

Убедитесь, что директивы allow или disallow не предшествуют user-agent #

Имена пользовательских агентов определяют разделы файла robots.txt. Сканеры поисковых систем используют эти разделы, чтобы определить, каким директивам следовать. Размещение директивы перед именем первого пользовательского агента означает, что никакие сканеры не будут ей следовать.

Неправильно

# начало файла
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Директиву disallow: /downloads не прочитает ни один поисковый робот.

Правильно

# начало файла
user-agent: *
disallow: /downloads/

Всем поисковым системам запрещено сканировать папку /downloads

Сканеры поисковых систем следуют директивам только в разделе с более точно указанным именем пользовательского агента. Например, если у вас есть директивы для user-agent: * и user-agent: Googlebot-Image , робот Googlebot Images будет следовать только директивам в разделе user-agent: Googlebot-Image.

Укажите абсолютный URL-адрес для sitemap #

Файлы Sitemap нужны для того, чтобы сообщать поисковым системам о страницах вашего сайта. Файл sitemap обычно включает в себя список URL-адресов на вашем веб-сайте вместе с информацией о том, когда они в последний раз были изменены.

Если вы решили отправить файл sitemap в robots.txt, убедитесь, что используете абсолютный URL.

Неправильно

sitemap: /sitemap-file.xml

Правильно

sitemap: https://example.com/sitemap-file.xml

Ресурсы #

  • Исходный код для аудита «Недопустимый файл robots.txt» (robots.txt is not valid)
  • Создание файла robots.txt
  • Robots.txt
  • Спецификации метатега robots и HTTP-заголовка X-Robots-Tag
  • Узнайте о файлах Sitemap
  • Сканеры Google (пользовательские агенты)
Последнее обновление: May 29, 2020 — Улучшить статью
Return to all articles
Поделиться
подписаться

Contribute

  • Сообщить об ошибке
  • Просмотреть исходный код

Дополнительная информация

  • developer.chrome.com
  • Новости Chrome
  • Web Fundamentals
  • Разборы конкретных случаев
  • Подкасты
  • Шоу

Соцсети

  • Twitter
  • YouTube
  • Google Developers
  • Chrome
  • Firebase
  • Google Cloud Platform
  • Все продукты
  • Условия и конфиденциальность
  • Правила сообщества

Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies.