Screaming frog seo spider инструкция - Инструкции, руководства, мануалы

Доброго времени суток, друзья. Сегодня я хочу рассказать вам о настройке Screaming Frog (он же SF, он же краулер, он же паук, он же парсер — сразу определимся со всеми синонимами, ок?).

SF — очень полезная программа для анализа внутрянки сайтов. С помощью этой утилиты можно быстро выцепить технические косяки сайта, чтобы составить грамотное ТЗ на доработку. Но чтобы увидеть проблему, надо правильно настроить краулера, верно? Об этом мы сегодня с вами и поговорим.

Примечание автора: сразу скажу — программа имеет много вкладок и настроек, которые по сути не нужны рядовому пользователю, потому я подробно опишу только наиболее важные моменты, а второстепенные пройдем вскользь… хотя кого я обманываю, когда это у меня были статьи меньше 30 к символов? *Зануда mode on*

Примечание автора 2: при написании статьи я пользовался дополнительными материалами в виде официального мануала от разработчиков. Если что, почитать его можно тут https://www.screamingfrog.co.uk/seo-spider/user-guide/. Не пугайтесь английского, Google-переводчик в помощь — вполне себе сносная адаптация получается.

Примечание автора 3: я люблю оставлять примечания…

File
Configuration
Spider — настройки парсинга сайта
Robots.txt — определяем каким правилам следовать при парсинге
URL Rewriting — функция перезаписи URL
CDNs — парсим поддомены
Include/Exclude — сканирование/удаление определенных папок
Speed — регулируем скорость парсинга сайта
User-Agent — выбираем под кого маскируемся
HTTP Header — настройка реагирования на разные http-заголовки
Custom — дополнительные настройки поиска
User Interface — обнуление настроек для колонок таблицы
API Access — интеграция с разными сервисами
Authentification — настройки аутентификации
System — внутренние настройки самой программы
Mode
Bulk export
Reports
Sitemaps
Visualisations
Crawl Analysis
License
Help

Настройка Screaming Frog по шагам

Рассмотрим основное меню программы, для того чтобы понимать что где лежит и что за что отвечает (тавтология… Вова может в копирайт!).

Верхнее меню — управление парсингом, выгрузкой и многое другое

File

Из названия понятно, что это работа с файлами программы (загрузка проектов, конфиги, планирование задач — что-то вроде того).

Open — открыть файл с уже проведенным парсингом.
Open Recent — открыть последний парсинг (если вы его сохраняли отдельным файлом).
Save — собственно, сохранить парсинг.
Configuration — загрузка/сохранение специальных настроек парсинга вроде выведения дополнительных параметров проверки и т.д. (про то, как задавать эти настройки, я далее расскажу подробнее).
Crawl Recent — повторно парсить один из последних сайтов, который уже проверялся в этой программе.
Scheduling — отложенное планирование задач для программы… ни разу не пользовался этой опцией…стыдно.
Exit — призвать к ответу Друзя… нет, ну серьезно,тут все очевидно.

Configuration

Один из самых интересных и важных пунктов меню, тут мы задаем настройки парсинга.

Ох, сейчас будет сложно — у многих пунктов есть подпункты, у этих подпунктов всплывающие окна с вкладками и кучей настроек…в общем крепитесь, ребята, будет много инфы.

Spider — собственно, настройки парсинга сайта

Вкладка Basic — выбираем что парсить

Check Images — в отчет включаем анализ картинок.
Check CSS — в отчет включаем анализ css-файлов (скрипты).
Check JavaScript — в отчет включаем анализ JS-файлов (скрипты).
Check SWF — в отчет включаем анализ Flash-анимации.
Check External Link — в отчет включаем анализ ссылок с сайта на другие ресурсы.
Check Links Outside of Start Folder — проверка ссылок вне стартовой папки. Т.е. отчет будет только по стартовой папке, но с учетом ссылок всего сайта.
Follow internal “nofollow” — сканировать внутренние ссылки, закрытые в тег “nofollow”.
Follow external “nofollow” — сканировать ссылки на другие сайты, закрытые в тег “nofollow”.
Crawl All Subdomains — парсить все поддомены сайта, если ссылки на них встречаются на сканируемом домене.
Crawl Outside of Start Folder — позволяет сканировать весь сайт, однако проверка начинается с указанной папки.
Crawl Canonicals — выведение в отчете атрибута rel=”canonical” при сканировании страниц.
Crawl Next/Prev — выведение в отчете атрибутов rel=”next”/”prev” при сканировании страниц пагинации.
Extract hreflang/Crawl hreflang — при сканировании учитываются языковой атрибут hreflang и отображаются коды языка и региона страницы + формирование отчета по таким страницам.
Extract AMP Links/Crawl AMP Links — извлечение в отчет ссылок с атрибутом AMP (определение версии контента на странице).
Crawl Linked XML Sitemap — сканирование карты сайта. Тут краулер либо берет sitemap из robots.txt (Auto Discover XML Sitemap via robots.txt), либо берет карту по указанному пользователем пути (Crawl These Sitemaps).

Ну что, сложно? На самом деле просто нужна привычка и немного практики, чтобы освоить основные настройки SF и понять что нужно использовать в конкретных случаях, а от чего можно отказаться. Все, передохнули, теперь дальше… будет проще (нет).

Вкладка Limits — определяем лимиты парсинга

Limit Crawl Total — задаем лимиты страниц для сканирования. Сколько всего страниц выгружаем для одного проекта.
Limit Crawl Depth — задаем глубину парсинга. До какого уровня может дойти краулер при сканировании проекта.
Limit Max Folder Depth — можно контролировать глубину парсинга вплоть до уровня вложенности папки.
Limit Number of Query Strings — тут, если честно, сам не до конца разобрался, потому объясню так, как понял — мы ограничиваем лимит страниц с параметрами. Другими словами, если на одной статической странице есть несколько фильтров, то их комбинация может породить огромное количество динамических страниц. Вот чтобы такие “полезные” страницы не парсились (увеличивает время анализа в разы, а толковой информации по сути ноль), мы и выводим лимиты по Query Strings. Пример динамики — site.ru/?query1&query2&query3&queryN+1.
Max Redirects to Follow — задаем максимальное количество редиректов, по которым паук может переходить с одного адреса.
Max URL Length to Crawl — максимальная длина URL для обхода (указываем в символах, я так понимаю).
Max Links per URL to Crawl — максимальное количество ссылок на URL для обхода (указываем в штуках).
Max Page Size (KB) to Crawl — максимальный размер страницы для обхода (указываем в килобайтах).

Вкладка Rendering — настраиваем параметры рендеринга (только для JS)

На выбор три опции — “Text Only” (паук анализирует только текст страницы, без учета Аякса и JS), “Old AJAX Crawling Scheme” (проверяет по устаревшей схеме сканирования Аякса) и “JavaScript” (учитывает скрипты при рендеринге). Детальные настройки есть только у последнего, их и рассмотрим.

Enable Rendered Page Screen Shots — SF делает скриншоты анализируемых страниц и сохраняет их в папке на ПК.
AJAX Timeout (secs) — лимиты таймаута. Как долго SEO Spider должен разрешать выполнение JavaScript, прежде чем проверять загруженную страницу.
Window Size — выбор размера окна (много их — смотрим скриншот).
Sample — пример окна (зависит от выбранного Window Size).
Чекбокс Rotate — повернуть окно в Sample.

Вкладка Advanced — дополнительные опции парсинга

Allow Cookies — учитывать Cookies, как это делает поисковый бот.
Pause on High Memory Used — тормозит сканирование сайта, если процесс забирает слишком много оперативной памяти.
Always Follows Redirect — разрешаем краулеру идти по редиректам вплоть до финальной страницы с кодом 200, 4хх, 5хх (по факту все ответы сервера, кроме 3хх).
Always Follows Canonicals — разрешаем краулеру учитывать все атрибуты “canonical” вплоть до финальной страницы. Полезно, если на страницах сайта бардак с настройкой этого атрибута (например, после нескольких переездов).
Respect Noindex — страницы с “noindex” не отображаются в отчете SF.
Respect Canonical — учет атрибута “canonical” при формировании итогового отчета. Полезно, если у сайта много динамических страниц с настроенным rel=”canonical” — позволяет убрать из отчета дубли по метаданным (т.к. на страницах настроен нужный атрибут).
Respect Next/Prev — учет атрибутов rel=”next”/”prev” при формировании итогового отчета. Полезно, если у сайта есть страницы пагинации с настроенными “next”/”prev”- позволяет убрать из отчета дубли по метаданным (т.к. на страницах настроен нужный атрибут).
Extract Images from img srscet Attribute — изображения извлекаются из атрибута srscet тега <img>. SRSCET — атрибут, который позволяет вам указывать разные типы изображений для разных размеров экрана/ориентации/типов отображения.
Respect HSTS Policy — если чекбокс активен, SF будет выполнять все будущие запросы через HTTPS, даже если перейдет по ссылке на URL-адрес HTTP (в этом случае код ответа будет 307). Если же чекбокс неактивен, краулер покажет «истинный» код состояния за перенаправлением (например, постоянный редирект 301).
Respect Self Referencing Meta Refresh — учитывать принудительную переадресацию на себя же (!) по метатегу Refresh.
Response Timeout — время ожидания ответа страницы, перед тем как парсер перейдет к анализу следующего урла. Можно сделать больше (для медленных сайтов), можно меньше.
5хх Response Retries — количество попыток “достучаться” до страниц с 5хх ответом сервера.
Store HTML — можно сохранить статический HTML-код каждого URL-адреса, просканированного SEO Spider, на диск и просмотреть его до того, как JavaScript “вступит в игру”.
Store Rendered HTML — позволяет сохранить отображенный HTML-код каждого URL-адреса, просканированного SEO Spider, на диск и просмотреть DOM после обработки JavaScript.
Extract JSON-LD — извлекаем микроразметку сайта JSON-LD. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).
Extract Microdata — извлекаем микроразметку сайта Microdata. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).
Extract RDFa — извлекаем микроразметку сайта RDFa. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).

Вкладка Preferences — так называемые “предпочтения”

Здесь задаем желаемые параметры для некоторых сканируемых элементов (title, description, url, H1, H2, alt картинок, размер картинок). Соответственно, если сканируемые элементы сайта не будут соответствовать нашим предпочтениям, программа нам об этом сообщит в научно-популярной форме. Совершенно необязательные настройки — каждый прописывает для себя свой идеал… или вообще их не трогает, от греха подальше (как делаю я).

Page Title Width — оптимальная ширина заголовка страницы. Указываем желаемые размеры от и до в пикселях и в символах.
Meta Description Width — оптимальная ширина описания страницы. Аналогично, как и с тайтлом, указываем желаемые размеры.
Other — сюда входит максимальная желаемая длина урл-адреса в символах (Max URL Length Chars), максимальная длина H1 в символах (Max H1 Length Chars), максимальная длина H2 в символах (Max H2 Length Chars), максимальная длина ALT картинок в символах (Max Image Length Chars) и максимальный вес картинок в КБ (Max Image Size Kilobytes).

Robots.txt — определяем каким правилам следовать при парсинге

Вкладка Settings — настраиваем парсинг относительно правил robots.txt

Respect robots.txt — следуем всем правилам, прописанным в robots.txt. Т.е. учитываем в анализе те папки и файлы, которые открыты для робота.
Ignore robots.txt — не учитываем robots.txt сайта при парсинге. В отчет попадают все папки и файлы, относящиеся к домену.
Ignore robots.txt but report status — не учитываем robots.txt сайта при парсинге, однако в дополнительном меню выводится статус страницы (индексируемая или не индексируемая).
Show internal/external URLs blocked by robots.txt — отмечаем в чекбоксах хотим ли мы видеть в итоговом отчете внутренние и внешние ссылки, закрытые от индексации в robots.txt. Данная опция работает только при условии выбора “Respect robots.txt”.

Вкладка Custom — ручное редактирование robots.txt в пределах текущего парсинга

Удобно, если вам нужно при парсинге сайта учитывать (или исключить) только определенные папки, либо же добавить правила для поддоменов. Кроме того, можно быстро сформировать и проверить свой рабочий robots, чтобы потом залить его на сайт.

Шаг 1. Прописать анализируемый домен в основной строке

Шаг 2. Кликнуть на Add, чтобы добавить robots.txt домена

Тут на самом деле все очень просто, поэтому я по верхам пробегусь по основным опциям (а в конце будет видео, где я бездумно прокликиваю все кнопки).

Блок Subdomains — сюда, собственно, можно добавлять домены/поддомены, robots.txt которых мы хотим учитывать при парсинге сайта.
Окно справа — для редактирования выгруженного robots.txt. Итоговый вариант будет считаться каноничным для парсера.
Окошко снизу — проверка индексации url в зависимости от настроенного robots.txt. Справа выводится статус страницы (Allowed или Disallowed).

URL Rewriting — функция перезаписи URL «на лету»

Тут мы можем настроить перезапись урл-адресов домена прямо в ходе парсинга. Полезно, когда нужно заменить определенные регулярные выражения, которые засоряют итоговый отчет по парсингу.

Вкладка Remove Parameters

Вручную вводим параметры, которые нужно удалять из url при анализе сайта, либо исключить вообще все возможные параметры (чекбокс “Remove all”). Полезно, если у страниц сайта есть идентификаторы сеансов, отслеживание контекста (utm_source, utm_medium, utm_campaign) или другие фишки.

Вкладка Regex Replace

Изменяет все сканируемые урлы с использованием регулярных выражений. Применений данной настройки масса, я приведу только несколько самых распространенных примеров:

Изменение всех ссылок с http на https (Регулярное выражение: http Заменить: https).
Изменение всех ссылок на site.by на site.ru (Регулярное выражение: .by Заменить: .ru).
Удаление всех параметров (Регулярное выражение: \?. * Заменить: ).
Добавление параметров в URL (Регулярное выражение: $ Заменить: ?ПАРАМЕТР).

Вкладка Options

Вы рассчитывали увидеть здесь еще 100500 дополнительных опций для суперточной настройки URL Rewriting, я прав? Как бы странно это ни звучало, но здесь мы всего лишь определяем перезаписывать все прописные url-адреса в строчные или нет… вот как-то так, не спрашивайте, я сам не знаю почему для этой опции сделали целую отдельную вкладку.

Вкладка Test

Тут мы можем предварительно протестировать видоизменение url перед началом парсинга и, соответственно, подправить регулярные выражения, чтобы на выходе не получилось какой-нибудь ерунды.

CDNs — парсим поддомены, не отходя от кассы

Использование настройки CDNs позволяет включать в парсинг дополнительные домены/поддомены/папки, которые будут обходиться пауком и при этом считаться внутренними ссылками. Полезно, если нужно проанализировать массив сайтов, принадлежащих одному владельцу (например, крупный интернет-магазин с сетью сайтов под регионы). Также можно прописывать регулярные выражения на конкретные пути сканирования — т.е. парсить только определенные папки.

Во вкладке Test можно посмотреть как будут определяться урлы в зависимости от используемых параметров (Internal или External).

Include/Exclude — сканирование/удаление определенных папок

Можно регулярными выражениями задать пути, которые будут сканироваться внутри домена. Также можно запретить парсинг определенных папок. Единственный нюанс в настройках — при использовании Include будут парситься только УКАЗАННЫЕ папки, если же мы добавляем урлы в Exclude, сканироваться будут все папки, КРОМЕ УКАЗАННЫХ.

Выбираем папки для парсинга

Удаляем папки из парсинга

Примеры регулярных выражений для Exclude:

http://site.by/obidnye-shutki-pro-seo.html (исключение конкретной страницы).
http://site.by/obidnye-shutki-pro-seo/.* (исключение целой папки).
http://site.by/.*/obidnye-shutki-pro-seo/.* (исключение всех страниц, после указанной).
.*\?price.* (исключение страниц с определенным параметром).
.*jpg$ (исключение файлов с определенным расширением).
.*seo.* (исключение страниц с вхождением в url указанного слова).
.*https.* (исключение страниц с https).
http://site.by/.* (исключение всех страниц домена/поддомена).

Speed — регулируем скорость парсинга сайта

Можно выставить как количество потоков (по умолчанию 5), так и число одновременно сканируемых адресов. Влияет на скорость парсинга и вероятность бана бота, так что тут лучше не усердствовать.

User-Agent — выбираем под кого маскируемся

В списке user-agent можно выбрать от лица какого бота будет происходить парсинг сайта. Удобно, если в настройках сайта есть директивы, блокирующие того или иного бота (например, запрещен google-bot). Также полезно иногда прокраулить сайт гугл-ботом для смартфона, чтобы проверить косяки адаптива или мобильной версии.

Скажу сразу — это опция очень индивидуальна, лично я ее не пользую, потому что чаще всего незачем. В любом случае, настройка реагирования на http-заголовки позволяет определить, как паук будет их обрабатывать (если указаны нюансы в настройках). По крайней мере я так это понял.

Т.е. можно индивидуально настроить, например, какого формата контент обрабатывать, учитывать ли cookie и т.д. Нюансов там довольно много.

Custom — дополнительные настройки поиска по исходному коду

Custom Search

По сути обычный фильтр, с помощью которого можно вытягивать дополнительные данные, например, страницы, в которых вместо тега <strong> используется <bold> или еще лучше — страницы, которые НЕ содержат определенного контента (например, без кода счетчика метрики). Фактически в настройках можно задать все что угодно.

Custom Extraction

Это пользовательское извлечение любых данных из html (например, текстовое содержимое).

User Interface — обнуление настроек для колонок таблицы

Просто сбрасывает сортировку столбцов, ничего особенного, проходим дальше, граждане, не толпимся.

API Access — интеграция с разными сервисами

Для того чтобы получать больше данных по сайту, можно настроить интеграцию с разными сервисами статистики типа Google Analytics или Majestic, при условии того, что у вас есть аккаунт в этом сервисе.

При этом для каждого сервиса отдельные настройки выгрузки по типам данных.

На примере GA

Authentification — настройки аутентификации (если есть запрос от сайта)

Есть два вида аутентификации — Standart Based и Form Based. По умолчанию используется Standart Base — если при парсинге от сайта приходит запрос на аутентификацию, в программе появляется соответствующее окно.

Form Based — использование для аутентификации встроенного в SF браузера (полезно, когда для подтверждения аутентификации нужно, например, пройти капчу). В данном случае необходимо вручную вводить урл сайта и в открывшемся окне браузера вводить логин/пароль, кликать recaptcha и т.д.

System — внутренние настройки самой программы

Настройки работы самой программы — сколько оперативной памяти выделять на процесс, куда сохранять экспорт и т.д.

Давайте как обычно — подробнее о каждом пункте.

Memory — выделяем лимиты оперативной памяти для парсинга. По дефолту стоит 2GB, но можно выделить больше (если ПК позволяет).

Storage — выбор базы для хранения данных. Либо сохранение в ОЗУ (для этого у SF есть свой движок), либо в указанной папке на ПК пользователя.

Proxy — подключение прокси-сервера для парсинга.

Embedded Browser — использование встроенного в программу браузера (вкл/выкл).

Mode

Spider (Режим паука) — классический парсинг сайта по внутренним ссылкам. Просто вводим нужный домен в адресную строку программы и запускаем работу.
List — парсим только предварительно собранный список урл-адресов! Адреса можно выгрузить из файла (From a file), вбить вручную (Enter Manually), подтянуть их из карты сайта (Download Sitemap) и т.д. Если честно, этих трех способов получения списка урлов должно быть более чем достаточно.

SERP Mode — в этом режиме нет сканирования, зато здесь можно загружать мета-данные сайта, редактировать их и предварительно понимать как они будут отображаться в браузере. Делать все это можно пакетно, что вполне себе удобно.

Bulk export

В этом пункте меню висят все опции SF, отвечающие за массовый экспорт данных из основного и дополнительного меню отчета…сейчас покажу на скриншоте.

В общем и целом с помощью bulk export можно вытянуть много разной полезной информации для последующей постановки ТЗ на доработки. Например, выгрузить в excel страницы, на которых найдены ссылки с 3хх ответом сервера + сами 3хх-ссылки, что позволяет сформировать задание для программиста или контент-менеджера (зависит от того, где зашиты 3хх-ссылки) на замену этих 3хх-ссылок на прямые с кодом 200. Теперь подробнее про то, что можно экспортировать при помощи Bulk Export.

All Inlinks — получаем все входящие ссылки на каждый URI, с которым столкнулся краулер при сканировании сайта.
All Outlinks — получаем все исходящие ссылки с каждого URI, с которым столкнулся краулер при сканировании сайта.
All Anchor Text — выгрузка анкоров всех ссылок.
All Images — выгрузка всех картинок (урл-адресами, естественно).
Screenshots — экспорт снимков экрана.
All Page Source — получаем статический HTML-код или обработанный HTML-код просканированных страниц (рендеринг HTML доступен только в режиме рендеринга JavaScript) .
External Links — все внешние ссылки со всех просканированных страниц.
Response Codes — все страницы в зависимости от выбранного кода ответа сервера (закрытые от индекса, с кодом 200, с кодом 3хх и т.д.).
Directives — все страницы с директивами в зависимости от выбранной (Index Inlinks, Noindex Inlinks, Nofollow Inlinks и т.д.).
Canonicals — страницы, содержащие канонические атрибуты, страницы без указания этих атрибутов, каноникализированные (*перекрестился*) страницы и т.д.
AMP — страницы с AMP, ссылки с AMP (но код ответа не 200) и т.д.
Structured Data — выгрузка страниц с микроразметкой.
Images — выгрузка картинок без альт-текста, тяжелых картинок (в соответствии с указанным в настройках размером).
Sitemaps — выгрузка всех страниц в карте сайта, неиндексируемых страниц в карте сайта и проч.
Custom — выгрузка пользовательских фильтров.

Reports

Здесь содержится множество различных отчетов, которые также можно выгрузить.

Crawl Overview — в этом отчете содержится сводная информация о сканировании, включая такие данные, как количество найденных URL-адресов, заблокированных robots.txt, число сканированных, тип контента, коды ответов и т. д.
Redirect & Canonical Chains — отчет о перенаправлении и канонических цепочках. Здесь отображаются цепочки перенаправлений и канонических символов, показывается количество переходов по пути и идентифицируется источник, а также цикличность (если есть).
Non-Indexable Canonicals — здесь можно получить выгрузку, в которой освещаются ошибки и проблемы с canonical. В частности, этот отчет покажет любые канонические файлы, которые не отдают корректного ответа сервера — заблокированы файлом robots.txt, с перенаправлением 3хх, ошибкой 4хх или 5хх (вообще все что угодно, кроме ответа «ОК» 200).
Pagination — ошибки и проблемы с атрибутами rel=”next” и rel=”prev”, которые используются для обозначения содержимого, разбитого на пагинацию.
Hreflang — проблемы с атрибутами hreflang (некорректный ответ сервера, страницы, на которые нет гиперссылок, разные коды языка на одной странице и т.д.).
Insecure Content — показаны любые защищенные (HTTPS) URL-адреса, на которых есть небезопасные элементы, такие как внутренние ссылки HTTP, изображения, JS, CSS, SWF или внешние изображения в CDN, профили социальных сетей и т. д.
SERP Summary — этот отчет позволяет быстро экспортировать URL-адреса, заголовки страниц и мета-описания с соответствующими длинами символов и шириной в пикселях.
Orphan Pages — список потерянных страниц, собранных из Google Analytics API, Google Search Console (Search Analytics API) и XML Sitemap, которые не были сопоставлены с URL-адресами, обнаруженными во время парсинга.
Structured Data — отчет содержит данные об ошибках валидации микроразметки страниц.

Sitemaps

С помощью этого пункта можно сгенерировать XML-карту сайта (страницы и картинки).

Все просто — выбираем что будем генерировать. В появившемся окне при необходимости выбираем нужные параметры и создаем карту сайта, которую потом заливаем в корневой каталог сайта.

Рассмотрим подробнее параметры, которые нам предлагают выбрать при генерации карты сайта.

Вкладка Pages — выбираем какие типы страниц включить в карту сайта.

Noindex Pages — страницы, закрытые от индексации.
Canonicalised — каноникализированные (опять это страшное слово!) страницы . Другими словами, динамика, у которой есть rel=”canonical”.
Paginated URLs — страница пагинации.
PDFs — PDF-документы.
No response — страницы с кодом ответа сервера 0 (не отвечает).
Blocked by robots.txt — страницы закрытые от индекса в robots.txt.
2xx — страницы с кодом 2хх (они будут в карте в любом случае).
3хх — страницы с кодом ответа 3хх (редиректы).
4хх — страницы с кодом ответа 4хх (битые ссылки на несуществующие страницы).
5хх — страницы с кодом ответа 5хх (проблема сервера при загрузке).

Вкладка Last Modified — выставляем дату последнего обновления карты.

nclude <lastmod> tag — использовать в sitemap тег <lastmod> (дата последнего обновления карты).
Use server report — использовать ответ сервера при создании карты, либо проставить дату вручную.

Вкладка Priority — выставляем приоритет ссылки в зависимости от глубины залегания страницы.

Include <priority> tag — добавляет в карту сайта тег <priority>, показывающий приоритет страницы.
Crawl Depth 0-5+ — в зависимости от глубины залегания страницы, можно проставить ее приоритет сканирования для поискового робота.

Вкладка Change Frequency — выставляем вероятную частоту обновления страниц.

Include <changefreq> tag — использовать тег <changefreq> в карте сайта. Показывает частоту обновления страницы.
Calculate from Last Modified header — рассчитать тег по последнему измененному заголовку.
Use crawl depth settings — проставить тег в зависимости от глубины страницы.

Вкладка Images — добавляем картинки в карту сайта.

Include Images — выводить в общей карте сайта картинки.
Include Noindex Images — добавить картинки, закрытые от индекса.
Include only relevant Images with up to … inlinks — добавить только картинки с заданным числом входящих ссылок.
Regex list of CDNs hosting images to be included — честно, так и не понял что это такое… возможно настройка выгрузки в карту сайта картинок из хостинга (т.е. можно вбить списком несколько хостов и оттуда подтянуть картинки), но это всего лишь мои предположения.

Вкладка Hreflang — использовать в sitemap атрибут <hreflang> (или не использовать).

Visualisations

Это выбор интерактивной визуализации структуры сайта в программе. Можно получить отображение дерева сканирования и дерева каталогов. Основная фишка в том, что открываются эти карты и диаграммы во встроенном браузере программы, что позволяет эффективнее с ними работать (настраивать выведение, масштабировать, перескакивать к нужным урлам через поиск и т.д.).

Crawl Tree Graph — визуализация сканирования. По факту после завершения краулинга показывает текущую структуру сайта на основании анализа.

Directory Tree Graph — показывает ВСЕ каталоги после сканирования. Т.е. отличие от Crawl Tree Graph в том, что в этом отчете показываются, например, папки, закрытые от индекса.

Назначение Crawl Tree Graph и Directory Tree Graph в основном заключается в упрощении анализа структуры текущего сайта, можно глазами пробежаться по всем папкам, зацепиться за косяки (т.к. они выделены цветом). При наведении на папку, показывается ее данные (url, title, h1, h2 и т.д.).

Force Directed Crawl-Diagram — по сути то же самое, что и Crawl Tree Graph, только оформленное по-другому + показывает сканирование сайта относительно главной страницы (ну или стартовой). Кому-то покажется нагляднее, хотя по мне, выглядит гораздо сложнее для восприятия.

Force Directed Tree-Diagram — аналогично, другой тип визуализации дерева каталогов сайта.

Inlink Anchor Text Word Cloud — визуализация анкоров (ссылочного текста) внутренней ссылки. Анализирует каждую страницу по-отдельности. Помогает понять какими анкорами обозначена страница, как их много, насколько разнообразны и т.д.

Р- Разнообразие

Body Text Word Cloud — визуализация плотности отдельных слов на странице. По сути выглядит так же, как и Inlink Anchor Text Word Cloud, так что отдельный скрин делать смысла особого нет — обычное облако слов, по размеру можно определить какое слово встречается чаще, по общему числу посмотреть разнообразие слов на странице и т.д.

Каждая визуализация имеет массу настроек вывода данных, маркировки — про них я писать не буду, если станет интересно, сами поиграетесь, ок? Там ничего сложного.

Crawl Analysis

Большинство параметров сайта вычисляется пауком в ходе сбора статистики, однако некоторые данные (Link Score, некоторые фильтры и прочее) нуждаются в дополнительном анализе, чтобы попасть в финальный отчет. Данные, которые нуждаются в Crawl Analysis, помечены соответствующим образом в правом меню навигации.

Crawl Analysis запускается после основного парсинга. Перед запуском дополнительного анализа, можно настроить его (какие данные выводить в отчет).

Link Score — присвоение оценок всем внутренним ссылкам сайта.
Pagination — показывает петлевые пагинации, а также страницы, которые обнаружены только через атрибуты rel=”next”/”prev”.
Hreflang — урлы hreflang без гиперссылки, битые ссылки.
AMP — страницы без тегов “html amp”, теги не с 200 кодом ответа.
Sitemaps — неиндексируемые страницы в карте сайта, урлы в нескольких картах сайта, потерянные страницы (например, есть в Google Analytics, есть в sitemap, не обнаружено при парсинге), страницы, которых нет в карте сайта, страницы в карте сайта.
Analytics — потерянные страницы (есть в аналитике, нет в парсинге).
Search Console — потерянные страницы (есть в вебмастере, нет в парсинге).

License

Исходя из названия, логично предположить, что этот пункт меню отвечает за разного рода манипуляции с активацией продукта…иии так оно и есть!

Buy a License — купить лицензию. При клике переход на соответствующую страницу официалов https://www.screamingfrog.co.uk/seo-spider/licence/. Стоимость ключа для одного ПК — 149 фунтов стерлинга. Есть пакеты для нескольких ПК, там, как обычно, идут скидки за опт.

Enter License — ввести логин и ключ лицензии, чтобы активировать полный функционал парсера.

Заметили, да? Лицензия покупается на год, не бессрочная

Help

Помощь юзеру — гайды, FAQ, связь с техподдержкой, в общем все, что связано с работой программы, ее багами и их решением.

User Guide — мануал по работе с программой. Собственно, его я использовал, как один из источников, для написания этой статьи. При желании, можете ознакомиться, если я что-то непонятно рассказал или не донес. Еще раз оставлю ссылку https://www.screamingfrog.co.uk/seo-spider/user-guide/.
FAQ — часто задаваемые вопросы по работе с SF и ответы на них https://www.screamingfrog.co.uk/seo-spider/faq/.
Support — обратная связь с техподдержкой https://www.screamingfrog.co.uk/seo-spider/support/. Если программа ведет себя некрасиво (например, не принимает ключ лицензии), можно пожаловаться куда надо и все починят.
Feedback — обратная связь. Та же самая страница, что и в Support. Т.е. можно не только жаловаться, но и вносить предложения по работе программы, предлагать партнерку, сказать банальное “спасибо” за такой крутой сервис (думаю ребятам будет приятно).
Check for Updates и Auto Check for Updates — проверка на наличие обновлений программы. Screaming Frog нерегулярно, но довольно часто дорабатывается, поэтому есть смысл периодически проверять апдейты. Но лучше поставить галочку на Auto Check for Updates и программа сама будет автоматически предлагать обновиться при выходе нового апа.
Debug — отчет о текущем состоянии программы. Нужно, если вы словили какой-то баг и хотите о нем сообщить разработчику. Там еще дополнительно есть настройки дебага, но я думаю, нет смысла заострять на этом внимание.
About — собственно, краткая информация о самой программе (копирайт, сервисы, которые использовались при разработке).

Итог

Screaming Frog — очень гибкая в плане настройке утилита, с помощью которой можно вытянуть массу данных для анализа, нужно только (только… ха-ха) правильно настроить парсинг. Я надеюсь, мой мануал поможет вам в этом, хотя и не все я рассмотрел как надо, есть пробелы, но основные функции должны быть понятны.

Теперь от себя — текста много, скринов много, потому, если вы начинающий SEO-специалист, рекомендую осваивать SF поэтапно, не хватайтесь за все сразу, ибо есть шанс упустить важные нюансы.

Ну вот и все, ребята, я отчаливаю за новым материалом для нашего крутого блога. Подписывайтесь, чтобы не пропустить интересные публикации от меня и моих коллег. Всем удачи, всем пока!

Оригинал статьи взят с сайта MAXI.BY media

Источник

Attention! Много букв! Много скринов! Много смысла!

Примечание автора: сразу скажу — программа имеет много вкладок и настроек, которые по сути не нужны рядовому пользователю, потому я подробно опишу только наиболее важные моменты, а второстепенные пройдем вскользь… хотя кого я обманываю, когда это у меня были статьи меньше 30 к символов? *Зануда mode on*

Примечание автора 2: при написании статьи я пользовался дополнительными материалами в виде официального мануала от разработчиков. Если что, почитать его можно тут https://www.screamingfrog.co.uk/seo-spider/user-guide/. Не пугайтесь английского, Google-переводчик в помощь — вполне себе сносная адаптация получается.

Примечание автора 3: я люблю оставлять примечания…

File
Configuration
Spider — настройки парсинга сайта
Robots.txt — определяем каким правилам следовать при парсинге
URL Rewriting — функция перезаписи URL
CDNs — парсим поддомены
Include/Exclude — сканирование/удаление определенных папок
Speed — регулируем скорость парсинга сайта
User-Agent — выбираем под кого маскируемся
HTTP Header — настройка реагирования на разные http-заголовки
Custom — дополнительные настройки поиска
User Interface — обнуление настроек для колонок таблицы
API Access — интеграция с разными сервисами
Authentification — настройки аутентификации
System — внутренние настройки самой программы
Mode
Bulk export
Reports
Sitemaps
Visualisations
Crawl Analysis
License
Help

Настройка Screaming Frog по шагам

Верхнее меню — управление парсингом, выгрузкой и многое другое

File

Open — открыть файл с уже проведенным парсингом.
Open Recent — открыть последний парсинг (если вы его сохраняли отдельным файлом).
Save — собственно, сохранить парсинг.
Configuration — загрузка/сохранение специальных настроек парсинга вроде выведения дополнительных параметров проверки и т.д. (про то, как задавать эти настройки, я далее расскажу подробнее).
Crawl Recent — повторно парсить один из последних сайтов, который уже проверялся в этой программе.
Scheduling — отложенное планирование задач для программы… ни разу не пользовался этой опцией…стыдно.
Exit — призвать к ответу Друзя… нет, ну серьезно,тут все очевидно.

Configuration

Один из самых интересных и важных пунктов меню, тут мы задаем настройки парсинга.

Spider — собственно, настройки парсинга сайта

Вкладка Basic — выбираем что парсить

Check Images — в отчет включаем анализ картинок.
Check CSS — в отчет включаем анализ css-файлов (скрипты).
Check JavaScript — в отчет включаем анализ JS-файлов (скрипты).
Check SWF — в отчет включаем анализ Flash-анимации.
Check External Link — в отчет включаем анализ ссылок с сайта на другие ресурсы.
Check Links Outside of Start Folder — проверка ссылок вне стартовой папки. Т.е. отчет будет только по стартовой папке, но с учетом ссылок всего сайта.
Follow internal “nofollow” — сканировать внутренние ссылки, закрытые в тег “nofollow”.
Follow external “nofollow” — сканировать ссылки на другие сайты, закрытые в тег “nofollow”.
Crawl All Subdomains — парсить все поддомены сайта, если ссылки на них встречаются на сканируемом домене.
Crawl Outside of Start Folder — позволяет сканировать весь сайт, однако проверка начинается с указанной папки.
Crawl Canonicals — выведение в отчете атрибута rel=”canonical” при сканировании страниц.
Crawl Next/Prev — выведение в отчете атрибутов rel=”next”/”prev” при сканировании страниц пагинации.
Extract hreflang/Crawl hreflang — при сканировании учитываются языковой атрибут hreflang и отображаются коды языка и региона страницы + формирование отчета по таким страницам.
Extract AMP Links/Crawl AMP Links — извлечение в отчет ссылок с атрибутом AMP (определение версии контента на странице).
Crawl Linked XML Sitemap — сканирование карты сайта. Тут краулер либо берет sitemap из robots.txt (Auto Discover XML Sitemap via robots.txt), либо берет карту по указанному пользователем пути (Crawl These Sitemaps).

Вкладка Limits — определяем лимиты парсинга

Limit Crawl Total — задаем лимиты страниц для сканирования. Сколько всего страниц выгружаем для одного проекта.
Limit Crawl Depth — задаем глубину парсинга. До какого уровня может дойти краулер при сканировании проекта.
Limit Max Folder Depth — можно контролировать глубину парсинга вплоть до уровня вложенности папки.
Limit Number of Query Strings — тут, если честно, сам не до конца разобрался, потому объясню так, как понял — мы ограничиваем лимит страниц с параметрами. Другими словами, если на одной статической странице есть несколько фильтров, то их комбинация может породить огромное количество динамических страниц. Вот чтобы такие “полезные” страницы не парсились (увеличивает время анализа в разы, а толковой информации по сути ноль), мы и выводим лимиты по Query Strings. Пример динамики — site.ru/?query1&query2&query3&queryN+1.
Max Redirects to Follow — задаем максимальное количество редиректов, по которым паук может переходить с одного адреса.
Max URL Length to Crawl — максимальная длина URL для обхода (указываем в символах, я так понимаю).
Max Links per URL to Crawl — максимальное количество ссылок на URL для обхода (указываем в штуках).
Max Page Size (KB) to Crawl — максимальный размер страницы для обхода (указываем в килобайтах).

Вкладка Rendering — настраиваем параметры рендеринга (только для JS)

Enable Rendered Page Screen Shots — SF делает скриншоты анализируемых страниц и сохраняет их в папке на ПК.
AJAX Timeout (secs) — лимиты таймаута. Как долго SEO Spider должен разрешать выполнение JavaScript, прежде чем проверять загруженную страницу.
Window Size — выбор размера окна (много их — смотрим скриншот).
Sample — пример окна (зависит от выбранного Window Size).
Чекбокс Rotate — повернуть окно в Sample.

Вкладка Advanced — дополнительные опции парсинга

Allow Cookies — учитывать Cookies, как это делает поисковый бот.
Pause on High Memory Used — тормозит сканирование сайта, если процесс забирает слишком много оперативной памяти.
Always Follows Redirect — разрешаем краулеру идти по редиректам вплоть до финальной страницы с кодом 200, 4хх, 5хх (по факту все ответы сервера, кроме 3хх).
Always Follows Canonicals — разрешаем краулеру учитывать все атрибуты “canonical” вплоть до финальной страницы. Полезно, если на страницах сайта бардак с настройкой этого атрибута (например, после нескольких переездов).
Respect Noindex — страницы с “noindex” не отображаются в отчете SF.
Respect Canonical — учет атрибута “canonical” при формировании итогового отчета. Полезно, если у сайта много динамических страниц с настроенным rel=”canonical” — позволяет убрать из отчета дубли по метаданным (т.к. на страницах настроен нужный атрибут).
Respect Next/Prev — учет атрибутов rel=”next”/”prev” при формировании итогового отчета. Полезно, если у сайта есть страницы пагинации с настроенными “next”/”prev”- позволяет убрать из отчета дубли по метаданным (т.к. на страницах настроен нужный атрибут).
Extract Images from img srscet Attribute — изображения извлекаются из атрибута srscet тега <img>. SRSCET — атрибут, который позволяет вам указывать разные типы изображений для разных размеров экрана/ориентации/типов отображения.
Respect HSTS Policy — если чекбокс активен, SF будет выполнять все будущие запросы через HTTPS, даже если перейдет по ссылке на URL-адрес HTTP (в этом случае код ответа будет 307). Если же чекбокс неактивен, краулер покажет «истинный» код состояния за перенаправлением (например, постоянный редирект 301).
Respect Self Referencing Meta Refresh — учитывать принудительную переадресацию на себя же (!) по метатегу Refresh.
Response Timeout — время ожидания ответа страницы, перед тем как парсер перейдет к анализу следующего урла. Можно сделать больше (для медленных сайтов), можно меньше.
5хх Response Retries — количество попыток “достучаться” до страниц с 5хх ответом сервера.
Store HTML — можно сохранить статический HTML-код каждого URL-адреса, просканированного SEO Spider, на диск и просмотреть его до того, как JavaScript “вступит в игру”.
Store Rendered HTML — позволяет сохранить отображенный HTML-код каждого URL-адреса, просканированного SEO Spider, на диск и просмотреть DOM после обработки JavaScript.
Extract JSON-LD — извлекаем микроразметку сайта JSON-LD. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).
Extract Microdata — извлекаем микроразметку сайта Microdata. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).
Extract RDFa — извлекаем микроразметку сайта RDFa. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).

Вкладка Preferences — так называемые “предпочтения”

Page Title Width — оптимальная ширина заголовка страницы. Указываем желаемые размеры от и до в пикселях и в символах.
Meta Description Width — оптимальная ширина описания страницы. Аналогично, как и с тайтлом, указываем желаемые размеры.
Other — сюда входит максимальная желаемая длина урл-адреса в символах (Max URL Length Chars), максимальная длина H1 в символах (Max H1 Length Chars), максимальная длина H2 в символах (Max H2 Length Chars), максимальная длина ALT картинок в символах (Max Image Length Chars) и максимальный вес картинок в КБ (Max Image Size Kilobytes).

Robots.txt — определяем каким правилам следовать при парсинге

Вкладка Settings — настраиваем парсинг относительно правил robots.txt

Respect robots.txt — следуем всем правилам, прописанным в robots.txt. Т.е. учитываем в анализе те папки и файлы, которые открыты для робота.
Ignore robots.txt — не учитываем robots.txt сайта при парсинге. В отчет попадают все папки и файлы, относящиеся к домену.
Ignore robots.txt but report status — не учитываем robots.txt сайта при парсинге, однако в дополнительном меню выводится статус страницы (индексируемая или не индексируемая).
Show internal/external URLs blocked by robots.txt — отмечаем в чекбоксах хотим ли мы видеть в итоговом отчете внутренние и внешние ссылки, закрытые от индексации в robots.txt. Данная опция работает только при условии выбора “Respect robots.txt”.

Вкладка Custom — ручное редактирование robots.txt в пределах текущего парсинга

Шаг 1. Прописать анализируемый домен в основной строке

Шаг 2. Кликнуть на Add, чтобы добавить robots.txt домена

Блок Subdomains — сюда, собственно, можно добавлять домены/поддомены, robots.txt которых мы хотим учитывать при парсинге сайта.
Окно справа — для редактирования выгруженного robots.txt. Итоговый вариант будет считаться каноничным для парсера.
Окошко снизу — проверка индексации url в зависимости от настроенного robots.txt. Справа выводится статус страницы (Allowed или Disallowed).

URL Rewriting — функция перезаписи URL «на лету»

Вкладка Remove Parameters

Вкладка Regex Replace

Изменение всех ссылок с http на https (Регулярное выражение: http Заменить: https).
Изменение всех ссылок на site.by на site.ru (Регулярное выражение: .by Заменить: .ru).
Удаление всех параметров (Регулярное выражение: \?. * Заменить: ).
Добавление параметров в URL (Регулярное выражение: $ Заменить: ?ПАРАМЕТР).

Вкладка Options

Вкладка Test

CDNs — парсим поддомены, не отходя от кассы

Include/Exclude — сканирование/удаление определенных папок

Выбираем папки для парсинга

Удаляем папки из парсинга

Примеры регулярных выражений для Exclude:

http://site.by/obidnye-shutki-pro-seo.html (исключение конкретной страницы).
http://site.by/obidnye-shutki-pro-seo/.* (исключение целой папки).
http://site.by/.*/obidnye-shutki-pro-seo/.* (исключение всех страниц, после указанной).
.*\?price.* (исключение страниц с определенным параметром).
.*jpg$ (исключение файлов с определенным расширением).
.*seo.* (исключение страниц с вхождением в url указанного слова).
.*https.* (исключение страниц с https).
http://site.by/.* (исключение всех страниц домена/поддомена).

Speed — регулируем скорость парсинга сайта

User-Agent — выбираем под кого маскируемся

Custom — дополнительные настройки поиска по исходному коду

Custom Search

Custom Extraction

Это пользовательское извлечение любых данных из html (например, текстовое содержимое).

User Interface — обнуление настроек для колонок таблицы

Просто сбрасывает сортировку столбцов, ничего особенного, проходим дальше, граждане, не толпимся.

API Access — интеграция с разными сервисами

При этом для каждого сервиса отдельные настройки выгрузки по типам данных.

На примере GA

Authentification — настройки аутентификации (если есть запрос от сайта)

System — внутренние настройки самой программы

Давайте как обычно — подробнее о каждом пункте.

Memory — выделяем лимиты оперативной памяти для парсинга. По дефолту стоит 2GB, но можно выделить больше (если ПК позволяет).

Storage — выбор базы для хранения данных. Либо сохранение в ОЗУ (для этого у SF есть свой движок), либо в указанной папке на ПК пользователя.

Proxy — подключение прокси-сервера для парсинга.

Embedded Browser — использование встроенного в программу браузера (вкл/выкл).

Mode

Spider (Режим паука) — классический парсинг сайта по внутренним ссылкам. Просто вводим нужный домен в адресную строку программы и запускаем работу.
List — парсим только предварительно собранный список урл-адресов! Адреса можно выгрузить из файла (From a file), вбить вручную (Enter Manually), подтянуть их из карты сайта (Download Sitemap) и т.д. Если честно, этих трех способов получения списка урлов должно быть более чем достаточно.

SERP Mode — в этом режиме нет сканирования, зато здесь можно загружать мета-данные сайта, редактировать их и предварительно понимать как они будут отображаться в браузере. Делать все это можно пакетно, что вполне себе удобно.

Bulk export

All Inlinks — получаем все входящие ссылки на каждый URI, с которым столкнулся краулер при сканировании сайта.
All Outlinks — получаем все исходящие ссылки с каждого URI, с которым столкнулся краулер при сканировании сайта.
All Anchor Text — выгрузка анкоров всех ссылок.
All Images — выгрузка всех картинок (урл-адресами, естественно).
Screenshots — экспорт снимков экрана.
All Page Source — получаем статический HTML-код или обработанный HTML-код просканированных страниц (рендеринг HTML доступен только в режиме рендеринга JavaScript) .
External Links — все внешние ссылки со всех просканированных страниц.
Response Codes — все страницы в зависимости от выбранного кода ответа сервера (закрытые от индекса, с кодом 200, с кодом 3хх и т.д.).
Directives — все страницы с директивами в зависимости от выбранной (Index Inlinks, Noindex Inlinks, Nofollow Inlinks и т.д.).
Canonicals — страницы, содержащие канонические атрибуты, страницы без указания этих атрибутов, каноникализированные (*перекрестился*) страницы и т.д.
AMP — страницы с AMP, ссылки с AMP (но код ответа не 200) и т.д.
Structured Data — выгрузка страниц с микроразметкой.
Images — выгрузка картинок без альт-текста, тяжелых картинок (в соответствии с указанным в настройках размером).
Sitemaps — выгрузка всех страниц в карте сайта, неиндексируемых страниц в карте сайта и проч.
Custom — выгрузка пользовательских фильтров.

Reports

Здесь содержится множество различных отчетов, которые также можно выгрузить.

Crawl Overview — в этом отчете содержится сводная информация о сканировании, включая такие данные, как количество найденных URL-адресов, заблокированных robots.txt, число сканированных, тип контента, коды ответов и т. д.
Redirect & Canonical Chains — отчет о перенаправлении и канонических цепочках. Здесь отображаются цепочки перенаправлений и канонических символов, показывается количество переходов по пути и идентифицируется источник, а также цикличность (если есть).
Non-Indexable Canonicals — здесь можно получить выгрузку, в которой освещаются ошибки и проблемы с canonical. В частности, этот отчет покажет любые канонические файлы, которые не отдают корректного ответа сервера — заблокированы файлом robots.txt, с перенаправлением 3хх, ошибкой 4хх или 5хх (вообще все что угодно, кроме ответа «ОК» 200).
Pagination — ошибки и проблемы с атрибутами rel=”next” и rel=”prev”, которые используются для обозначения содержимого, разбитого на пагинацию.
Hreflang — проблемы с атрибутами hreflang (некорректный ответ сервера, страницы, на которые нет гиперссылок, разные коды языка на одной странице и т.д.).
Insecure Content — показаны любые защищенные (HTTPS) URL-адреса, на которых есть небезопасные элементы, такие как внутренние ссылки HTTP, изображения, JS, CSS, SWF или внешние изображения в CDN, профили социальных сетей и т. д.
SERP Summary — этот отчет позволяет быстро экспортировать URL-адреса, заголовки страниц и мета-описания с соответствующими длинами символов и шириной в пикселях.
Orphan Pages — список потерянных страниц, собранных из Google Analytics API, Google Search Console (Search Analytics API) и XML Sitemap, которые не были сопоставлены с URL-адресами, обнаруженными во время парсинга.
Structured Data — отчет содержит данные об ошибках валидации микроразметки страниц.

Sitemaps

С помощью этого пункта можно сгенерировать XML-карту сайта (страницы и картинки).

Рассмотрим подробнее параметры, которые нам предлагают выбрать при генерации карты сайта.

Вкладка Pages — выбираем какие типы страниц включить в карту сайта.

Noindex Pages — страницы, закрытые от индексации.
Canonicalised — каноникализированные (опять это страшное слово!) страницы . Другими словами, динамика, у которой есть rel=”canonical”.
Paginated URLs — страница пагинации.
PDFs — PDF-документы.
No response — страницы с кодом ответа сервера 0 (не отвечает).
Blocked by robots.txt — страницы закрытые от индекса в robots.txt.
2xx — страницы с кодом 2хх (они будут в карте в любом случае).
3хх — страницы с кодом ответа 3хх (редиректы).
4хх — страницы с кодом ответа 4хх (битые ссылки на несуществующие страницы).
5хх — страницы с кодом ответа 5хх (проблема сервера при загрузке).

Вкладка Last Modified — выставляем дату последнего обновления карты.

nclude <lastmod> tag — использовать в sitemap тег <lastmod> (дата последнего обновления карты).
Use server report — использовать ответ сервера при создании карты, либо проставить дату вручную.

Вкладка Priority — выставляем приоритет ссылки в зависимости от глубины залегания страницы.

Include <priority> tag — добавляет в карту сайта тег <priority>, показывающий приоритет страницы.
Crawl Depth 0-5+ — в зависимости от глубины залегания страницы, можно проставить ее приоритет сканирования для поискового робота.

Вкладка Change Frequency — выставляем вероятную частоту обновления страниц.

Include <changefreq> tag — использовать тег <changefreq> в карте сайта. Показывает частоту обновления страницы.
Calculate from Last Modified header — рассчитать тег по последнему измененному заголовку.
Use crawl depth settings — проставить тег в зависимости от глубины страницы.

Вкладка Images — добавляем картинки в карту сайта.

Include Images — выводить в общей карте сайта картинки.
Include Noindex Images — добавить картинки, закрытые от индекса.
Include only relevant Images with up to … inlinks — добавить только картинки с заданным числом входящих ссылок.
Regex list of CDNs hosting images to be included — честно, так и не понял что это такое… возможно настройка выгрузки в карту сайта картинок из хостинга (т.е. можно вбить списком несколько хостов и оттуда подтянуть картинки), но это всего лишь мои предположения.

Вкладка Hreflang — использовать в sitemap атрибут <hreflang> (или не использовать).

Visualisations

Force Directed Tree-Diagram — аналогично, другой тип визуализации дерева каталогов сайта.

Р- Разнообразие

Crawl Analysis

Link Score — присвоение оценок всем внутренним ссылкам сайта.
Pagination — показывает петлевые пагинации, а также страницы, которые обнаружены только через атрибуты rel=”next”/”prev”.
Hreflang — урлы hreflang без гиперссылки, битые ссылки.
AMP — страницы без тегов “html amp”, теги не с 200 кодом ответа.
Sitemaps — неиндексируемые страницы в карте сайта, урлы в нескольких картах сайта, потерянные страницы (например, есть в Google Analytics, есть в sitemap, не обнаружено при парсинге), страницы, которых нет в карте сайта, страницы в карте сайта.
Analytics — потерянные страницы (есть в аналитике, нет в парсинге).
Search Console — потерянные страницы (есть в вебмастере, нет в парсинге).

License

Enter License — ввести логин и ключ лицензии, чтобы активировать полный функционал парсера.

Заметили, да? Лицензия покупается на год, не бессрочная

Help

User Guide — мануал по работе с программой. Собственно, его я использовал, как один из источников, для написания этой статьи. При желании, можете ознакомиться, если я что-то непонятно рассказал или не донес. Еще раз оставлю ссылку https://www.screamingfrog.co.uk/seo-spider/user-guide/.
FAQ — часто задаваемые вопросы по работе с SF и ответы на них https://www.screamingfrog.co.uk/seo-spider/faq/.
Support — обратная связь с техподдержкой https://www.screamingfrog.co.uk/seo-spider/support/. Если программа ведет себя некрасиво (например, не принимает ключ лицензии), можно пожаловаться куда надо и все починят.
Feedback — обратная связь. Та же самая страница, что и в Support. Т.е. можно не только жаловаться, но и вносить предложения по работе программы, предлагать партнерку, сказать банальное “спасибо” за такой крутой сервис (думаю ребятам будет приятно).
Check for Updates и Auto Check for Updates — проверка на наличие обновлений программы. Screaming Frog нерегулярно, но довольно часто дорабатывается, поэтому есть смысл периодически проверять апдейты. Но лучше поставить галочку на Auto Check for Updates и программа сама будет автоматически предлагать обновиться при выходе нового апа.
Debug — отчет о текущем состоянии программы. Нужно, если вы словили какой-то баг и хотите о нем сообщить разработчику. Там еще дополнительно есть настройки дебага, но я думаю, нет смысла заострять на этом внимание.
About — собственно, краткая информация о самой программе (копирайт, сервисы, которые использовались при разработке).

Итог

Владимир Еленский

Практикующий SEO-специалист MAXI.BY media. Опыт работы более 5-ти лет. Хороший человек и просто красавчик.

Источник

Инструкция по настройке Лягушки (Screaming Frog) для сканирования сайтов. Активируем и настраиваем программу для работы в ручном и из пред файла готовой конфигурации в пару кликов.

Делюсь одной из частей регламента для сотрудников, которая посвященна работе с программой Screamig Frog.

Всем привет. Меня зовут Толстенко Александр. Я частный специалист по продвижению сайтов в Яндекс/Google.

Работаю в сфере создания и продвижения сайтов с 2009 года (уже более 13 лет).

Кейсы продвижения и другие статьи, подтверждающие экспертизу, можно посмотреть на сайте marketing-digital.ru или в профиле на vc.ru.

Провожу в месяц 10 бесплатных консультации длительностью 10-15 минут. Если актуально, бронируйте место, контакты в конце.

Настраиваем параметры программы Screaming Frog SEO Spider

Запускам программу и сразу вводим ключь активации

Важно! Программа должна быть активированная, чтобы просканировать весь сайт, а не только первые 500 страниц.

Далее, переходим к одному из методов настройке самой программы.

1. Загрузка настроек из готового файла конфигурации

Чтобы не разбираться в деталях настройки программы, загружаем скачанную конфигурацию на ПК и импортимуем настройки, которые подойдут в 90% случаев для сканирования практически всех сайтов.

Готовая конфигурация для скачивания на ПК

Инструкция по импорту

1.1. Открываем меню: File → Configuration → load

1.2. Импортируем скаченный файл выше

1.3. Сохраняем загруженные настройки по умолчанию (будут применены при каждем открытии программы)

1.4. Проверяем, где будут храниться данные сканирования в ОЗУ или на жестком (System → Storage Mode) (могло снести при импорте)

1.5. Проверить сколько у вас установилось оперативной памяти для сканирования (могло снести при импорте)

Разработчики заявляют, что для хранения базы данных 4 ГБ ОЗУ позволят вам сканировать 2-3 миллиона URL-адресов, 8 ГБ ОЗУ позволят сканировать до 5 миллионов URL-адресов и 16 ГБ для 10 миллионов. Но, все это — приблизительные значения, так как зависит от типа сайта.

Рекомендуемое значение программой, будет указано в скобках (пример на скрние ниже в скобках: 14GB maximum allowed). Задать самостоятельно можно будет в окошке (у себя указал 10 GB)

Я отдаю ~60% от общего объема, чтобы не зависал компьютер. Пример на скрине. После указанных значений, нажимаем ОК.

1.3. Сохраняем загруженные настройки по умолчанию (будут применены при каждем открытии программы)

1.5. Перезагружаем программу, запускаем парсинг нужного сайта.

💡 Проверка задачи (самопроверка)

Скачали файл конфигурации программы и импортировали его
Проверили на всякий случай п. 1.4 и 1.5., если импорт снес, установлии свои значения
Сохранили импортированные настройки, чтобы каждый раз не настраивать
Перезагрузили программу, запустили парсинг нужного сайта

2) Ручная настройка (если нужно настроить под себя)

2.1. Запускам программу и открываем настройки: Configuration

2.2. Выбираем где хранить данные в ОЗУ или на жестком (System → Storage Mode)

2.3. Выбираем место, где будут храниться данные сканирования

Выбрать:
1) Database Store
2) Указать путь, где будут на жестком диске храниться данные парсинга (при желании)
3) Нажать кнопку: Ок, для сохранения изменений

2.4. Увеличиваем оперативную память для сканирования, чтобы не тупила программа

В зависимости от объема оперативной памяти на вашем компьтере (у меня 16 GB), вы можете задать значение самостоятельно.Чем больше объем, тем меньше будет тупить программа.Рекомендуемое значение программой, будет указано в скобках (пример на скрние ниже в скобках: 14GB maximum allowed).Задать самостоятельно можно будет в окошке (у себя указал 10 GB)

Я отдаю ~60% от общего объема, чтобы не зависал компьютер. Пример как у меня на скрине.После указанных значений, нажимаем ОК.

2.5. Сохраняем сделанные настройки конфигураци, чтобы открывались по умолчанию

2.6. Перезагружаем программу, она готова к работе

Важно! Если у вас очень большой проект (больше полу миллиона страниц), можно отключить ненужные параметры для сканирования. Пример настроек на скринах ниже. Поигравшись с настройками самостояльно, можно просканировать весь сайт.

💡 Проверка задачи (самопроверка)

Программа настроена для сканирования сайтов
Сохранили настройки, чтобы каждый раз не настраивать программу
Перезагрузили программу, запустили парсинг нужного сайта

✌ Нужна консультация?

👉 Пишите в личные сообщения сюда:

Источник

Основные настройки сканирования сайта

Для большинства специалистов общий аудит сайта – непростая задача, однако с таким инструментом, как Screaming Frog SEO Spider (СЕО Паук), она может стать значительно более простой для профессионалов и даже для новичков. Удобный интерфейс Screaming Frog позволяет работать легко и быстро: с его помощью можно проверить позиции сайта, просканировать все страницы, найти внутренние ссылки и проблемы с контентом. Однако многообразие вариантов конфигурации, сложность в настройке и функциональности может усложнить знакомство с программой.

Инструкция ниже призвана продемонстрировать способы использования Screaming Frog как для аудита сайтов, так и других задач необходимых для продвижения сайта.

Важно! Скачивать лучше последнюю версию программы, регулярно обновляя ее. Данный гайд рассчитан на версию 16.7. Если у вас более старая версия или, наоборот, новая, вы можете столкнуться с неточностями в описании или другим видом интерфейса программы.

Настройки парсера

Перечень базовых настроек перед стартом работ

Memory

Здесь указываем предел оперативной памяти для парсинга. Опираемся на параметры своего ПК: учтите, что при запуске краулера этот объем RAM будет полностью зарезервирован и доступен только ему. Слишком маленький объем буфера может привести к зависанию паука при сканировании очень больших сайтов.

Storage

В данном разделе указывается, куда будут сохраняться отчеты – в папку «Программы» либо по указанному пути (по умолчанию в /User).

Proxy

Указывается прокси, с помощью которых будет происходить парсинг (используется, если выбран чекбокс).

Embedded Browser

Если чекбокс активен, парсер использует встроенный в программу браузер (на базе Chromium) для сканирования.

Режимы сканирования — Mode

Выбираем режимы сканирования сайта.

*Кстати, вы можете в любой момент приостановить сканирование, сохранить проект и закрыть программу, а при следующем запуске продолжить с того же места.

Spider – классический парсинг сайта по внутренним ссылкам, домен вводится в адресную строку.

List – парсим только предварительно собранный список URL-адресов. Указать последние можно разными способами:

From a File – выгружаем URL-адреса из файла.
Paste – выгружаем URL-адреса из буфера обмена.
Enter Manually – вводим вручную в соответствующее поле.
Download Sitemap – выгружаем их из карты сайта.

SERP Mode – режим не для сканирования: в нем можно загружать метаданные сайта, редактировать и тестировать.

Скорость парсинга

Еще одна основная настройка SEO Frog. При запуске парсинга внизу указывается средняя скорость и текущая. Если сайт не выдерживает большой нагрузки, то лучше в настройках задать другое значение.

Необходимо зайти в Configuration ➜ Speed и выставить более щадящие параметры.

Можно уменьшить кол-во потоков, а также максимальное количество обрабатываемых адресов в секунду.

Задаем параметры скорости анализа

Сканирование всего сайта

По умолчанию Screaming Frog сканирует лишь поддомен (или основной домен), на который вы заходите. Любой дополнительный поддомен, с которым сталкивается Spider, рассматривается как внешняя ссылка. Чтобы сканировать дополнительные поддомены, необходимо внести корректировки в меню конфигурации. Выбрав опцию «Crawl All Subdomains», вы можете быть уверены в том, что “паук” проанализирует любые ссылки, которые попадаются на поддоменах вашего сайта.

Заходим в настройки паука:

Переход к настройкам паука

Выставляем параметры:

Разрешение на анализ поддоменов

Чтобы ускорить сканирование, уберите чекбоксы на картинки, CSS, JavaScript, SWF или внешние ссылки.

Выключаем анализ медиафайлов

Парсинг только одного раздела

Если вы хотите ограничить сканирование конкретной папкой, просто введите URL.

Вставляем адрес сайта или раздела и нажимает “старт”

При этом убедитесь, что в настройках Configuration ➜ Spider ➜ Crawl убрана галочка с Crawl Outside of Start Folder

Запрещаем переход за рамки указанной папки

Если вы хотите начать сканирование с конкретной папки, а затем перейти к анализу оставшейся части поддомена, то перед тем, как начать работу с необходимым URL, перейдите сначала в раздел Spider под названием «Configuration» и выберите в нем опцию «Crawl Outside Of Start Folder».

Разрешаем переход за рамки указанной папки

Как сканировать список поддоменов или каталогов

Чтобы взять в работу или, напротив, исключить конкретный список поддоменов или подкаталогов, вы можете использовать RegEx, чтобы задать правила включения (Include settings — сканируем только заданные папки) или исключения (Exclude settings — сканируем все, кроме указанных папок) определенных элементов в меню «Configuration».

Добавляем не нужный раздел в список исключений

Как сканировать сайт, размещенный на старом сервере

В некоторых случаях старые серверы могут оказаться неспособны обрабатывать заданное количество URL-запросов в секунду. Чтобы изменить скорость сканирования, в меню «Configuration» откройте раздел «Speed» и во всплывающем окне выберите максимальное число потоков, которые должны быть задействованы одновременно. В этом меню также можно выбрать максимальное количество URL-адресов, запрашиваемых в секунду.

Если в результатах сканирования вы обнаружите большое количество ошибок сервера, перейдите во вкладку «Advanced» в меню конфигурации Паука и увеличите значение времени ожидания ответа (Response Timeout) и число новых попыток запросов (5xx Response Retries).

Настройка авторизации

Паук Screaming Frog заходит на страницу, запрашивающую идентификацию, а затем всплывает окно, в котором требуется ввести логин и пароль.

Переход на страницу авторизации

Для того, чтобы впредь обходиться без данной процедуры, в меню конфигурации заходим в раздел Configuration ➜ Authentication и снимаем флажок.

Отключение авторизации

Парсинг списка URL

Итак, вы собрали много URL, но вам необходима дополнительная информация о них? Установите режим List, затем загрузите список URL-адресов в формате .txt или .csv. После завершения процедуры вы сможете увидеть код состояния, исходящие ссылки, количество слов и, конечно, метаданные для каждой страницы в вашем списке.

Переход в режим List -работа по перечню URL

Внутренние и внешние ссылки

Если вам не требуется информация про JavaScript, CSS и flash файлы, отключите эти опции в меню настроек для экономии времени обработки и памяти.

Как только алгоритм закончит сканирование, используйте Bulk Export и соответствующие пункты меню «Links» для экспорта CSV. Вы узнаете про расположение всех ссылок вместе с соответствующими текстами анкоров, директивами и т. д.

Использование меню для выгрузки отчетов в формате CSV

Все ссылки с большого сайта могут представлять собой большой отчет. Помните об этом при экспорте. Для больших сайтов экспорт может занять некоторое время.

Использование SEO Spider при внутренней перелинковке

Внутренняя перелинковка может принести хороший ROI (окупаемость инвестиций), особенно когда у вас есть стратегия распределения PageRank, ранжирование по ключевым словам и анкорам, в которых есть ключевые слова.

Анализ перелинковки

Не будем подробно разбирать правила перелинковки, просто расскажем два важных правила:

Важные для продвижения страницы должны быть как можно ближе к главной. Они должны иметь как можно больше входящих ссылок и меньше исходящих, чтобы у страницы был хороший внутри-ссылочный вес.
Во вкладках external и Internal нужно найти inlinks и outlinks, а затем отсортировать по значению. Желательно найти все важные и продвигаемые разделы в списке, для этого можно воспользоваться поиском. Значения входящих и исходящих ссылок у каждого сайта будут разные. Поэтому стоит отталкиваться от размера сайта, общего количества страниц и средне-ссылочной массы каждой из них.

Изучение исходящих и входящих ссылок на страницах. Можно посмотреть какие страницы ссылаются на ту или иную страницу и наоборот.

Поиск битых ссылок на сайте

Screaming Frog Seo Spider позволяет найти битые ссылки. Как только алгоритм закончит проверку, отфильтруйте результаты во вкладке «Internal» по «Status Code». Все 404, 301 и страницы с другим статусом будут показаны.

Обратите внимание на код ответа

Кликнув по любому отдельному URL в результате проверки, вы увидите изменение информации внизу программного окна. Нажав на вкладку «In Links» внизу окна, вы найдете список страниц, которые привязаны к выбранным URL, вместе с анкорным текстом и директивами, использованными на этих ссылках. Вы можете использовать это для мониторинга страниц, на которых нужно обновить внутренние ссылки.

Если страница имеет 404 код ответа, можно узнать, какие еще страницы ссылаются на нее, чтобы заменить или удалить на них битую ссылку.

Для экспорта полного списка страниц с битыми или редиректными ссылками, перейдите в Bulk Export ➜ Response Codes (коды ответов) и выберите «Redirection (3xx) In Links», «Client Error (4xx) In Links» или «Server Error (5xx) In Links». Таким образом вы получите данные в файле CSV.

Прокрутите до кодов ответов и посмотрите на следующие отчеты:

no response inlinks;
redirection (3xx) inlinks;
Redirection (JavaScript) inlinks;
redirection (meta refresh) inlinks;
client error (4xx) inlinks;
server error (5xx) inlinks.

Как найти 301, 302, 307 редиректы

Для экспорта полного списка ссылок с редиректом перейдите в Bulk Export ➜ Response Codes ➜ Redirection (3xx) In Links.

Поиск страниц с очень длинными заголовками страниц, СЕО-тегами или URL-адресами

После завершения сканирования перейдите на вкладку Page Titles и отфильтруйте по Over 65 Characters, чтобы увидеть слишком длинные заголовки страниц. Вы можете сделать то же самое на вкладке Meta Description или на вкладке URI.

Работа по обнаружению проблем с мета-тегами

Поиск дублей SEO-тегов или URL

После того, как SEO Spider закончил сканировать, перейдите на вкладку Page Titles, затем выберите Duplicate. Вы можете сделать то же самое на вкладках Meta Description или URI.

Поиск дублей seo-тегов

Поиск страниц с директивами nofollow, noindex, canonical и т.д.

После того, как SEO Spider закончил проверку, нажмите на вкладку Directives. Чтобы увидеть тип директивы, просто прокрутите вправо или растяните окно программы, чтобы увидеть, какие столбцы заполнены, или используйте фильтр, чтобы найти любой из следующих тегов:

Выберите интересующую вас директиву для получения списка страниц, использующих ее.

index;
noindex;
follow;
nofollow;
noarchive;
nosnippet;
noodp;
noydir;
noimageindex;
notranslate;
unavailable_after;
refresh.

Проверка файла robots.txt

По умолчанию Screaming Frog будет выполнять требования robots.txt. В качестве приоритета он будет следовать директивам, сделанным специально для пользовательского агента (user agent) Screaming Frog. Если для агента пользователя Screaming Frog нет никаких директив, то SEO Spider будет следовать любым директивам для поискового робота Googlebot, а если нет специальных директив для робота Googlebot, он будет следовать глобальным директивам для всех пользовательских агентов.

Если вы хотите заблокировать определенные части сайта от SEO Spider, используйте обычный синтаксис robots.txt с пользовательским агентом Screaming Frog SEO Spider. Если вы хотите игнорировать robots.txt, просто выберите эту опцию в настройках Configuration ➜ Spider.

Настройка паука для работы с роботс

Configuration ➜ Robots.txt ➜ Settings

Переход в настройки

Подробнее про robots.txt вы можете узнать из другой статьи.

Проверка микроразметки Schema и других структурированных данных

Начиная с Screaming Frog 11.0, Spider SEO также предлагает нам возможность просканировать, извлекать и проверять структурированные данные непосредственно из сканирования. Проверяйте любые структурированные данные JSON-LD, Microdata или RDFa в соответствии с рекомендациями Schema.org и спецификациями Google в режиме реального времени во время сканирования. Чтобы получить доступ к инструментам проверки структурированных данных, выберите параметры в Config ➜ Spider ➜ Extraction.

Даем добро на извлечение данных о микроразметке

Теперь в главном интерфейсе есть вкладка Structured Data, которая позволит вам переключаться между страницами, содержащими структурированные данные, и которые могут иметь ошибки или предупреждения проверки:

Поиск микроразметки на страницах через фильтр

Подробнее про микроразметку в другой статье сайта.

Проверка контента сайта через Screaming Frog

Ищем страницы с не информативным контентом

Screaming Frog позволяет посмотреть несодержательные страницы, то есть с минимальным содержанием контента (или без него). Приводим инструкцию, как это сделать.

После того, как алгоритм закончит проверку, откройте вкладку «Internal», отсортируйте по HTML и прокрутите вправо до колонки «Word Count». Отсортируйте колонку «Word count» от наименьшего до наибольшего, чтобы найти страницы с маленьким количеством контента. Вы можете перетянуть колонку «Word Count» влево. Нажмите «Export» во вкладке «Internal», если вам удобнее работать с данными в формате CSV.

Отсортируйте колонку Word count по возрастанию

Поиск URL-адресов, которые необходимо переписать или добавить атрибут canonical

После того, как SEO Spider завершил сканирование, перейдите на вкладку URI, затем отфильтруйте по Underscores, Uppercase или Non ASCII Characters (список URI, который содержит символы, не включенные в схему кодирования ASCII символов), чтобы просмотреть URL, которые потенциально могут быть переписаны в более стандартную структуру.

Поиск страниц с нестандартными URL. Помните, что изменение URL приведет потере позиций в выдаче, если не будет настроен редирект со старого адреса на новый.

Выберите Duplicate и вы увидите все страницы с несколькими версиями URL. Отфильтруйте по Parameters, и вы увидите URL-адреса, содержащие параметры.

Как найти на сайте CSS-файл.

В меню Configuration ➜ Spider выберите «Crawl» и «Store» CSS перед проверкой.

После завершения отсортируйте результаты по «CSS» во вкладке «Internal».

Поиск css на страницах

Ищем файлы JavaScript.

В меню Configuration ➜ Spider выберите «Crawl» и «Store» для JavaScript перед проверкой

Отсортируйте результаты по «JavaScript» во вкладке «Internal» по завершении обхода

Как найти изображения без alt

Во-первых, вы должны убедиться, что в меню Spider ➜ Configuration выбран Check Images. После того, как SEO Spider закончил анализировать, перейдите на вкладку Images и отфильтруйте по Missing Alt Text (отсутствует Alt) или Alt Text Over 100 Characters. Вы можете найти страницы, где находится любое изображение, нажав на вкладку Image Info в нижнем окне. Страницы будут перечислены в столбце From.

Поиск изображений. Обратите внимание на изображения без Alt — поисковики этого не прощают.

Наконец, если вы предпочитаете CSV, используйте меню Bulk Export, чтобы экспортировать All Images или Images Missing Alt Text Inlinks, чтобы увидеть полный список изображений, где они находятся, и любой связанный с ним текст alt или проблемы с alt Text.

Экспорт данных в CSV в зависимости от того, какая проблема с изображениями вас интересует.

Необходимо проверить наличие атрибута alt на всех изображениях, которые используются на сайте. Большинство изображений выводятся циклами, поэтому рекомендуется искать закономерности. Очень важно заполнять теги картинок — Alt. Но на фоне фильтра Яндекс Noname категорически нельзя спамить ключевыми словами в пункты меню, хлебные крошки и теги картинок. Многие сайты попали под этот фильтр именно благодаря тегам картинок и долгие годы сидят под фильтром, ведь самая страшная особенность данного фильтра (отсюда и происходит его название) в том, что поддержка Яндекс не отвечает на запрос по этому фильтру и говорит, что с сайтом все хорошо, да только вот ранжирование сайта в Яндекс оставляет желать лучшего.

Поиск плагинов jQuery

Прежде всего, убедитесь, что в меню конфигурации выбрано «Check JavaScript». По завершении сканирования примените в панели «Internal» фильтр «JavaScript», а после сделайте поиск «jQuery». Это позволит вам получить список файлов с плагинами. Отсортируйте перечень по функции «Address» для более удобного просмотра. Затем просмотрите «InLinks» в нижнем окне или экспортируйте информацию в CSV. Чтобы найти страницы, на которых используются файлы, поработайте со столбиком «From».

Получение списка страниц с .JS на борту

Поиск flash на сайте

Перед сканированием в меню конфигурации выберите «Check SWF». А по завершении работы Паука отфильтруйте результаты в панели «Internal» по значению «Flash».

Как найти на сайте PDF-файлы

После завершения сканирования отфильтруйте результаты работы Spider при помощи опции «PDF» в панели «Internal».

Для отображения списка страниц с PDF и Flash

Проверка орфографии и грамматики

Как проверить орфографию и грамматику при помощи Screaming Frog? Новая вкладка «Content» содержит фильтры для «Spelling Errors» и «Grammar Errors» и отображает счетчики для каждой просканированной страницы.

Поиск страниц с грамматическими ошибками

Вы можете включить проверку орфографии и грамматики Configuration ➜ Content ➜ Spelling & Grammar.

Настройка словаря

Карта сайта

Создание XML Sitemap

После того, как паук закончил сканировать ваш ресурс, нажмите на «Sitemap» и выберите «XML Sitemap».

Сохраните вашу карту сайта в XML формате, а после откройте ее обычным блокнотом.

Генерация XML карты на основании полученного списка URL

После того, как карта сайта предстанет перед вами в табличной форме, вы с легкостью сможете изменить частоту, приоритет и прочие настройки. Обязательно убедитесь в том, что Sitemap содержит лишь один предпочитаемый (канонический) вариант каждого URL, без параметров и прочих дублирующих факторов.

После внесения каких-либо изменений пересохраните файл в формате XML.

Как найти страницы, которых нет в Sitemap.xml

Вы можете настроить параметры сканирования, чтобы обнаруживать и сравнивать URL-адреса в ваших XML-файлах сайта с URL-адресами в пределах вашего сайта.

Перейдите в Configuration ➜ Spider в главной навигации, и внизу есть несколько опций для XML-карт сайтов – Auto discover XML sitemaps через ваш файл robots.txt или вручную введите ссылку XML-карты сайта в поле. *Important note – если ваш файл robots.txt не содержит правильных целевых ссылок на все XML-карты сайта, которые вы хотите сканировать, вы должны ввести их вручную.

Настройка позволит найти страницы, которых не в sitemap

После обновления настроек сканирования XML-файла Sitemap перейдите к пункту Crawl Analysis в навигации, затем нажмите Configure и убедитесь, что кнопка Sitemaps отмечена.

Сначала запустите полное сканирование сайта
Вернитесь к Crawl Analysis и нажмите Start.

Убедитесь, что чекбокс Sitemaps активен

Общие проблемы

Определение проблем с индексацией и ранжированием

Хотите знать, почему некоторые страницы закрыты от индексации? Во-первых, стоит убедиться, что они не были случайно помещены в файл robots.txt или помечены как noindex. Затем нужно проверить, что SEO Spider может добраться до страниц, проверив ваши внутренние ссылки. Страницу, которая не имеет внутренних ссылок на вашем сайте, часто называют «сиротами» (Orphaned Page).

Чтобы выявить потерянные страницы, выполните следующие действия:

Перейдите в Configuration ➜ API Access ➜ Google Analytics – используя API, вы можете получить аналитические данные для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы из органического поиска, убедитесь, что они разделены на органический трафик.

Переход к настройкам Google Analytics

Вы также можете перейти к разделу Configuration ➜ API Access ➜ Google Analytics ➜ General ➜ Crawl New URLs Discovered In Google Analytics, если вы хотите, чтобы URL-адреса, обнаруженные в GA, были включены в ваш полный обход сайта. Если это не включено, вы сможете просматривать только новые URL-адреса, извлеченные из GA, в отчете Orphaned Pages.

Включение обхода новых URL, обнаруженных в GA

Перейдите в Configuration ➜ API Access ➜ Google Search Console – используя API, вы можете получить данные GSC для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы, вы можете искать URL-адреса, на которых получены клики и показы, которые не включены в ваш просмотр. Вы также можете перейти к разделу General ➜ Crawl New URLs Discovered In Google Search Console, если вы хотите, чтобы URL-адреса, обнаруженные в GSC, были включены в ваш полный обход сайта. Если этот параметр не включен, вы сможете просматривать только новые URL-адреса, извлеченные из GSC, в отчете Orphaned Pages.

Просканируйте весь сайт. После завершения сканирования перейдите в Crawl Analysis ➜ Start и дождитесь его завершения.

Просмотрите потерянные URL-адреса на каждой из вкладок или выполните Bulk Expor всех потерянных URL-адресов, перейдя в Reports ➜ Orphan Pages.

Получение списка страниц-сирот

Как найти медленные страницы

После того, как SEO Spider завершил сканирование, перейдите на вкладку Response Codes и отсортируйте по столбцу Response Time по возрастанию, чтобы найти страницы, которые могут страдать от низкой скорости загрузки.

Сортируем колонку по возрастанию. Время указано в секундах

Поиск вредоносного ПО и спама

Вам необходимо идентифицировать след вредоносного ПО или спама. Далее в меню Configuration нажмите Custom ➜ Search и введите искомый элемент, который вы ищете.

Настройка условий поиска

Вы можете ввести до 10 различных фильтров для сканирования.

В заключение

Если вы не SEO-специалист, то решение провести самостоятельный технический аудит сайта своей компании похвально. Такая программа, как Screaming Frog Spider SEO, может очень помочь вам в этом деле, но для полной оптимизации сайта этого все же недостаточно. Существует множество сервисов, которые помогают проанализировать проблемы, но данная программа имеет самый обширный арсенал возможностей. И помните главное правило — лучше делать долго, но качественно, чем быстро и почти никак.

Источник

Очень часто я сталкивалась с тем, что несмотря на наличие огромного количества статей и пособий по использованию Screaming Frog SEO Spider, все равно остается очень много вопросов по парсингу этим инструментом.

Поэтому я решила написать короткую инструкцию, рассказывающую как пользоваться данной программой. И, как и раньше, я не буду рассказывать голую теорию. Сразу поясню, это не полный и раскрытый обзор инструмента. В видео и этой статье будет описано только самое базовое и основное. Также в конце будет небольшой подарочек от меня.

Инструкция по использованию Скримин Фрог

Итак, чтобы начать проводить анализ по Screaming Frog, нам необходимо зайти в него и добавить туда сайт.

Для этого:

Открываем Screaming Frog SEO Spider;
Вставляем ссылку сайта и нажимаем «Start».

Инструмент условно делится на 3 поля. У каждого из них своя задача:

Первое поле показывает вид ошибки и их количество (например, что у нас на сайте присутствует 29 страниц с битыми ссылками);
Второе поле отражает, с какими именно ссылками связана выбранная в первом поле ошибка (то есть в первом поле указано, что есть 29 страниц с битыми ссылками. А в поле 2 перечислены эти 29 ссылок);
Поле три показывает всю необходимую информацию о ссылке из второго поля (например, тип ссылки, входящие, исходящие ссылки, мета-теги, тексты, статус-код и так далее).

После того как мы разбили на условных три поля наш экран, пора приступать к выявлению ошибок, на которые указывает SF (Screaming Frog). Я подробно рассмотрю все три поля на одном примере, который разобью на 3 шага, и дальше их надо будет применять каждый раз.

ШАГ 1: ОПРЕДЕЛЕНИЕ ОШИБКИ

Приведу пример на одном пункте. И аналогично его можно будет применять на другие.

Ищем в первом поле блок «External». В нем нас интересует строка «HTML». Данная строка показывает количество ресурсов (сторонних сайтов), на которые ссылается наш сайт и тем самым отдает свой вес. Исходящие ссылки необходимо удалять или закрывать (не бездумно. Есть ситуации, когда этого делать не стоит). В случае скрина, мы видим, что на сайте есть 9 исходящих ссылок.

ШАГ 2: ПОИСК МЕСТА ОШИБКИ

Итак, мы нашли, что у нас 9 исходящих ссылок. Теперь нам нужно определить что это за ссылки. Для этого нажимаем на саму строку «HTML» и начинаем смотреть во второе поле. По изображению видим, что у нас 9 ссылок:

Первая и с пятой по восьмую ссылки ведут на js-файлы;
Вторая и третья — это ссылки социальных сетей;
Четвертая ссылка — Google Tag Manager;
Девятая — ссылка на WordPress.

ШАГ 3: СБОР ИНФОРМАЦИИ

В поле 2 видим 9 ссылок, которые есть на нашем сайте. Чтобы подробнее понять, где именно они находятся, нажимаем в поле два на каждую из них по очереди. В поле 3 появляется информация о данной ссылке. Нажимаем вкладку «Inlinks». В данной вкладке можно увидеть список страниц, на которых находится данная ссылка. После обнаружения нужно перейти на эти страницы и закрыть ссылку nofollow или удалить ее.

Какие ошибки смотреть в Скриминг Фрог СЕО Спайдер?

Теперь вы знаете как находить ошибки и их расположение. Осталось узнать какие ошибки в принципе выявлять на сайте с помощью Screaming Frog:

Исходящие ссылки (External -> HTML). Это ссылки на сторонние ресурсы с нашего сайта. Их стоит закрывать, чтобы наш сайт не передавал вес;
Код ответа страницы (Response Codes -> Redirection (3xx) / Client Error (4xx) / Server Error (5xx)). Redirection показывает ссылки на вашем сайте на страницы, которые ведут на другие страницы. Client Error показывает страницы, которые отсутствуют, но на вашем сайте есть на них ссылки или не настроены редиректы. Server Error показывает страницы, которые выдают ошибки из-за загрузки сервера.
Ошибки с мета-тегом title (Page Title -> Missing / Duplicate / Below 30 Characters / Sample as H1 / Multiple). Missing — страницы, на которых отсутствует мета-тег Title. Duplicate — страницы, на которых мета-тег Title дублируется. Below 30 Characters — мета-теги, которые содержат меньше 30 символов. Sample as H1 — мета-теги, дублирующие h1. Multiple — несколько мета-тегов title на одной странице.
Ошибки с мета-тегом description (Meta Description -> Missing / Duplicate / Below 70 Characters / Multiple). Missing — страницы, на которых отсутствует мета-тег Description. Duplicate — страницы, на которых мета-тег Description дублируется. Below 70 Characters — мета-теги, которые содержат меньше 70 символов. Multiple — несколько мета-тегов description на одной странице.
Мета-тег keywords (Meta Keywords -> Duplicate / Multiple). Наличие данного мета-тега уже давно не несет никакой пользы для продвижения. Мало того, по ним конкуренты могут собрать ваше СЯ. Поэтому я просто советую его удалять. Для этого во всех полях, кроме Missing, должны стоять нули.
Заголовок H1 (H1 -> Missing / Duplicate / Multiple). Missing — страницы, на которых данный заголовок отсутствует. Duplicate — страницы, на которых заголовок H1 дублируется. Multiple — несколько заголовков H1 на одной странице.
Изображения (Images -> Over 100 KB / Missing Alt Text). Over 100 KB — изображения, вес которых превышает 100 КВ. Missing Alt Text — изображения, на которых отсутствует атрибут alt.
Канонические страницы (Canonicals -> Contains Canonical / Self Referencing / Canonicalised / Missing / Multiple). Contains Canonical — все страницы, содержащие атрибут canonical. Self Referencing — станицы, на которых canonical ведет на них же. Canonicalised — все страницы с canonical, кроме Self Referencing. Missing — страницы, на которых атрибут canonical отсутствует. Multiple — несколько атрибутов canonical на одной странице.

Конечно, это далеко не все, что можно и нужно смотреть при работе со Скримин Фрогом. Но это база, которая, надеюсь, разложит по полочкам основы использования программы. И, как и обещала, маленький подарочек — username и ключ от cкримин фрога на год.

Username: elena-lark

Key: E694554046-1653419700-7C352B3F6A

Источник

Screaming Frog SEO spider — незаменимый помощник SEO-оптимизатора при внутреннем техническом анализе веб-сайтов.
В программе есть множество функций, о которых мы расскажем в этой статье. Также в конце приведем конкретные
примеры, как можно применять разные опции в работе.

Прочитав инструкцию, вы научитесь использовать нужные инструменты, предоставляемые сервисом, для технического
аудита сайтов. В будущем это может пригодиться при выявлении технических ошибок и составлений ТЗ на доработку
сайта.

Для начала рассмотрим по порядку все вкладки интерфейса программы.

Содержание:

File
Mode
Configuration
- Spider
  - Crawl
  - Extraction
  - Limits
  - Rendering
  - Advanced
  - Preferences
- Content
- Robots.txt
- URL Rewriting
- CDNs
- Include/Exclude
- Speed
- User-Agent
- HTTP Header
- Custom
- User Interface
- API Access
- Authentication
- System
Bulk export
Reports
Sitemaps
Visualizations
Crawl Analysis
License
Help
FAQ

File

Раздел, предназначенный для работы с файлами — загрузкой проектов и конфигураций, планирования будущих проверок
и т.д.

Доступные опции:

Open — используется для загрузки и открытия файла с ранее проводившимся парсингом.
Open Recent — похожая функция, но открывает последний проведенный парсинг. То есть, Open можно использовать
для открытия любых файлов, а Open Recent — для последнего файла.
Save — сохранение парсинга.
Configuration — важный параметр, позволяющий загружать и/или сохранять конфигурации — специальные
предварительно заданные настройки с параметрами парсинга. Подробнее расскажем в разделе про Configuration.
Crawl Recent — используется для повторного парсинга последнего сайта, который ранее проверялся. Удобно, если
нужно быстро провести второй технический аудит.
Scheduling — применяется для планирования будущих парсингов и других задач программы.
Exit — очевидный выход.

Mode

Устанавливает режим, в котором будет проводиться парсинг. Можно выбрать 1 из 3 опций:

Spider — режим по-умолчанию. Парсинг будет проводиться по внутренним линкам. Для старта достаточно
ввести в адресную строку приложения нужный домен.
List — парсинг предварительно собранных URL. Сами веб-адреса можно загрузить из файла (опция From a
file), указать вручную (Enter Manually) или воспользоваться картой сайта (Download Sitemap).
SERP Mode — позволяет загрузить мета-данные с сайта и редактировать их, посмотреть, как они будут
отображаться в браузере. Сканирование при этом не проводится.

Configuration

Одна из самых обширных вкладок — в ней расположены основные настройки «паука» и опции по парсингу сайтов. Всего
в ней доступно 13 пунктов подменю. Рассмотрим каждый подробнее.

Spider

В этом подпункте расположены основные настройки парсингов сайта. Включает в себя 5 вкладок: Crawl, Limits,
Rendering, Advanced и Preferences.

Crawl

Позволяет выбрать, что именно и как вы хотите парсить. Основные опции вкладки разделены на 4 блока:

Resource Links — определяют, какие файлы и элементы будут парситься. Включают в себя 4 опции:

Check Images — парсит картинки.
Check CSS — парсит подключенные к сайту файлы CSS.
Check JavaScript — парсит JS-скрипты.
Check SWF — применяется, когда нужно включить в отчет анализ Flash-анимаций.

Page Links — определяют, какие ссылки будут парситься. В этом разделе доступны следующие опции:

Internal Hyperlinks — добавляет в отчет внутренние ссылки.
External Links — добавляет в отчет внешние ссылки.
Canonicals — при сканировании веб-страниц будут анализироваться канонические (canonical) параметры.
Pagination (Rel Next/Prev) — используется для анализа страниц с атрибутами rel = next и rel = prev.
Hreflang — извлекает атрибут hreflang.
AMP — извлекает с сайта и добавляет в отчет AMP-ссылки.
Meta Refresh — сканирует и сохраняет URL-адреса, содержащиеся в мета-обновлениях
(например, такие: <meta http-equiv=»refresh» content=»5; url=https://example.com/&quot; />.).
iframes — сканирует и сохраняет адреса, содержащиеся в теге <iframe> (например, такие: <iframe
src=»htttps://example.com»>.

Crawl Behaviour — определяет поведение краулера. Доступные опции:

Check Links Outside of Start Folder — активируйте эту опцию, если хотите получить анализ всех линков,
а не только тех, что расположены в стартовой папке.
Crawl Outside of Start Folder — стандартно программа будет сканировать только указанную пользователем
подпапку. Включение этой опции позволяет сканировать весь сайт. При этом парсинг все равно начнется с
поддомена.
Crawl All Subdomains — активируйте эту опцию, если хотите сканировать все поддомены веб-сайта.
Follow internal «nofollow» — позволяет сканировать ссылки с тегом nofollow.
Follow external «nofollow» — по принципу действия почти та же опция, что и предыдущая, но вместо внутренних
ссылок анализирует внешние.

XML Sitemaps — отвечает за сканирование карты сайта. Здесь доступна всего 1 опция и 2 подпункта для неё:

Crawl Linked XML Sitemap — сканирует карту сайта. Поисковый робот может либо взять ее из файла robots.txt
(опция Auto Discover SML Sitemaps via robots.txt), либо по ручному пути, указанному пользователем — тогда
вам нужно будет выбрать опцию «Crawl These Sitemaps» и указать нужные.

Также все опции имеют 2 опции — «Crawl» и «Store». Первая отвечает за сканирование. Если отключить ее в
каком-либо элементе, он не будет анализироваться пауком. Например, сняв флажок со сканирования ссылок, вы
позволите поисковому роботу обнаруживать их и хранить, но не переходить по ним и не получать коды ответов
сервера.

Поначалу может показаться, что опций слишком много, но главное в освоении этой программы — практика и
умеренность. Выбирайте те, которые могут пригодиться вам в работе, а с остальными познакомитесь по ходу
использования приложения.

Extraction

Вкладка отвечает за то, какие элементы будут извлекаться парсером и добавляться в отчет. Разделена на 5 секций:

Page Details

Отвечает за извлечение следующих элементов:

Page Title — метатег title.
Meta Description — метатег description.
Meta Keywords — метатег keywords.
H1 — заголовок 1 уровня.
H2 — заголовок 2 уровня.
Indexability — статус индексируемости.
Word Count — количество слов.
Text to Code Ratio — соотношение текста к коду.
Hash Value — хэш-значение.
Page Size — размер страницы.
Forms — формы.

URL details

Response Time — время в секундах для загрузки URL-адреса.
Last Modified — чтение из заголовка Last-Modified в HTTP-ответе сервера. Если сервер не предоставит ответ,
поле останется пустым.
HTTP Headers — полные заголовки запросов и ответов HTTP.
Cookies — файлы cookie, найденные во время сканирования. Будут храниться на нижней вкладке отчета «Cookies
files».

Directives

Meta Robots — сохраняет директиву мета-роботов.
X-Robots Tag — добавляет в отчет директиву X-Robots-Tag.

Structred Data

JSON-LD — используется для извлечения микроразметки JSON-LD.
Microdata — извлекает микроразметку сайта Microdata.
RDFa — извлекает RDF микроразметку.
Schema.org Validation —настраивает проверку микроразметки по механизму Schema Validation.
Google Rich Result Feature Validation — включает проверку по Google Validation.
Case-Sensitive — активирует проверку по Case-Sensitive методу.

HTML

Store HTML — позволяет хранить статический HTML каждого URL, просканированного парсером. Полезно, если нужно
изучить его до того, как будет подключен JavaScript.
Store Rendered HTML — похожая опция, но хранится уже отображенный HTML после обработки JS.

Limits

Применяется для установки лимитов парсинга. Содержит пункты:

Limit Crawl Total — задает общий лимит веб-страниц для сканирования. С помощью этой опции можно установить
точное количество страниц, которые будут выгружены в отчет.
Limit Crawl Depth — определяет, насколько глубоко может зайти поисковый робот во время сканирования.
Например, если указать число «0», краулер просканирует только указанный документ и остановится. Если указать
«1», паук проанализирует документ, перейдет по ссылкам из него и остановится на следующей странице. Указав
«2», робот продвинется на 3 страницы (первичный документ > переход на следующую страницу по ссылкам >
переход на последующую веб-страницу по ссылкам из предыдущей).
Limit Max Folder Depth — более специфический параметр, в котором можно установить глубину до конкретной
папки. Работает по принципу, схожему с предыдущим пунктом, только указывать нужно конкретные папки. Пример:
URL site.com/folder-1/folder-2/folder-3. Где цифры — глубина проверки.
Limit Number of Query Strings — задает глубину парсинга для страниц с параметрами. Может быть полезно, если
у вас на статической странице есть пара фильтров, которые могут создать большое количество динамических
веб-страниц. Если не задать этот лимит, парсер будет сканировать все страницы, что увеличит время проверки,
при этом полезной информации вы получите по-минимуму.
Max Redirects to Follow — используется, чтобы задать максимальное количество редиректов с 1 веб-адреса.
Max URL Length to Crawl — устанавливает максимальную длину URL в символах.
Max Links per URL to Crawl — определяет максимальное количество ссылок в сканируемых страницах. Например,
если на странице 5 ссылок, но параметр установлен на «4», то робот проанализирует 4 ссылки и добавит их в
отчет.
Max Page Size (KB) to Crawl — максимальный размер страницы для сканирования, указывается в килобайтах.

Rendering

Эта вкладка понадобится вам, если вы включили сканирование JavaScript в отчет и хотите настроить параметры
рендеринга. На выбор доступно 3 режима:

Text Only — анализ только текста страницы, без учета JS/AJAX.
Old AJAX Crawling Scheme — использование устаревшей схемы сканирования AJAX.
JavaScript — учитывает JS-скрипты при рендеринге.

Последний режим также имеет несколько дополнительных опций:

Enable Rendered Page Screen Shots — позволяет включить сохранение скриншотов анализируемых страниц в папку
на вашем компьютере.
AJAX Timeout (secs) — устанавливает лимиты таймаута.
Window Size — выбирает размер окна. На выбор их представлено много, от больших экранов (Large Desktop) до
iPhone старых и новых версий.
Sample — показывает пример окна, выбранный в пункте Window Size.
Rotate — позволяет повернуть демонстрацию окна из Sample.

Advanced

Позволяет настроить продвинутые опции парсинга. Доступные опции:

Cookie Storage — выбирает, где будут храниться куки-файлы во время сканирования.
Ignore Paignated URL for Duplicate Filters
Always Follow Redirects — разрешает поисковому роботу всегда следовать по редиректам вплоть до финальной
страницы с учетом всех ответов сервера.
Always Follow Canonicals — позволяет краулеру учитывать все атрибуты canonical. Может пригодиться, если вы
несколько раз переезжали и еще не навели порядок с этим атрибутом.
Respect noindex — запрещает сканировать страницы, обернутые в тег noindex.
Respect Canonical — исключает канонические страницы из отчета. Полезная опция, если нужно убрать дубли по
метаданным.
Respect Next/Prev — исключает страницы с rel=”next/prev” из отчета. Так же, как и предыдущий пункт,
позволяет убрать дубли по метаданным.
Respect HSTS Policy — указывает поисковому боту, что все запросы должны выполняться через протокол HTTPS.
Respect Self Referencing Meta Refresh — позволяет учитывать принудительную переадресацию на ту же страницу
по метатегу Refresh.
Extract Images from img srcset Attribute — извлекает и добавляет в отчет изображения из атрибута srscet,
который прописывается в теге .
Crawl Fragment Identifiers — позволяет сканировать URL-адреса с хэш-фрагментами и считать их за уникальные
URL.
Response Timeout — устанавливает время ожидания ответа страницы перед тем, как краулер перейдет к анализу
следующего URL. Для медленных сайтов рекомендуем устанавливать большее число.
5xx Response Retries — определяет, сколько раз парсер будет пытаться проанализировать страницы с ответом
сервера 5хх. Например, если установлен параметр «5», то поисковый робот будет посылать запросы веб-странице
5 раз, после чего остановится.

Preferences

Позволяет задать предпочтения для сканируемых мета-тегов и тегов (title, description, URL, H1-H2, alt и размеры
картинок). Если размеры будут не соответствовать заданным в этой вкладке, Screaming Frog об этом сообщит.

Доступные опции:

Page Title Width — ширина заголовка страницы. Можно указать в пикселях или символах.
Meta Description Width — аналогично предыдущему пункту, только вместо заголовка указывается метатег title.
Other — все остальные пункты, включая URL, заголовки 1 и 2 уровней, изображения и атрибуты alt к ним.

Не обязательная вкладка, в ней можно оставить параметры по умолчанию.

Content

Подпункт меню, отвечающий за поведение краулера при сканировании контента. Имеет 3 вкладки:

Area — отвечает за область контента, которая будет учитываться при сканировании. Используйте эту
функцию, если хотите сфокусировать анализ на какой-либо конкретной области страницы.
Duplications — позволяет найти точные дубликаты страниц или веб-страницы, контент на которых
совпадает в некоторых местах. Помогает в поиске дублей.
Spelling & Grammar — проверяет правописание и грамматику. Поддерживает 39 языков, включая
русский. По-умолчанию эта функция отключена.

Robots.txt

Позволяет определить, каким правилам должен следовать краулер при парсинге. Имеет 2 вкладки: Settings и Custom.

Settings — используется для настройки парсинга с учетом (или игнорированием) правил Robots.txt. На выбор
предоставляется 3 режима:

Respect robots.txt — парсер будет полностью следовать правилам, прописанным в файле для роботов, и
учитывать только те папки и файлы, которые были открыты.
Ignore robots.txt — позволяет игнорировать правила, прописанные в robots. В таком случае, в отчет
попадут все папки и файлы сайта.
Ignore robots.txt but report status — игнорирует правила, но выводит статус страницы (индексируемая
или закрытая от индексации).

Также можно указать, хотите ли вы видеть в итоговом отчете внутренние и внешние ссылки, закрытые от индексации.
Эти опции будут работать, только если вы выбрали 1-й режим парсинга (respect robots.txt).

Custom — позволяет вручную отредактировать robots.txt для текущего парсинга. Удобно, если нужно добавить
или исключить только конкретные папки, или добавить дополнительные правила для поддоменов сайта. Также с помощью
этого режима можно сформировать собственный файл robots.txt, проверить его и потом при необходимости загрузить
на веб-сайт.

Чтобы добавить собственный файл, нажмите кнопку «Add» в нижнем меню. Для проверки используйте кнопку «Test»,
расположенную справа внизу.

URL Rewriting

Используется для перезаписи сканируемых URL во время парсинга. Если вам надо изменить какие-либо URL во время
работы, этот раздел может пригодиться.

Имеет 4 вкладки:

Remove Parameters — позволяет указать параметры, которые будут удаляться из URL при анализе сайта.
Также можно исключить сразу все, если поставить галочку в чекбоксе «Remove all».
Regex Replace — позволяет изменить сканируемые URL с использованием регулярных выражений.
Применяется, например, для изменения ссылок с HTTP на HTTPS.
Options — здесь можно активировать перезапись прописных URL в строчные.
Test — позволяет сразу увидеть, как будет выглядеть URL при использовании опции Regex Replace.

CDNs

В этой вкладке можно включать дополнительные домены и папки в процесс парсинга. Они будут считаться за
внутренние ссылки. Также можно указать только конкретные папки для сканирования. Указывать нужные папки и файлы
необходимо во вкладке «Config»:

Последняя вкладка «Test» позволяет увидеть, как будут изменяться URL. Итог будет выводиться в виде параметра
Internal или External. Если, например, в результате показывает External, то ссылка будет считаться внешней:

Include/Exclude

Используется для включения или исключения конкретных папок, ссылок, файлов или страниц при парсинге.
Например, во вкладке Exclude будут указаны исключения парсинга для всех папок, кроме указанных.

К примеру, вы можете запретить парсинг конкретного домена. Проверить результат можно во вкладке Test — вместо
указанного URL там будет указано, что этот веб-адрес был исключен из парсинга. Также эта опция поддерживает
регулярные выражения.

Speed

Используется для установки лимитов на количество потоков и одновременно сканируемых адресов. Меняйте параметры
аккуратно — если установить слишком низкие лимиты, поискового бота могут забанить, даже если скорость парсинга
существенно повысится.

User-Agent

В этой вкладке можно задать тип поискового бота, который будет использоваться для сканирования. Может
пригодиться, если, например, в настройках сайта запрещена индексация Yandex-ботам.

Также можно указать версии ботов для смартфонов, чтобы найти технические ошибки в мобильных версиях.

HTTP Header

Позволяет указать реакции краулера на HTTP-заголовки, если таковые будут найдены на сайте. Можно указать, будет
ли учитываться контент и cookie-файлы, как именно они будут обрабатываться и т.д.

Custom

Включает в себя 2 вкладки: Search и Extraction. В них можно указать с помощью собственного кода дополнительные
правила для парсинга. Например, если у вас на какой-то странице используется тег <i> вместо
тега <em>, вы можете указать это в Custom Search.

Во вкладке Extraction можно указывать пользовательские настройки для извлечения любой информации из HTML-кода.

User Interface

Довольно простой раздел, с помощью которого можно сбросить сортировку столбцов и вкладок программы. Также в нем
можно изменить тему со светлой на темную. На этом функции заканчиваются.

API Access

Позволяет подключить сторонние сервисы типа Google Analytics или Majestic. Вам потребуется войти в свою учетную
запись в приложении. Для каждого варианта будут свои отдельные настройки по выгрузки данных, которые будут
различаться от приложения к приложению.

Authentication

Если сайт будет запрашивать аутентификацию, вы можете указать настройки для них тут. Во вкладке есть 2 подпункта
— Standards Based и Forms Based. Стандартно используется первый вариант — если придет запрос, он отобразится в
соответствующем окне в программном обеспечении.

Если вам нужен встроенный браузер для указания данных, используйте опцию Forms Based. С ее помощью можно,
например, пройти капчу, указав логин и пароль.

System

Позволяет задать настройки самой программе. Насчитывает 5 пунктов:

Memory — указание лимитов оперативной памяти для парсинга. Стандартно стоит 2ГБ.
Storage — выбирает режим сохранения информации. Ее можно хранить либо в оперативной памяти, либо в
указанной пользователем папки.
Proxy — при использовании позволяет указать данные подключенного прокси-сервера для парсинга.
Embedded Browser — включает или выключает встроенный браузер приложения.
Language — выбор языка. Русский не поддерживается.

Bulk Export

Здесь можно настроить массовый экспорт данных из отчетов. В целом, этот раздел можно использовать, чтобы
вытягивать нужную информацию и затем составить ТЗ для доработок сайта.

Доступные подпункты меню экспорта:

Queued URLs — все ссылки, которые были обнаружены и находятся в очереди на сканирование.
Пункт Links
- All Inlinks — все входящие ссылки на URL-адреса, зафиксированные поисковым роботом во время
  парсинга.
- All Outlinks — все исходящие ссылки.
- All Anchor Text — экспорт анкоров со всех ссылок
- External Links — все внешние ссылки
Пункт Web
- Screenshots — все сделанные скриншоты.
- All Page Source — статистический или визуализированный (rendered) HTML код просканированных страниц.
- All HTTP Headers
- All Cookies
Path Type — позволяет экспортировать ссылки определенного типа со страницами, к которым они привязаны. Можно
указать абсолютные, относительные, корневые и путевые (path-relative) ссылки.
Security — страницы сайта с потенциально опасным контентом. Например, таким образом можно организовать
экспорт ссылок, ведущие на страницы сайта с небезопасными линками.
Response Codes — все страницы в зависимости от нужного кода ответа. Например, так можно выгрузить URL,
ведущие на страницы с ошибкой 404.
Content — весь контент. Может пригодиться, если нужно организовать экспорт дубликатов и составления
последующего ТЗ на их удаление.
All Images — выгрузка картинок без атрибута alt, слишком тяжелых изображений.
Canonicals — все страницы-первоисточники.
Directives — все директивы.
AMP — все линки на AMP-контент.
Structured Data — все ссылки из фильтра структурированных данных.
Sitemaps — все страницы в карте сайта, неиндексируемые страницы в карте сайта и т.п.
Custom Search — выгрузка всех элементов из пользовательского поиска.
Custom Extraction — все элементы, заранее настроенные по фильтру пользовательского извлечения.

Reports

Вкладка, отвечающая за отчеты. Доступные подпункты меню:

Crawl Overview — содержит всю сводку сканирования, включая обнаруженные URL-адреса, заблокированные файлом
robots.txt, количество просканированных ссылок, типы контента, коды ответов и т.д.
Redirects — описывает найденные перенаправления и URL-адреса, через которые удалось найти редиректы. Также
здесь отображаются канонические цепочки перенаправлений и канонические символы, указывается количество
переходов и цикличность (если она присутствует).
Canonicals — в этом разделе показываются ошибки и проблемы, найденные с каноническими цепочками или
элементами. В ответе канонических цепочек отображаются все URL, имеющие больше 2 канонических линков.
Pagination — отображает ошибки и проблемы, связанные с атрибутами rel=next/prev, которые применяются для
обозначения содержимого, разбитого на страницы.
Hreflang — сообщает о возможных проблемах с атрибутами hreflang, например: некорректных ответах серверов,
страниц без гиперссылок, разных кодах языка на 1 веб-странице и т.п.
Insecure Content — содержит HTTPS URL-адреса, на которых были обнаружены небезопасные элементы. Например,
внутренние ссылки без SSL-сертификата.
SERP summary — позволяет быстро выгрузить URL-адреса, title и description страниц. Их длина будет
указываться в символах, а ширина в пикселях.
Orphan Pages — отображает список потерянных страниц, собранных при помощи Google Analytics API и Search
Console, а также XML Sitemap, которые не были сопоставлены с URL, обнаруженными во время сканирования.
Structured Data — показывает отчет об обнаруженных ошибках валидации микроразметки веб-страниц.
PageSpeed — содержит отчет о скорости загрузки каждой страницы. Работает, только если была подключена
интеграция PageSpeed Insights.
HTTP Headers — содержит отчет по заголовкам HTTP, обнаруженных во время сканирования. Показывает каждый
уникальный заголовок и количество URL, ответивших этим заголовком.
Cookies — содержит отчет о файлах cookie, обнаруженных во время сканирования, с указанием имени, домена,
срока действия, безопасности и значения HttpOnly.

Sitemaps

Через этот пункт меню можно создавать свои карты сайта в формате XML. На выбор предлагается 2 пункта:

XML Sitemap — генерация XML-карты сайта
Images Sitemap — генерация XML-карты сайта для определенного изображения.

После выбора нужного варианта откроется всплывающее окно, в котором можно будет задать нужные параметры —
например, создание карты для закрытых от индексации страниц, URL, разбитых на пагинацию и т.п.

Страница имеет 6 вкладок.

Pages — отвечает за тип страниц, которые будут включены в карту сайта.

Noindex Pages — закрытые от индексации страницы.
Canonicalised — каноникализированные страницы, говоря простым языком с атрибутом rel=canonical.
Paginated URLs — страницы пагинации.
PDFs — PDF-файлы.
No response — не отвечающие страницы.
Blocked by robots.txt — страницы, закрытые от индексации файлом robots.txt.
2xx — страницы с кодом ответа сервера 2хх (работающие страницы).
3xx — страницы с редиректами.
4xx — битые ссылки.
5xx — страницы с проблемами сервера при загрузке.

Last Modified — необязательная опция, позволяет выставить дату последнего обновления карты. Можно
установить использование тега lastmod, либо применять ответ сервера при создании карты. Также возможно ручное
указание даты.

Priority — используется для выставления приоритета ссылки в зависимости от глубины страницы.

Change Frequency — используется для выставления вероятной частоты обновления веб-страниц с помощью тега
changefreq. Рассчитать тег можно либо по последнему измененному заголовку, либо по глубине страницы.

Images — позволяет добавить картинки в карту сайта, включая закрытые от индексации картинки или
изображения с конкретным числом входящих ссылок.

Hreflang — отвечает за использование или не использование атрибута hreflang в карте сайта.

Visualisations

С помощью этого пункта меню можно получить визуализированную структуру сайта, которая будет отображаться в
программе.

Пользователю на выбор предоставляется несколько вариантов визуализации, которые отображаются во встроенном
браузере — это повышает эффективность работы с ними. Например, их можно масштабировать прямо в Screaming Frog.

Доступные режимы:

Crawl Tree Graph — визуализирует структуру сайта на основании сканирования в виде дерева каталогов.
Directory Tree Graph — показывает все каталоги, найденные после сканирования. В отличие от
первого режима, показывает даже папки, закрытые от индексации
Force Directed Crawl-Diagram — похожий вариант на 2 других, только оформленный в виде кружков.
Force Directed Tree-Diagram — похожий, но более масштабный способ визуализации.
Inlink Anchor Text Word Cloud — визуализирует анкоры внутренних ссылок. Каждая страница отображается
по отдельности. Помогает в анализе анкоров.
Body Text Word Cloud — визуализирует плотность слов на веб-странице. Помогает понять, какие слова
встречаются чаще других и нет ли переспама ими на странице.

Crawl Analysis

Помогает проанализировать и включить в отчет данные, которые не попадают в основную статистику в ходе
сканирования. Это могут быть параметры Link Score, Orphan URLs (потерянные URL) и , и т.п.

Дополнительное сканирование запускается после основного парсинга. Во вкладке Configure можно настроить,
какие данные будут добавляться в отчет.

Возможные опции:

Link Score — присваивает оценки всем внутренним линкам веб-сайта.
Pagination — показывает неправильно настроенные пагинации и страницы, которые были найдены только благодаря
атрибуту rel next/prev.
Hreflang — отображает URL с атрибутом hreflang без гиперссылок.
AMP — показывает страницы без тегов HTML amp.
Sitemaps — вносит в отчет неидексируемые страницы, найденные в карте сайта, дубли URL в нескольких sitemap,
потерянные страницы.
Analytics — потерянные страницы, найденные в аналитике.
Search Console — потерянные страницы, найденные в консоли веб-мастера.

Licence

Раздел, в котором можно купить лицензию и ввести лицензионный ключ.

Help

Пункт меню, в котором собрана информация, полезная пользователю.

Доступные подпункты:

User Guide — супер-подробное руководство по работе с программой.
FAQ — часто задаваемые вопросы.
Support — техническая поддержка.
Feedback — предложения по работе или новым функциям.
Check for Updates — ручная проверка на наличие обновлений.
Auto Check for Updates — автоматическая проверка на наличие обновлений.
Debug — сообщить о каком-либо баге разработчику.
About — краткая информация о программе.

FAQ

Как включить русский язык?

К сожалению, официально это сделать никак нельзя — программа не поддерживает русскоязычную локализацию.
Но вы можете поискать русификаторы в интернете. Мы не рекомендуем их использовать. Помните, что вы устанавливаете на свой страх и риск.

Как посмотреть структуру сайта?

Воспользуйтесь вкладкой «Visualisations» — в ней наглядно можно будет посмотреть примерную
структуру сайта, основываясь на отчете. Программа предлагает несколько видов графиков, например,
древовидный и в виде «кружков».

Как включить rendering?

Воспользуйтесь следующим путем: configuration > spider > rendering > выбрать нужный пункт
(например, Rendered Page Screenshots).

Как игнорировать Robots.txt?

Во вкладке configuration перейдите в подпункт меню robots.txt и выберите режим «Ignore robots.txt».

Как ограничить скорость сканирования?

Если вы хотите ограничить скорость сканирования, рекомендуем воспользоваться пунктом Limits во вкладке
Configuration > Spider. Также можно выделить меньше RAM для программы — тогда сканирование будет идти
медленнее.

Источник