Перейти до вмісту

Про індексацію, сканування та ранжування

Загалом, коли люди приходять до SEO, не важливо чи як клієнт, чи як фахівець, в першу чергу ставиться питання “як покращити ранжування сайту”. Клієнт або новачок почнуть робити акцент саме на етапі ранжування, відкидаючи всі попередні етапи обробки сайту пошуковими системами. Тоді як досвідченні фахівці обов’язково перевірять та доведуть до ладу всі етапи взаємодії сайту з ПС.

Тож розглянемо, як взагалі пошуковики знаходять та визначають якість контенту.

Як працює пошук (Google)

Для коректної роботи, генерації релевантної видачі по запитах, пошуковим системам необхідно постійно сканувати, аналізувати та оцінювати інтернет-простір, ПС не може дозволити собі надавати неякісну або не актуальну інформацію, бо це може нашкодити користувачу або просто його розчарувати, а це втрата трафіку, як мінімум.

Тобто, маємо величезний динамічний масив даних, що має бути опрацьований певним чином.

Загалом, можна виділити наступні етапи, що необхідні для формування видачі:

  • Сканування (crawling)
  • Індексація
  • Ранжування
  • Формування індивідуальної видачі (коли у користувача є певна історія пошуку)

Кожен з наведених вище етапів залежить від купи факторів, тож, нумо оглянемо кожен окремо детальніше.

Сканування сайту

Сканування — це перший необхідний (є певні виключення, про це пізніше) етап для потрапляння до видачі. Як тільки ви створили новий інтернет-ресурс, вам потрібно, щоб на нього завітав бот пошукових систем.

Зазвичай, первинне сканування сайту може займати від 1-2 днів до 3-4 місяців, в залежності від обсягу даних, технічної складової, якості контенту тощо.

Звісно, існують спеціальні інструменти, що дозволяють сповістити пошукові системи про появу вашого сайту. Найкращим рішенням для сповіщення пошукових систем буде реєстрація ресурсу в кабінеті вебмайстра (Google search console, Bing Webmaster Tools тощо).

Варто зауважити. що ПС мають певні обмеження, тому на кожен ресурс виділяється конкретний обсяг пам’яті, що може бути використаний для сканування та індексування за один раз. Це називають краулінговим бюджетом.

Краулінговий бюджет — обсяг даних, що може бути просканований роботами пошукових систем за один захід на сайт

Для того, щоб краще розуміти як ваш сканується, варто перейти до інструменту вебмайстра пошукової системи та відкрити статистику сканування. Так ви дізнаєтеся поточну ситуацію: який бюджет вам виділяється, як часто бот заходить на сайт та з якими проблемами він стикається. Всі приклади будуть надаватися для GSC від Google.

Статистика сканування
Статистика сканування

Тут можна подивитися загальну статистику сканування, як часто боти заходять на ваш сайт, які обсяги пошукова система виділяє для сканування вашого сайту, відстежити роботу та швидкодію сервера.

Графік статистика сканування
Графік статистика сканування

Також, на цій сторінці є дашборд з основними даними по вашому сайту.

Дані сканування
Дані сканування

Всі ці дані дуже цінні для розуміння як ваш сайт аналізується пошуковими ботами:

  • в першу чергу звертаємо увагу на коди відповіді. Наявність 4ХХ та 3ХХ кодів негативно впливає на сканування та індексування — бот витрачає зайві ресурси на зайві сторінки. На такі сторінки можна повісити 410 код відповіді сервера, попередньо забравши всі лінки на такі сторінки, або закрити доступ за допомогою robots.txt.
  • тип файлу допоможе зрозуміти, чи є зайві елементи, що забирають занадто багато ресурсів пошукових систем. Загалом, боти мають просканувати увесь HTML зміст сайту тому звертайте увагу на обсяги сканування скриптів, стилів тощо. Допоможе зрозуміти які елементи сайту варто оптимізувати, щоб бот міг краще проаналізувати сайт.
  • за метою — цей звіт допоможе зрозуміти як добре бот знаходить новий контент та як часто перевіряє вже відомий на наявність оновлень. Тут можна виявити різні моменти для оптимізації, можливо бот рідко перевіряє певні сторінки, що часто оновлюються (тут може бути проблеми з lastModify), абощо.
  • за типом робота — звіт дозволяє зрозуміти яку саме версію вашого сайту бот перевіряє частіше. Хоча навіть без цього звіту ви маєте звертати особливу увагу на вашу мобільну версію, оскільки, починаючи з 2020 року, Google перейшов на метод сканування та індексації Mobile First, тобто пріоритет надається мобільним пристроям.

Якщо вам цікаво, які ще боти сканують ваш сайт та з яким успіхом, то це можна подивитися в серверних логах сайту.

Як вплинути на скан сайту ботами

Ми вже знаємо як аналізувати та виявляти проблеми зі скануванням, тепер подивимося як ми можемо впливати на сканування.

Robots.txt

Найперший та найголовніший інструмент впливу це файл robots.txt в якому записані рекомендації зі сканування сайту для краулерів.

Основні вимоги до роботс:

  • файл має знаходитися в кореневій теці сайту
  • файл має містити хоча б одну команду для ботів
  • в роботс має бути посилання на основну xml мапу сайту

Базовий синтаксис містить наступні команди:

  • User-agent — вказує для якого юзер агента (бота) будуть релевантні наступні правила (якщо вказати символ *, то правила застосовуватимуться для всіх)
  • Disallow — вказана в цій директиві тека або файл мають ігноруватися
  • Allow — вказана тека або файл мають бути проскановані
  • Sitemap — вказує на розташування xml карти сайту

Загалом, за замовчуванням всі теки сайту дозволені для сканування, тому Allow варто окремо прописувати для тих файлів або тек, що знаходяться у заблокованому для сканування розділі.

Також варто знати кілька символів та правил вказування елементів:

  • * — вказує, що на міці цього знаку може бути будь-яке значення (можна використати, якщо хочете закрити або відкрити конкретний формат файлів, наприклад /*.jpg)
  • / — вказує на валідність правила для всього сайту
  • пробіл — якщо залишити параметр порожнім, то це буде означати протилежну дію для всього сайту (“disallow: ” те саме що й “allow: /”)

Рекомендації та синтаксис для Robots.txt від Google.

На етапі розробки сайту, скласти файл та протестувати можна за допомогою стороннього Інструменту перевірки robots.txt. Якщо сайт вже опублікований, то в GSC є інструмент від Google.

Налаштування рендерингу сайту

Рендеринг сайту напряму впливає як і що знаходять боти на сторінках вашого ресурсу.

Як я вже зазначав вище, пошукові системи виділяють певний обсяг пам’яті та час, що може бути витрачений на сканування одного сайту загалом та для кожної сторінки окремо.

З цього можна зробити висновок — чим швидше ваш сайт віддає боту інформацію, тим більше контенту на сторінці та тим більше сторінок на сайті краулер проаналізує за один раз.

Швидкодія також впливає й на користувацький досвід та є одним з важливих факторів ранжування, тож це надважливий параметр.

Інструменти аналізу швидкодії сайту:

  • Lighthouse в Google Chrome — це стандартний інструмент в панелі розробника (F12 для Windows)
Аналіз швидкості завантаження в Chrome
Аналіз швидкості завантаження в Chrome
  • PageSpeed Insights — інструмент гугла для вимірювання швидкодії сайтів

Перевірити як пошукачі бачать ваш сайт можна кількома способами:

  • GSC Перевірка URL-адреси — дозволяє перевірити, який контент отримав бот гугла
Перевірка проскановної сторінки
Перевірка проскановної сторінки

Якщо сторінка не була ще проіндексована, то можна протестувати її наживо та отримати необхідні дані:

Перевірка не проіндексованої сторінки
Перевірка не проіндексованої сторінки
  • Пошуковий оператор “cache:” — дозволяє отримати кеш сторінки зі серверів Google. Просто вводимо оператор в пошукову сторінку та вписуємо абсолютну адресу сторінки. Рекомендую дивитися саме текстову версію кешу.

Важливо: цей спосіб працює для вже проіндексованих сторінок.

Також знайте чим займатися не варто.

Клоакінг — метод BlackHat SEO, коли боту пошукової системи та користувачу віддається різний контент. Наразі Google справно виявляє такі схеми, тож краще віддавати ботам та користувачам однакові версії сторінок.

Загальні рекомендації

Для покращення краулу та розуміння сайту пошуковими системами, дотримуйтесь наступних рекомендацій:

  • Створіть коректний Sitemap.xml
  • Побудуйте якісну структуру сайту
  • Використовуйте внутрішню перелінковку. За можливістю уникайте циклічних посилань, економте краулінговий бюджет
  • Оптимізуйте завантаження сайту так, щоб першочергово повертати юзер-агенту найважливішу частину контенту. Визначте пріоритети завантаження, щоб повторювані та неважливі для користувачів елементи довантажувалися в останню чергу
  • Використовуйте кешування сайту на стороні сервера для сторінок, що рідко змінюються
  • Заблокуйте в robots.txt доступ до неважливих файлів, стилів та скриптів
  • Налаштуйте попередній рендеринг або серверний рендеринг сайту, в залежності від наповнення динамічним контентом
  • Рекомендую наповнювати та віддавати в першу чергу DOM дерево сайту, бо саме HTML контент пошукові системи розуміють найкраще
  • Дотримуйтесь рекомендацій CoreWebVitals — група параметрів оцінки швидкодії та роботи сайтів в загалом. Особливу увагу приділіть Largest Contentful Paint (LCP), Cumulative Layout Shift (CLS), First Contentful Paint (FCP) та Interaction to Next Paint (INP)

Індексація

Після аналізу сторінки пошукачі починають процес індексації — оцінка та збереження (або ні, в залежності від якості) сторінки.

Саме на цьому етапі визначається якість та унікальність контенту. Тепер бот збирає текстовий контент, визначає інтент, аналізує посилання та МЕТА. Це потрібно для того, щоб відсіяти низькоякісний неунікальний контент та не витрачати на нього ресурси для зберігання та ранжування.

Індексація — це процес аналізу контенту, визначення його інтенту, якості та додавання до бази даних.

Наявність сторінки в індексі можна перевірити в GSC:

Перевірка індексації в GSC
Перевірка індексації в GSC

Якщо ви хочете перевірити сайт без доступу до консолі то це можна зробити за допомогою вже описаного оператора cache: або site: але майте на увазі, що вони можуть давати неточний результат.

Як вплинути на індексацію

Задля економії власних ресурсів, пошукові системи надали вебмайстрам можливість вказувати сторінки, які не треба індексувати.

Закрити від індексації варто такі сторінки що не несуть корисного навантаження для нового користувача та які ви б не хотіли бачити у пошуковій видачі.

Як заборонити індексацію сторінок:

  • HTML тег Noindex, забороняє ботам індексувати увесь контент на сторінці. Найпопулярніший метод, прописується в коді конкретної сторінки в блоці <head>

<meta name=”robots” content=”noindex”>

  • X-Robots tag Noindex, теж вказує на заборону індексації, але вказується у HTTP заголовку при обробці запиту до сервера. Цей метод використовується переважно тоді, коли нема змоги змінити HTML код. Прописується для PDF та інших файлів, що не містять в собі META тегів
HTTP/1.1 200 OK

Date: Tue, 25 May 2010 21:42:43 GMT

X-Robots-Tag: noindex

Покращити ж індексацію важче, але можливо. В принципі до рекомендацій з минулого пункту просто треба додати якісну on-page оптимізацію.

Примусова індексація

Якщо ви щойно додали нову сторінку або оновили вже опубліковану, то ви можете відправити сигнал Google про зміни. ПС додасть сторінку до пріоритетного списку, зазвичай 1-2 дні йде на переіндексацію.

Зробити це можна двома способами:

  • Через GSC

В інструменті перевірки сторінки просто клацніть на “Надіслати запит на індексування”, це доступно як для просканованих, так і для невідомих гуглу сторінок. Тут є обмеження на 10 сторінок на добу для одного акаунту.

Запит на індексацію в GSC
Запит на індексацію в GSC
  • Google indexing API

Гугл дає змогу звернутися до своїх сервісів за допомогою API. Існують різні способи як це зробити. Особисто я використовую метод з JS, але то вже кому як. Непогана інструкція налаштування роботи з API описана y Brander.

Важливі уточнення

Варто додати деякі моменти, щоб ви не наплодили собі помилок.

  • Ноуіндекс сторінки не мають містити в собі тег canonical
  • Закриті для сканування сторінки все одно можуть бути проіндексовані якщо містять достатньо зовнішніх посилань. При цьому сам контент сторінки не буде проаналізованим
  • Не закривайте сторінки одночасно і в noindex і в роботс. Річ у тому, що сторінка, закрита від ботів, не сканується, отже і правило NoIndex враховано не буде. Однак, ви можете спочатку закрити сторінку в Noindex, дочекатися поки вона випаде з індексу, а вже потім забрати тег та закрити в роботс, якщо вам так треба.

Ранжування

Саме процес ранжування зазвичай всіх цікавить найбільше, бо тут ПС визначають, яку позицію буде займати сторінка (чи буде взагалі).

Ранжування — це процес формування видачі зі сторінок вебсайтів, що вважаються релевантними інтенту запиту користувача.

Тут проходить оцінка та порівняння певних параметрів, відомих також як фактори ранжування.

Які саме фактори використовує Google вам ніхто не скаже, бо це комерційна таємниця. Відомо що існує понад 200 факторів, як заявив Google у 2006 році. Звісно, з того часу багато чого змінилося і, я думаю, факторів менше не стало, ба навіть навпаки.

Які ж це фактори, звісно, нам не розкрили. Фахівці дістають всю можливу інформацію з публічних патентів Google або за допомогою експериментів (емпіричний спосіб).

Розглянемо кілька точно відомих факторів, повніший же список факторів можна знайти в статті Ніла Пателя.

Фактори рівня домену

  • Наявність ключа у назві — один за найвідоміших факторів підтверджений статистикою та видачею в цілому. Доменам, що містять в собі основний ключ, легше отримати за ним ТОП
  • Локальний домен — якщо ви хочете отримати позиції в конкретній локальній видачі, то наявність локального домену першого рівня (.ua .us .pl) буде давати вам певний буст, але водночас буде обмежувати вас у глобальній видачі
  • Вік домену — Мюллер не раз розповідав, що вік домену не є фактором ранжування, але практика та статистика показує, що гугл більше довіряє історичним доменам аніж новим
  • Репутація власника домену — якщо один із сайтів вебмайстра були песимізовані або забанені то й до інших його ресурсів ПС буде уважна в негативному значенні, звісно.

Фактори рівня сторінки

  • Наявність ключів у МЕТА тегах (title, description та H1) — цими тегами ми даємо короткий опис сторінка, тому, звісно, наявність там потрібних ключів впливає на ранжування
  • Насиченість контенту ключами — звісно, чим частіше ключ повторюється у тексті, тим легше боту проасоціювати його з вашою сторінкою (головне не переспамити, див. внутрішня оптимізація)
  • Обсяг контенту — звісно, є певні перестороги, що гугл вважає достатнім обсягом для розкриття певної теми, це можна прослідкувати в ТОП 10 де сторінки будуть мати схожі параметри (не завжди, але часто)
  • Навігація по тексту — наявність змісту (table of content) допомагає боту зрозуміти текст
  • Глибина розкриття теми — чим повніше ви розкрили тему, тим вище ви будете у пошуку
  • Швидкодія — чим швидше ваш сайт буде завантажуватися для ботів та користувачів, окрім швидкості варто слідкувати за CWV (Core Web Vitals). Загалом, технічна оптимізація грає важливу роль у питанні ранжування
  • Якість та тематичність вихідних посилань — важливо на кого та як часто посилається ваш сайт. Посилання на токсичні ресурси може створити негативні асоціації
  • Мультимедіа — тематичні та якісні медіа елементи гарно сприймаються пошуковими системами та є позитивним сигналом
  • Ключ в URL — принцип той самий що й з доменом
  • Посилання та цитування трастових ресурсів, як підтвердження власної думки — це позитивний сигнал що вказує на ґрунтовність вашого контенту
  • Чистий HTML код — чим якісніше та чистіше написаний ваш сайт, тим якіснішим він вважатиметься.
  • Структурування тексту списками, таблицями та підзаголовками — вважається що такий текст набагато легше читати сприймати відвідувачам сайту, тож це позитивний сигнал для ПС.

Фактори рівня сайту

  • Контакти, політика конфіденційності та умови користування — наявність повної інформації про сайт, компанію, власника і т.д. є доволі важливим елементом, бо впливає на траст (довіру) сайту
  • Оновлюваність контенту — регулярна публікація або оновлення контенту є важливим для пошукачів, щоб розуміти наскільки сайт живий та чи може бути корисним у довгостроковій перспективі
  • Фактори E-E-A-T — всі ці фактори суттєво впливають на довіру до сайту
  • Оптимізація під мобільні пристрої — от вже кілька років Google використовує принцип сканування та ранжування Mobile-first, тож приділяйте мобільній версії належну увагу

Зовнішні фактори

  • Кількість доменів, лінок, різних IP, що посилаються — один з найвпливовіших чинників, щоб там хто не говорив
  • Анкорний текст — Google зазначає, що змістовний анкорний текст, що передає інтент сторінки, має позитивний ефект
  • Авторитет домену та сторінки — логічно, що посилання з якісних трастових ресурсів будуть мати більший ефект. Так само токсичні домени заподіють достатньо шкоди, щоб ваш сайт песимізували
  • Диверсифікація джерел посилань — різноманітний посилальний профіль буде ознакою “натуральності”, спам однотипними посиланнями карається санкціями
  • “Sponsored” або “UGC” теги — посилання з тегами “rel=sponsored” або “rel=UGC” обробляються інакше, ніж звичайні посилання “follow” або “rel=nofollow”
  • Контекстні посилання — посилання, вбудовані у вміст сторінки, вважаються більш потужними, ніж посилання на порожній сторінці або в іншому місці сторінки
  • Місце посилання в контенті — оскільки боти сканують та оцінюють сторінки зверху вниз, то посилання розташовані вище передають більшу вагу сторінки та є ціннішими
  • Релевантність домену — якщо ви отримали посилання з домену з темою релевантної вашому сайту то це буде позитивним знаком для ПС, якщо ж тема донору ніяк не стосується вашого сайту, то це може бути ознака використання заборонених ПС методів просування.

Звісно, я описав далеко не всі фактори, я скомпонував та узагальнив частину для простоти розуміння, якщо ви хочете отримати повний список усіх відомих факторів, то майте на увазі, частина з них це лише припущення з власного досвіду певних фахівців.

Висновки

Загалом, ми розібрали принципи роботи пошукових систем, на що вони дивляться та як оцінюють.

Тож тепер ви маєте уявлення про первинні процеси, що передують ранжуванню, яке, зазвичай, цікавить всіх в першу чергу.

Полегшуйте сканування, сприяйте індексації корисного якісного контенту тоді вам буде легше працювати з покращенням ранжування вашого сайту.

Опубліковано вАналітика