Sitemap.xml sau sitemap - un ghid pentru începători

Ce este o hartă XML

XML-Sitemap - un fișier pentru roboții motoarelor de căutare cu o listă a tuturor paginilor site-ului în format XML. Este necesar pentru ca motoarele de căutare să acceseze cu crawlere și să indexeze conținutul site-ului mai eficient.

💡 Nu confundați XML-sitemap și html-sitemap pentru utilizatorii site-ului.

Care sunt tipurile de Sitemap XML

Două tipuri de hărți de site:

  • comun - nu conține mai mult de 50.000 de pagini și nu cântărește mai mult de 50 MB;
  • index - un fișier cu o hartă combină mai multe hărți obișnuite ale site-ului. Proiectat pentru mari sau
  • site-uri multilingve. Aceste fișiere au o dimensiune maximă de 50 MB și o capacitate maximă de 50.000 de adrese URL. 

 

Cum să găsiți un Sitemap XML

Mai multe moduri de a vizualiza harta site-ului:

1. În fișierul robots.txt. Scrieți în bara de adrese: https://site.com/robots.txt.Directiva XML-Sitemap va fi probabil scrisă în fișierul propriu-zis în următorul format: sitemap: https://site.com/sitemap.xml

2. Dacă nu ați găsit un link către fișier în robots.txt, scrieți următoarea solicitare în bara de adrese: https://site.com/sitemap.xml

💡 Dacă formatul URL pentru fișierul Robots.txt este strict necesar - /robots.txt, atunci adresa URL pentru fișierul Sitemap.xml poate fi orice.

/sitemap.xml este doar un nume de hartă XML mai popular, dar poate fi diferit, de exemplu: /sitemap-categories.xml, /sitemap-en.xml și așa mai departe.

1. De asemenea, puteți face o cerere într-un motor de căutare folosind operatori de căutare. Trebuie să utilizați doi operatori:

  • site: - caută adresa exactă;
  • filetype: - caută tipul de fișier necesar;

Pentru a căuta un fișier de tip XML, trebuie să formați o interogare de căutare:

site:site.com tip de fișier:xml

Rezultat:

Sitemap.xml sau Sitemap - Ghid pentru începători 1

Din ce elemente constă un Sitemap XML?

După cum știm deja, un sitemap poate fi obișnuit și indexat, mai jos vom lua în considerare în ce elemente constă fiecare dintre aceste tipuri.

Elemente ale unui sitemap obișnuit

Elemente obligatorii:

  • prima linie specifică versiunea XML și codificarea necesară pentru fișierele sitemap - UTF-8:

Sitemap.xml sau Sitemap - Ghid pentru începători 2

 

  • - o etichetă care indică standardul protocolului actual. Este părintele etichetelor de mai jos;
  • - o etichetă pentru fiecare intrare URL. Este părintele etichetelor de mai jos și copilul lui ;
  • este o etichetă care indică adresa URL exactă a paginii. Este un copil al .

Elemente optionale:

  • - o etichetă care indică ultima dată la care pagina a fost actualizată. Este un copil al . Spre deosebire de etichetele anterioare, aceasta este opțională. Rețineți că Google ia în considerare valoarea acestei etichete numai dacă se potrivește cu ora reală la care pagina a fost actualizată ultima dată. Când scrieți o dată în această etichetă, utilizați formatul W3C Datetime. Acest format oferă o dată completă cu ore, minute, secunde și fus orar (AAAA-LL-DDThh:mm:ss+TZD). De exemplu: 2022-05-16T19:20:30+03:00;
  • - o etichetă care indică frecvența aproximativă a reîmprospătărilor paginii. Valori valide: întotdeauna, orar, zilnic, săptămânal, lunar, anual, niciodată;
  • - o etichetă care indică prioritatea paginii față de alte pagini. Valoarea este specificată în intervalul de la 0,0 la 1,0.

 

💡 Conform celor mai recente date de la Centrul de căutare Google, motorul de căutare nu ia în considerare valorile etichetelor și .

Exemplu de hartă de site XML:

Sitemap.xml sau Sitemap - Ghid pentru începători 3

Din ce elemente constă un Sitemap XML?

Mai multe moduri de a crea un sitemap:

  • folosind un sistem de management al conținutului (CMS). Sisteme precum WordPress sau Wix pot genera o hartă a site-ului prietenoasă cu motoarele de căutare. Trebuie să găsiți informații despre modul în care este generată harta site-ului în CMS-ul pe care îl utilizați - procesul este automat sau trebuie să efectuați unele operațiuni pentru aceasta;
  • manual. Dacă site-ul este mic, vă puteți crea o hartă de site folosind un editor de text și urmând standardele de sintaxă;
  • folosind generatoare terțe. Există multe servicii care pot genera sitemap-uri. Printre ei:

Desigur, există multe astfel de generatoare, puteți găsi unul convenabil pentru dvs.

  1. Accesați cu crawlere câte adrese URL aveți nevoie.
  2. Deschideți instrumentul Sitemap Generator.
Sitemap.xml sau Sitemap - Ghid pentru începători 4

Informații generale și Ghid Google pentru Sitemaps XML

  1. Google va accesa cu crawlere adresele URL pe care le furnizați. Prin urmare, specificați adrese URL corecte și precise.
  2. Toate adresele URL pe care le introduceți în harta site-ului trebuie să provină din domeniul corespunzător. Nu specificați alt domeniu/subdomeniu.
  3. O hartă a site-ului poate fi plasată oriunde pe site, dar va afecta numai directoarele de sub directorul părinte. Prin urmare, ar trebui să plasați XML-Sitemap în directorul rădăcină al site-ului.
  4. Un link către un fișier XML obișnuit sau către un fișier index poate fi specificat în fișierul Robots.txt, după cum urmează: sitemap: https://site.com/sitemap.xml.
  5. Sitemap-urile trebuie să fie codificate UTF-8, ceea ce înseamnă că trebuie utilizate numai caractere ASCII.
  6. Dacă adresele paginilor conțin alte caractere, acestea trebuie să fie excluse. Acest lucru se întâmplă de obicei automat, cu excepția cazului în care creați manual adresele paginilor. Dacă caracterele din adresa URL nu sunt codificate corect și nu sunt corectate, atunci când adăugați harta site-ului, este posibil să primiți o alertă Google că nu a fost găsită nicio pagină din harta dvs. XML.
  7. Google nu garantează accesarea cu crawlere a fiecărei adrese URL dintr-un sitemap. Acest fișier ajută sistemul doar să determine ce pagini considerați importante.
  8. Google ignoră ordinea adreselor URL din harta site-ului.
  9. Fișierul XML-Sitemap nu trebuie să aibă o dimensiune mai mare de 50.000 de pagini și să nu depășească 50 MB în greutate. Dacă greutatea este mai mare, creați un sitemap index care va conține mai multe fișiere sitemap.
  10. Includeți în XML-sitemap numai pagini canonice care sunt deschise pentru indexare și accesare cu crawlere, oferind un cod de răspuns de 200, excluzând paginile de paginare.
  11. Toate adresele URL din Sitemap XML trebuie să fie deschise în robots.txt pentru accesare cu crawlere, indexare și nu trebuie să conțină metaeticheta „noindex”.
    Harta site-ului ar trebui să fie actualizată automat în mod regulat la adăugarea / ștergerea, închiderea / deschiderea paginilor specificate pentru indexare.
Sitemap.xml sau Sitemap - Ghid pentru începători 4

Informații generale și cele mai bune practici Bing pentru sitemapurile XML

Motorul de căutare Bing nu descrie diferențele cardinale ale cerințelor pentru XML-Sitemap, ci doar parafrazează unele dintre standardele enumerate în ghidul Google. Prin urmare, putem concluziona că, urmând standardele Google, creăm un sitemap XML universal și pentru Bing.

Cum să construiți o hartă XML pentru site-uri multilingve

Există trei moduri principale de a indica motorului de căutare că versiunile multilingve ale paginilor nu sunt duplicate:

  • atributul rel="alternate" hreflang="x" din codul paginii este cel mai comun mod;
  • folosind XML Sitemap;
  • folosind antetele http.

Trebuie remarcat faptul că, în cazurile 99%, este suficientă o modalitate de a indica faptul că un site este multilingv - folosind atributul rel=”alternate” hreflang=”x”. 

💡  Dacă faceți o hartă de site pentru un site mare, puteți specifica în plus multilingvismul folosind XML-Sitemap.

Pentru a specifica versiuni în limbi alternative ale unei pagini într-un Sitemap XML, trebuie să:

  • specificați un spațiu de nume într-un bloc :

xmlns:xhtml="https://www.w3.org/1999/xhtml"

  • în cadrul etichetei , sub etichetă , care conține adresa URL a paginii, specificați eticheta pentru fiecare versiune lingvistică a paginii și în cadrul - atributele rel="alternate" hreflang="x", care vor indica o anumită versiune a limbii. 

De exemplu, o pagină are trei versiuni lingvistice: rusă, ucraineană și engleză. Adresele URL pentru versiunile lingvistice ale acestei pagini arată astfel:

  • https://site.com/ru/
  • https://site.com/ua/
  • https://site.com/en/

În XML-Sitemap, versiunile multilingve ale paginii vor arăta astfel:

Sitemap.xml sau Sitemap - Ghid pentru începători 6

Sitemap XML pentru imagini

În unele cazuri, motorul de căutare nu poate găsi imagini pe site. De exemplu, când o imagine este încărcată folosind JavaScript. Există două moduri de a direcționa motoarele de căutare către imagini:

  1. Specificați link-uri către ele într-un XML-sitemap obișnuit.
  2. Creați un sitemap separat pentru imagini.

În ambele cazuri, trebuie să specificați spațiul de nume XML care definește etichetele pentru imagini:

xmlns:image="http://www.google.com/schemas/sitemap-image/1.1"

Tot în cadrul etichetei etichete necesare pentru imagini:

  • - conține toate informațiile despre imagine. Pentru o pagină pot fi specificate până la 1000 de imagini.
  • - locația fișierului. În unele cazuri, adresa URL a imaginii poate fi diferită de domeniul principal al site-ului. Pentru a accesa corect conținutul în astfel de cazuri, ambele domenii trebuie să fie verificate în Google Search Console.

Tot în sitemap-ul xml pentru imagini, puteți găsi etichete opționale care, conform Centrului de căutare Google, nu sunt luate în considerare de motorul de căutare și anume:

  • - legenda la imagine;
  • — locația de fotografiere (țară, oraș și așa mai departe);
  • — titlul imaginii;
  • — Adresa URL a licenței de imagine.

Pe lângă aceste etichete, harta site-ului pentru imagini trebuie să îndeplinească următoarele cerințe:

  • codificarea folosită este UTF-8;
  • Sitemap-ul XML pentru imagini nu trebuie să conțină mai mult de 50.000 de adrese URL și să nu fie mai mare de 50 mb. Dacă harta site-ului depășește aceste limite, trebuie să creați un fișier index al sitemapului.
  • acest tip de hartă de site ar trebui să conțină numai pagini canonice care sunt deschise pentru indexare și accesare cu crawlere, dând un cod de răspuns de 200;
  • fiecare URL nu are mai mult de 1000 de imagini;
  • XML-Sitemap pentru imagini ar trebui să conțină numai imagini de dimensiune completă fără miniaturi;
  • Un link către o hartă XML pentru imagini sau un fișier index trebuie plasat în robots.txt;
  • Sitemap-ul XML pentru imagini ar trebui actualizat automat în mod regulat.

Un exemplu de hartă XML pentru imagini care are o pagină și două imagini:

Sitemap.xml sau Sitemap - Ghid pentru începători 7

Sitemap XML pentru video

Un sitemap video este o modalitate de a informa motorul de căutare dacă există videoclipuri pe pagină, mai ales dacă sunt noi sau greu de găsit. Acesta este un aspect important al optimizării motoarelor de căutare, mai ales dacă doriți ca videoclipurile dvs. să apară în rezultatele căutării.

Informații generale și recomandări de la Google cu privire la sitemap-urile XML pentru videoclipuri:

  1. Codificarea folosită este UTF-8.
  2. Fiecare fișier video sitemap poate conține până la 50.000 de elemente video și nu poate depăși 50 MB în dimensiune. Dacă depășiți aceste limite, puteți, ca și în cazul sitemap-urilor principale, să creați un fișier index care va conține informații despre sitemap-ul XML obișnuit pentru videoclip.
  3. Puteți crea un sitemap XML separat pentru videoclip sau puteți încorpora informațiile video într-un sitemap obișnuit.
  4. Este permisă specificarea mai multor videoclipuri dintr-o singură pagină.
  5. Nu introduceți informații despre videoclipuri care nu au legătură cu conținutul principal al paginii. În caz contrar, este posibil ca videoclipul să nu intre în indexul motorului de căutare.
  6. Googlebot ignoră intrarea Sitemap dacă nu se găsește niciun videoclip la adresa URL specificată.
  7. Crearea unui Sitemap XML pentru un videoclip nu garantează indexarea fișierelor.
  8. Paginile specificate trebuie să fie canonice, deschise pentru indexare și accesare cu crawlere, să returneze un cod de răspuns de 200.
  9. Googlebot trebuie să aibă acces atât la fișierul video, cât și la player. Acestea nu trebuie plasate pe pagini care necesită autorizare, interzise în robots.txt sau blocate în alte moduri.
  10. Plasați un link către harta site-ului XML sau fișierul index în robots.txt.
  11. Sitemap-ul XML pentru videoclip ar trebui actualizat automat în mod regulat.

Să luăm în considerare în ce elemente constă XML-Sitemap pentru video.

Mai întâi, trebuie să specificați spațiul de nume în care vor fi definite etichetele:

xmlns:video="http://www.google.com/schemas/sitemap-video/1.1"

De asemenea, atunci când creați un sitemap de acest tip, trebuie să specificați următoarele etichete obligatorii:

  • - o etichetă care specifică standardul protocolului curent. Este părintele etichetelor de mai jos;
  • - o etichetă pentru fiecare intrare URL. Este părintele etichetelor de mai jos și copilul lui ;
  • este o etichetă care indică adresa URL exactă a paginii. Este un copil al ;

De asemenea, puteți specifica etichete recomandate:

Etichete opționale:

  • ;

Cum ar putea arăta un sitemap video:

Sitemap.xml sau Sitemap - Ghid pentru începători 8

Harta site-ului pentru știri

Pentru site-urile de știri, puteți crea o hartă separată cu generare dinamică și actualizări zilnice. Aceste fișiere vor funcționa numai pentru resursele incluse în listele Știri Google. Dacă site-ul nu este în listă, puteți trimite o solicitare de adăugare.

Fișierul sitemap trebuie să conțină numai adresele URL ale articolelor publicate în ultimele două zile. Articolele mai vechi de două zile pot fi eliminate din fișier și rămân în indexul Știri Google timp de 30 de zile.

Acest sitemap nu poate conține mai mult de 1000 de adrese URL. Această limitare se datorează faptului că hărțile de site XML pentru Știri Google sunt accesate cu crawlere mai frecvent decât hărțile de site obișnuite și, astfel, motorul de căutare evită încărcarea excesivă. Dacă mai mult conținut apare pe site în două zile, puteți crea un fișier index al sitemapului pentru mai multe hărți.

Google recomandă actualizarea Sitemap-ului XML de Știri Google pe măsură ce este postat conținut nou. O astfel de hartă a site-ului trebuie plasată fie în directorul rădăcină, fie în secțiunea de știri a site-ului.

Elementele principale ale harții site-ului pentru știri:

  • spațiu de nume pentru sitemapurile de știri:

xmlns:news="http://www.google.com/schemas/sitemap-news/0.9"

Etichete necesare:

  • — eticheta părinte pentru toate etichetele de știri;
  • publicația care a publicat articolul. Conține două elemente copil necesare:
  • - denumirea publicației;
  • - limba în format ISO 639-1;
  • — data exactă în format W3C;
  • - titlul articolului, care trebuie indicat în aceeași formă ca și pe site.

Exemplu de hartă de site pentru Știri Google:

Sitemap.xml sau Sitemap - Ghid pentru începători 9

Cum să încorporați un sitemap

Mai multe moduri de a indica motorul de căutare către XML-sitemap:

  • folosind Google Search Console;
Sitemap.xml sau Sitemap - Ghid pentru începători 10
  • executați o solicitare ping - trimiteți o solicitare GET la adresa specificată, specificând adresa URL completă a sitemap-ului dvs. XML:
    https://www.google.com/ping?sitemap=FULL_URL_OF_SITEMAP

Unde:

FULL_URL_OF_SITEMAP - URL-ul complet al sitemap-ului XML.

De exemplu:

https://www.google.com/ping?sitemap=https://site.com/sitemap1.xml

  • plasați adresa sitemap-ului în robots.txt - va fi detectată la următoarea accesare cu crawlere a site-ului. Exemplu:
    Harta site-ului: https://site.com/sitemap1.xml

XML-Sitemap este analizat doar prima dată când este întâlnit, nu de fiecare dată când site-ul este accesat cu crawlere. Dacă ați făcut modificări fișierului, vă rugăm să notificați motorul de căutare cu o solicitare ping.

Erori în Sitemap XML

Urmând instrucțiunile de mai sus, puteți evita greșelile comune atunci când creați un sitemap. Dacă, totuși, a apărut o eroare la crearea acestui fișier, o puteți vedea în Google Search Console în elementul „Fișiere Sitemap”:

Sitemap.xml sau Sitemap - Ghid pentru începători 11
De asemenea, puteți verifica erorile cu Netpeak Spider. Pentru a face acest lucru, selectați „Tools” - „XML Sitemap Validator”:
Sitemap.xml sau Sitemap - Ghid pentru începători 4

Introduceți un link către harta site-ului relevant și faceți clic pe butonul „Start”:

Sitemap.xml sau Sitemap - Ghid pentru începători 13

După scanare, validatorul va indica erori în harta site-ului (1). După ce faceți clic pe butonul „To Table” (2), adresele URL ale paginilor vor fi mutate din validator în câmpul de lucru al programului, unde puteți continua lucrul:

Sitemap.xml sau Sitemap - Ghid pentru începători 14

truc

Unii experți susțin că sitemapurile mari nu sunt întotdeauna accesate complet cu crawlere, iar linkurile interne nu sunt întotdeauna indexate rapid. Există unele cazuri în care setarea limitei de capacitate a sitemap-ului la 10.000 de pagini sau 1.000 de pagini a dat rezultate mai bune.

Putem concluziona că, dacă aveți anumite probleme pe site cu scanarea și indexarea adreselor URL sau, de exemplu, dacă trebuie să introduceți rapid pagini noi de carduri de produse în index, puteți încerca să împărțiți harta site-ului în părți mai mici și să adăugați le la index sitemap .

Listele mai mici de adrese URL ar trebui să fie mai ușor de procesat de către un motor de căutare. În același timp, hărțile de site nu ar trebui să fie împărțite prea mici, în zeci de mii de fișiere, deoarece Google Search Console afișează doar informații despre 1000 de adrese URL de hărți de site în rapoartele sale, adică este posibil să nu obțineți date despre URL-urile XML-Sitemaps de la GSC .

Este necesar să se calculeze volumul fiecărui sitemap, în funcție de dimensiunea site-ului. Pe baza unor cazuri, puteți testa fragmentarea fișierelor sitemap pe secțiuni, numărul de adrese URL și noutatea conținutului.

concluzii

Roboții de căutare au nevoie de o hartă XML a site-ului pentru a descoperi și indexa paginile necesare ale unui site. Conține adresele URL ale paginilor de pe site, precum și date suplimentare legate de acestea, cum ar fi când au fost actualizate ultima dată. Este foarte important să respectați cerințele pentru fișierele de acest tip, astfel încât motorul de căutare să scaneze și să indexeze din timp paginile necesare ale site-ului.

Carduri separate pot fi create pentru imagini, videoclipuri. XML poate fi, de asemenea, marcat pentru Știri Google.

Crearea manuală a unei hărți merită doar dacă site-ul dvs. este mic, altfel poate dura foarte mult timp.

Utilizați instrumente CMS, generatoare și alte programe software pentru a crea hărți de site și verificați periodic codul XML pentru corectitudine.

Harta site-ului ar trebui să fie actualizată automat în mod regulat, astfel încât botul motorului de căutare, cât mai curând posibil după actualizare, să introducă versiunile reale ale paginilor în index sau să nu acceseze cu crawlere paginile pentru care instrucțiunile și regulile de acces au fost modificate.

O sursă: Netpeak.net