Шта су интерни дупликати страница и како се носити са њима
Аутор - Цонстантин Нацул
УРЛ адресе су различите, али садржај странице је исти. Мислиш да је у реду? Само пар идентичних страница на сајту. Али исти садржај може потпасти под филтере претраживача. Да бисте спречили да се то догоди, морате знати како да се решите унутрашњих дупликата страница.
Концепт дуплираних страница и њихове врсте
Дупло - то су засебне странице сајта, чији је садржај потпуно или делимично исти. У суштини, ово су копије целе странице или одређеног њеног дела, којима се може приступити преко јединствених УРЛ адреса.
Шта доводи до појаве дупликата на сајту:
1. Аутоматско генерисање дупликата страница од стране машине система за управљање садржајем веб сајта (ЦМС) веб ресурса. На пример:
https://site.net/press-centre/cat/view/identifier/novosti/
https://site.net/press-centre/novosti/
2. Грешке вебмастера. На пример, када је исти производ представљен у неколико категорија и доступан је на различитим УРЛ адресама:
https://site.net/category-1/product-1/
https://site.net/category-2/product-1/
3. Промена структуре сајта, када се постојећим страницама додељују нове адресе, али се њихови дупликати са старим адресама чувају. На пример:
https://site.net/catalog/product
https://site.net/catalog/category/product
Постоје две врсте преузимања: потпуно и делимично.
Шта су потпуни преузимања
То су странице са идентичним садржајем, доступне на јединственим, неједнаким адресама. Примери комплетних снимака:
1. УРЛ-ови за странице са и без косе црте (“/”, “//”, “///”):
хттпс://сите.нет/цаталог///продуцт; хттпс://сите.нет/цаталог//////продуцт.
2. ХТТП и ХТТПС странице: хттпс://сите.нет; хттп//сите.нет.
3. Адресе са "ввв" и без "ввв": хттп//ввв.сите.нет; хттп//сите.нет.
4. УРЛ-ови страница са индек.пхп, индек.хтмл, индек.хтм, дефаулт.асп, дефаулт.аспк, хоме:
https://site.net/index.html;
https://site.net/index.php;
https://site.net/home.
5. УРЛ адресе страница великим и малим словима:
https://site.net/example/;
https://site.net/EXAMPLE/;
https://site.net/Example/.
6. Промене хијерархијске структуре УРЛ-а. На пример, ако је производ доступан на неколико различитих УРЛ адреса:
https://site.net/catalog/dir/tovar;
https://site.net/catalog/tovar;
https://site.net/tovar;
https://site.net/dir/tovar.
7. Додатни параметри и ознаке у УРЛ-у.
- УРЛ са ГЕТ параметрима: https://site.net/index.php?example=10&product=25. Страница је потпуно иста као следећа: https://site.net/index.php?example=25&cat=10.
- Доступност утм ознака и параметара гцлид. Утм ознаке помажу у пружању информација аналитичком систему за анализу и праћење различитих параметара саобраћаја. УРЛ адресе одредишне странице којима се додају утм ознаке изгледају овако: https://www.site.net/?utm_source=adsite&utm_campaign=adcampaign&utm_term=adkeyword
- параметара гцлид (Гоогле идентификатор клика). Означавање циљних УРЛ адреса које се аутоматски додаје за праћење података о компанији, каналу и кључним речима у Гоогле аналитици. На пример, ако кликну на ваш оглас за сајт https://site.net, онда ће прелазна адреса посетиоца изгледати овако: https://site.net/?gclid=123xyz.
- Лабел ицлид. Помаже у праћењу ефикасности рекламних кампања у Иандек Метрица. Ознака вам омогућава да пратите радње посетиоца који је дошао на сајт преко огласа. Овако изгледа прелазна адреса: https://site.net/?yclid=321.
- опенстат таг. Он је универзалан и користи се и за анализу ефикасности рекламних кампања, анализу саобраћаја на сајту и понашања корисника на сајту. Веза са ознаком "опенстат": https://site.net/?_openstat=231645789.
- Дупликати који су креирани путем референтне везе. Реферални линк је посебна веза са вашим идентификатором, по којој сајтови препознају од кога је дошао нови посетилац. На пример: https://site.net/register/?refid=398992; https://site.net/index.php?cf=reg-newr&ref=Uncertainty.
8. Прва страница пагинације за каталог производа онлине продавнице или огласне табле, блог. Често одговара страници категорије или општој страници одељка за све странице: хттпс://сите.нет/цаталог; хттпс://сите.нет/цаталог/паге1.
9. Нетачна подешавања грешке 404 доводе до бројних дупликата. На пример: хттпс://сите.нет/роцоцро-23489-роцороц; хттпс://сите.нет/8888-???.
Подебљани текст може садржати неке симболе и/или бројеве. Странице овог типа треба да обезбеде 404 код одговора сервера (не 200) или да преусмере на тренутну страницу.
Шта су делимичне снимке?
Делимично дуплиране странице имају исти садржај, али постоје мале разлике у елементима.
Врсте делимичних снимака:
1. Дупликати на картицама производа и страницама категорија (каталога). Овде настају дупликати због описа производа који су представљени на општој страници производа у каталогу. И исти описи су представљени на страницама картица производа. На пример, у каталогу на страници категорије испод сваког производа налази се опис овог производа:
И исти текст на страници производа:
Да бисте избегли дупликате, немојте приказивати пуне информације о производима на страници категорије (каталога). Или користите опис који се не понавља.
2. Дупликати на страницама за филтрирање, сортирање, претрагу и пагинацију, где постоји сличан садржај и само се мења редослед пласмана. Међутим, текст описа и наслови се не мењају.
3. Дупликати на страницама за штампање или преузимање, чији подаци у потпуности одговарају главним страницама. На пример:
https://site.net/novosti/novost1
https://site.net/novosti/novost1/print
Делимичне дупликате је теже открити. Али њихове последице се манифестују систематски и негативно утичу на рангирање сајта
До чега воде дуплиране странице на веб локацији?
Дупликати се могу појавити без обзира на старост и број страница на сајту. Они неће спречити посетиоца да добије потребне информације. Сасвим је другачија ситуација са роботима претраживача. Пошто су УРЛ адресе различите, претраживачи перципирају ове странице као различите.
Последица велике количине дуплираног садржаја је:
- Проблеми са индексирањем. Када се генеришу дупликати страница, укупна величина сајта се повећава. Ботови, индексирајући „додатне“ странице, неефикасно троше буџет за пузање власника веб ресурса.
- „Неопходне“ странице можда уопште неће бити укључене у индекс. Дозволите ми да вас подсетим да је буџет за пописивање број страница које бот може да попише у једној посети сајту.
- Промене релевантне странице у резултатима. Алгоритам претраживача може одлучити да је дупликат прикладнији за захтев. Стога ће у резултатима претраге приказати страницу која није она која је планирана за промоцију. Још један резултат: због конкуренције између дуплираних страница, ниједна од њих се неће појавити у резултатима претраге.
- Губитак везе са страницама које се промовишу. Посетиоци ће повезивати дупликате, а не оригиналне странице. Резултат је губитак природне масе везе.
Каталог алата за проналажење дупликата страница
Дакле, већ смо сазнали шта су дупликати, какви су и чему воде. Сада пређимо на то како их открити. Ево неколико ефикасних начина:
Проналажење дупликата помоћу посебних програма
Нетпеак Спидер. Користећи скенирање, можете да откријете странице са дуплираним садржајем: комплетне дупликате страница, дупликате страница на основу блокираног садржаја <body>, понављајући ознаке „Титле” и мета „Десцриптион” ознаке.
Коришћење оператора претраге
Да бисте пронашли дупликате, можете анализирати странице које су већ индексиране помоћу оператора претраге „сите:“. Да бисте то урадили, унесите упит „сите:екамплесите.нет“ у траку за претрагу, на пример Гоогле. Приказаће странице сајта у општем индексу. Овако ћемо видети број страница у резултатима ако се веома разликује од броја страница које је пронашао паук или страница у КСМЛ мапи.
Док прегледате резултате, наћи ћете дупликате страница, као и нежељене странице које треба уклонити из индекса.
Такође можете користити претрагу да анализирате резултате претраге за одређени део текста са страница које, по вашем мишљењу, могу имати дупликате. Да бисте то урадили, ставите део текста под наводнике, ставите размак иза њега, оператор „сите:“ и унесите га у траку за претрагу. Морате навести свој сајт да бисте пронашли странице које садрже овај текст. На пример:
„Фрагмент текста са странице сајта који може имати дупликате“ сите:екамплесите.нет
Ако постоји само једна страница у резултатима претраге, онда страница нема дупликата. Уколико се у резултатима претраге налази више страница, потребно их је анализирати и утврдити разлоге за дуплирање текста. Можда су ово дупликати које треба елиминисати.
Слично, користећи оператор „интитле:“, анализирамо садржај „Титле“ на страницама у резултатима претраге. Дупликат „Наслов“ је знак дупликата страница. Да бисте проверили, користите оператор претраге „сите:“. У овом случају, унесите упит обрасца:
сите:екамплесите.нет интитле:пун или делимичан текст ознаке Титле.
Користећи операторе „сите“ и „инурл“, можете идентификовати дупликате страница које су се појавиле на страницама за сортирање (сортирање) или на страницама за филтрирање и претрагу (филтер, претрага).
На пример, да бисте тражили сортирање страница у траци за претрагу потребно је да унесете: сите:екамплесите.нет инурл:сорт.
Да бисте пронашли странице за филтрирање и претрагу: сите:екамплесите.нет инурл:филтер, претрага.
Запамтите, оператори претраге приказују само дупликате који су већ индексирани. Због тога се не можете у потпуности ослонити на ову методу.
Како се отарасити дупликата
Већ смо погледали шта су дупликати, врсте, последице дупликата и како их пронаћи. Сада пређимо на најзанимљивији део: како се побринути да престану да штете оптимизацији. Користимо методе за уклањање дупликата страница:
301 преусмеравање
Сматра се главним методом за уклањање потпуних дупликата. 301 преусмеравање аутоматски преусмерава са једне странице веб локације на другу. На основу конфигурисаног преусмеравања, ботови виде да страница више није доступна на овој УРЛ адреси и да је премештена на другу адресу.
301 преусмеравање вам омогућава да пребаците сок везе са дупликата странице на главну страницу.
Овај метод је релевантан за елиминисање дупликата који се појављују због:
- УРЛ у различитим случајевима;
- УРЛ хијерархија;
- одређивање главног огледала сајта;
- проблеми са коришћењем косе црте у УРЛ адресама.
На пример, 301 преусмеравања се користе за преусмеравање са страница:
- https://site.net/catalog///product;
- https://site.net/catalog//////product;
- хттпс://сите.нет/продуцт на страницу хттпс://сите.нет/цаталог/продуцт.
Роботс.ткт датотека
Користећи овај метод, препоручујемо да претражујете ботове које странице или датотеке не би требало да се пописују.
Да бисте то урадили, потребно је да користите директиву „Дисаллов“, која забрањује ботовима за претрагу да приступају непотребним страницама.
Кориснички агент: *
Дисаллов: /паге
Имајте на уму да ако је страница наведена у роботс.ткт са директивом Дисаллов, ова страница се и даље може појавити у резултатима. Зашто? Претходно је индексиран или има интерне или екстерне везе. Упутства за роботс.ткт су саветодавне природе за ботове за претрагу. Не могу гарантовати да ће дупликати бити уклоњени.
Мета таг И
Мета таг каже роботу да не индексира документ и да не прати везе. За разлику од роботс.ткт, ова мета ознака је директна команда и роботи за претрагу је неће игнорисати.
Мета таг каже роботу да не индексира документ, већ да прати везе које се налазе у њему.
Али, према речима портпарола Гугла Џона Милера, пре или касније мета ознаку „ноиндек, фоллов“ претраживач перципира као „ноиндек, нофоллов“.
То јест, ако бот посети први пут и види директиву „ноиндек, фоллов“, онда не индексира страницу, али вероватноћа праћења интерних веза и даље остаје. Али ако се бот врати након неког времена и поново види „ноиндек, фоллов“, онда је страница потпуно уклоњена из индекса, бот престаје да је посећује и престаје да узима у обзир везе постављене на овој страници. То значи да дугорочно не постоји разлика између мета тагова „ноиндек, фоллов“ и „ноиндек, нофоллов“.
Да бисте користили метод, морате га поставити на дуплиране странице у блоку једна од мета ознака:
или слично: ; .
Атрибут рел="канонски"
Користите метод када се страница не може избрисати и мора бити остављена отворена за преглед.
Ознака за елиминисање дупликата на страницама за филтрирање и сортирање, страницама са гет параметрима и утм ознакама. Користи се за штампање када се користи исти информативни садржај у различитим језичким верзијама и на различитим доменима. Атрибут рел="цаноницал" за различите домене не подржавају сви претраживачи. За Гоогле ће то бити јасно, Иандек ће то игнорисати.
Одређивањем канонске везе, указујемо на адресу странице која је пожељна за индексирање. На пример, сајт има категорију „Лаптопови“. Садржи филтере који показују различите опције избора. Наиме: бренд, боја, резолуција екрана, материјал кућишта итд. Ако ове странице филтера нису промовисане, онда за њих наводимо страницу опште категорије као канонску.
Како поставити канонску страницу? У ХТМЛ коду тренутне странице постављамо атрибут рел="цаноницал" између ознака ... .
На пример, за странице:
- https://site.net/index.php?example=10&product=25;
- https://site.net/example?filtr1=%5b%25D0%,filtr2=%5b%25D0%259F%;
- https://site.net/example/print.
Страница ће бити канонска https://site.net/example.
У ХТМЛ коду ће изгледати овако: .
закључци
1. Дупликати су засебне странице сајта чији је садржај потпуно или делимично исти.
2. Разлози за појаву дупликата на сајту: аутоматско генерисање, грешке вебмастера, промене у структури сајта.
3. До чега доводе дупликати на сајту: индексирање се погоршава; промене релевантне странице у резултатима претраге; губитак природне масе линкова промовисаним страницама.
4. Методе за проналажење дупликата: коришћењем парсер програма (Нетпеак Спидер); сајт оператора претраге.
5. Алати за уклањање дупликата: одговарајуће команде у датотеци роботс.ткт; таг мета наме=”роботс” цонтент=”ноиндек, нофоллов”; таг рел=”канонски”; 301 преусмеравање.
Уклонили сте дуплирани садржај? Сада морате поново да проверите сајт. На тај начин ћете видети ефикасност предузетих радњи и проценити ефикасност изабране методе. Препоручујемо вам да редовно анализирате свој сајт на дупликате. То је једини начин да се грешке благовремено идентификују и отклоне.
Извор: Нетпеак