Kako blokirati indeksiranje stranice u robots.txt: upute i preporuke

Sadržaj:

Kako blokirati indeksiranje stranice u robots.txt: upute i preporuke
Kako blokirati indeksiranje stranice u robots.txt: upute i preporuke
Anonim

Posao SEO-optimizatora je vrlo velik. Početnicima se savjetuje da zapišu algoritam optimizacije kako ne bi propustili nijedan korak. Inače, promocija se teško može nazvati uspješnom, jer će stranica stalno imati kvarove i pogreške koje će se morati ispravljati dugo vremena.

Jedan od koraka optimizacije je rad s datotekom robots.txt. Svaki resurs bi trebao imati ovaj dokument, jer bez njega će biti teže nositi se s optimizacijom. Obavlja mnoge funkcije koje ćete morati razumjeti.

Robot Assistant

Datoteka robots.txt je običan tekstualni dokument koji se može vidjeti u standardnom Notepadu sustava. Prilikom izrade morate postaviti kodiranje na UTF-8 kako bi se moglo ispravno čitati. Datoteka radi s http, https i FTP protokolima.

Ovaj dokument je pomoćnik robota za pretraživanje. U slučaju da ne znate, svaki sustav koristi "paukove" koji brzo pretražuju World Wide Web kako bi vratili relevantne stranice za upite.korisnika. Ovi roboti moraju imati pristup podacima resursa, robots.txt radi za to.

Kako bi pauci pronašli svoj put, morate poslati robots.txt dokument u korijenski direktorij. Da biste provjerili ima li web mjesto ovu datoteku, unesite "https://site.com.ua/robots.txt" u adresnu traku preglednika. Umjesto "site.com.ua" trebate unijeti resurs koji vam je potreban.

Rad s robots.txt
Rad s robots.txt

funkcije dokumenta

Datoteka robots.txt pruža alatima za indeksiranje nekoliko vrsta informacija. Može dati djelomični pristup tako da "pauk" skenira određene elemente resursa. Potpuni pristup omogućuje vam da provjerite sve dostupne stranice. Potpuna zabrana sprječava robote da uopće počnu provjeravati i napuštaju stranicu.

Nakon posjete resursu, "pauci" dobivaju odgovarajući odgovor na zahtjev. Može ih biti nekoliko, sve ovisi o informacijama u robots.txt. Na primjer, ako je skeniranje bilo uspješno, robot će primiti kod 2xx.

Možda je stranica preusmjerena s jedne stranice na drugu. U tom slučaju robot prima kod 3xx. Ako se ovaj kod pojavi više puta, pauk će ga slijediti dok ne dobije drugi odgovor. Iako, u pravilu, koristi samo 5 pokušaja. Inače, pojavljuje se popularna pogreška 404.

Ako je odgovor 4xx, robotu je dopušteno indeksirati cijeli sadržaj stranice. Ali u slučaju koda 5xx, provjera se može potpuno zaustaviti, jer to često ukazuje na privremene pogreške poslužitelja.

roboti za pretraživanje
roboti za pretraživanje

Zaštotrebate robots.txt?

Kao što ste možda pogodili, ova datoteka je vodič za robote do korijena stranice. Sada se koristi za djelomično ograničavanje pristupa neprikladnom sadržaju:

  • stranice s osobnim podacima korisnika;
  • mirror web-lokacije;
  • rezultati pretraživanja;
  • obrasci za podnošenje podataka, itd.

Ako u korijenu stranice nema datoteke robots.txt, robot će indeksirati apsolutno sav sadržaj. Sukladno tome, neželjeni podaci mogu se pojaviti u rezultatima pretraživanja, što znači da ćete patiti i vi i stranica. Ako u dokumentu robots.txt postoje posebne upute, onda će ih "pauk" slijediti i dati informacije koje želi vlasnik resursa.

Rad s datotekom

Da biste koristili robots.txt za blokiranje indeksiranja stranice, morate shvatiti kako stvoriti ovu datoteku. Da biste to učinili, slijedite upute:

  1. Napravite dokument u Notepadu ili Notepad++.
  2. Postavite ekstenziju datoteke ".txt".
  3. Unesite potrebne podatke i naredbe.
  4. Spremite dokument i prenesite ga na korijensku stranicu.

Kao što vidite, u jednoj od faza potrebno je postaviti naredbe za robote. Oni su dvije vrste: dopuštajući (Allow) i zabranjujući (Disallow). Također, neki optimizatori mogu odrediti brzinu indeksiranja, host i vezu na mapu stranice resursa.

Kako zatvoriti web stranicu iz indeksiranja
Kako zatvoriti web stranicu iz indeksiranja

Kako biste počeli raditi s robots.txt i potpuno blokirali indeksiranje stranice, također morate razumjeti korištene simbole. Na primjer, u dokumentukoristite "/", što označava da je cijela stranica odabrana. Ako se koristi "", potreban je niz znakova. Na taj način bit će moguće odrediti određenu mapu koja se može skenirati ili ne skenirati.

Značajka botova

"Pauci" za tražilice su različiti, pa ako radite za nekoliko tražilica odjednom, morat ćete uzeti u obzir ovaj trenutak. Njihova su imena različita, što znači da ako želite kontaktirati određenog robota, morat ćete navesti njegovo ime: “Korisnički agent: Yandex” (bez navodnika).

Ako želite postaviti direktive za sve tražilice, tada trebate koristiti naredbu: "Korisnički agent: " (bez navodnika). Kako biste ispravno blokirali indeksiranje stranice pomoću robots.txt, morate znati specifičnosti popularnih tražilica.

Činjenica je da najpopularnije tražilice Yandex i Google imaju nekoliko botova. Svaki od njih ima svoje zadatke. Na primjer, Yandex Bot i Googlebot su glavni "pauci" koji indeksiraju stranicu. Poznavajući sve botove, bit će lakše fino podesiti indeksiranje vašeg resursa.

Kako radi datoteka robots.txt
Kako radi datoteka robots.txt

Primjeri

Dakle, uz pomoć robots.txt, možete zatvoriti stranicu od indeksiranja jednostavnim naredbama, glavna stvar je razumjeti što vam konkretno treba. Na primjer, ako želite da se Googlebot ne približava vašem resursu, morate mu dati odgovarajuću naredbu. Izgledat će ovako: "Korisnički agent: Googlebot Disallow: /" (bez navodnika).

Sada moramo razumjeti što je u ovoj naredbi i kako ona funkcionira. Dakle "korisnički agent"koristi se za korištenje izravnog poziva jednog od botova. Zatim naznačujemo kojem, u našem slučaju to je Google. Naredba "Disallow" mora započeti u novom retku i zabraniti robotu ulazak na stranicu. Simbol kose crte u ovom slučaju označava da su sve stranice izvora odabrane za izvršenje naredbe.

Čemu služi robots.txt?
Čemu služi robots.txt?

U robots.txt, možete onemogućiti indeksiranje za sve tražilice jednostavnom naredbom: "Korisnički agent:Disallow: /" (bez navodnika). Znak zvjezdice u ovom slučaju označava sve robote za pretraživanje. Obično je takva naredba potrebna za pauziranje indeksiranja stranice i početak kardinalnog rada na njoj, što bi inače moglo utjecati na optimizaciju.

Ako je resurs velik i ima mnogo stranica, često sadrži vlasničke informacije koje je ili nepoželjno otkrivati ili mogu negativno utjecati na promociju. U tom slučaju morate razumjeti kako zatvoriti stranicu od indeksiranja u robots.txt.

Možete sakriti mapu ili datoteku. U prvom slučaju morate početi ponovno kontaktiranjem određenog bota ili svakoga, pa koristimo naredbu “User-agent”, a ispod navodimo naredbu “Disallow” za određenu mapu. Izgledat će ovako: "Disallow: / folder /" (bez navodnika). Na ovaj način ćete sakriti cijelu mapu. Ako sadrži neku važnu datoteku koju biste željeli prikazati, tada trebate napisati naredbu u nastavku: “Allow: /folder/file.php” (bez navodnika).

Provjeri datoteku

Ako koristite robots.txt za zatvaranje straniceUspjeli ste u indeksiranju, ali ne znate jesu li sve vaše direktive radile ispravno, možete provjeriti ispravnost rada.

Prvo, morate ponovno provjeriti položaj dokumenta. Zapamtite da mora biti isključivo u korijenskoj mapi. Ako je u korijenskoj mapi, neće raditi. Zatim otvorite preglednik i tamo unesite sljedeću adresu: "https://yoursite. com/robots.txt" (bez navodnika). Ako dobijete pogrešku u vašem web pregledniku, datoteka nije tamo gdje bi trebala biti.

Kako zatvoriti mapu iz indeksiranja
Kako zatvoriti mapu iz indeksiranja

Direktive se mogu provjeriti u posebnim alatima koje koriste gotovo svi webmasteri. Govorimo o Google i Yandex proizvodima. Na primjer, u Google Search Consoleu postoji alatna traka na kojoj trebate otvoriti "Crawl", a zatim pokrenuti "Robots.txt File Inspection Tool". Morate kopirati sve podatke iz dokumenta u prozor i započeti skeniranje. Potpuno ista provjera može se obaviti u Yandex. Webmasteru.

Preporučeni: