Kako ispravno postaviti Robots.txt?

Sadržaj:

Kako ispravno postaviti Robots.txt?
Kako ispravno postaviti Robots.txt?
Anonim

Ispravan txt robota za html stranicu stvara akcijske modele za botove tražilice, govoreći im što mogu provjeriti. Ova datoteka se često naziva protokolom za izuzimanje robota. Prva stvar koju botovi traže prije indeksiranja web stranice je robots.txt. Može ukazati na ili reći Sitemapu da ne provjerava određene poddomene. Kada želite da tražilice traže ono što se najčešće nalazi, robots.txt nije potreban. U ovom procesu vrlo je važno da je datoteka ispravno formatirana i da ne indeksira korisničku stranicu s osobnim podacima korisnika.

Princip skeniranja robota

Princip skeniranja robota
Princip skeniranja robota

Kada tražilica naiđe na datoteku i vidi zabranjeni URL, ne indeksira je, ali može je indeksirati. To je zato što čak i ako robotima nije dopušteno vidjeti sadržaj, mogu zapamtiti povratne veze koje upućuju na zabranjeni URL. Zbog blokiranog pristupa poveznici, URL će se pojaviti u tražilicama, ali bez fragmenata. Ako je aza dolaznu marketinšku strategiju potreban je ispravan txt Robots za bitrix (Bitrix), oni pružaju provjeru stranice na zahtjev korisnika pomoću skenera.

S druge strane, ako datoteka nije pravilno formatirana, to može dovesti do toga da se stranica neće pojaviti u rezultatima pretraživanja i neće biti pronađena. Tražilice ne mogu zaobići ovu datoteku. Programer može vidjeti robots.txt bilo koje stranice tako da ode na njegovu domenu i prati je s robots.txt, na primjer, www.domain.com/robots.txt. Korištenjem alata kao što je Unamoov odjeljak za SEO optimizaciju, gdje možete unijeti bilo koju domenu, a usluga će pokazati informacije o postojanju datoteke.

Ograničenja za skeniranje:

  1. Korisnik ima zastarjeli ili osjetljivi sadržaj.
  2. Slike na stranici neće biti uključene u rezultate pretraživanja slika.
  3. Stranica još nije spremna za demo koju robot indeksira.

Imajte na umu da su informacije koje korisnik želi primiti od tražilice dostupne svakome tko unese URL. Nemojte koristiti ovu tekstualnu datoteku za skrivanje osjetljivih podataka. Ako domena ima pogrešku 404 (nije pronađeno) ili 410 (prošlo), tražilica provjerava stranicu unatoč prisutnosti robots.txt, u kojem slučaju smatra da datoteka nedostaje. Ostale pogreške kao što su 500 (unutarnja pogreška poslužitelja), 403 (zabranjeno), isteklo vrijeme ili "nije dostupno" poštuju upute robots.txt, međutim zaobilaženje se može odgoditi dok datoteka ne bude dostupna.

Izrada datoteke za pretraživanje

Izrada datoteke za pretraživanje
Izrada datoteke za pretraživanje

MnogoCMS programi kao što je WordPress već imaju robots.txt datoteku. Prije pravilnog konfiguriranja robota txt WordPressa, korisnik se mora upoznati s njegovim mogućnostima kako bi shvatio kako mu pristupiti. Ako programer sam kreira datoteku, ona mora ispunjavati sljedeće uvjete:

  1. Mora biti malim slovima.
  2. Koristite UTF-8 kodiranje.
  3. Spremi u uređivač teksta kao datoteku (.txt).

Kada korisnik ne zna gdje ga smjestiti, kontaktira dobavljača softvera web poslužitelja kako bi saznao kako pristupiti korijenu domene ili otići na Google konzolu i preuzeti je. Pomoću ove funkcije, Google također može provjeriti radi li bot ispravno i popis stranica koje su blokirane pomoću datoteke.

Glavni format ispravnog Robots txt-a za bitrix (Bitrix):

  1. Legend robots.txt.
  2. , dodaje komentare koji se koriste samo kao bilješke.
  3. Ove komentare skeneri će zanemariti zajedno sa svim korisničkim tipkarskim pogreškama.
  4. User-agent - označava na kojoj tražilici su navedene upute za datoteku.
  5. Dodavanje zvjezdice () govori skenerima da su upute za svakoga.

Označavanje određenog bota, na primjer, Googlebot, Baiduspider, Applebot. Disallow govori alatima za indeksiranje koje dijelove web-mjesta ne bi trebalo indeksirati. To izgleda ovako: Korisnički agent:. Zvjezdica znači "svi botovi". Međutim, možete odrediti stranice za određenebotovi. Da biste to učinili, morate znati naziv bota za koji su postavljene preporuke.

Točan txt robota za Yandex mogao bi izgledati ovako:

Ispravan txt robota za Yandex
Ispravan txt robota za Yandex

Ako bot ne bi trebao indeksirati stranicu, možete to odrediti, a da biste pronašli imena korisničkih agenata, preporuča se upoznati se s online mogućnostima useragentstring.com.

Optimizacija stranice

Optimizacija stranice
Optimizacija stranice

Sljedeća dva retka smatraju se cjelovitom datotekom robots.txt, a jedna robots datoteka može sadržavati više redaka korisničkih agenata i direktiva koje onemogućuju ili omogućavaju indeksiranje. Glavni format ispravnog txt-a robota:

  1. Korisnički agent: [korisničko ime agenta].
  2. Disallow: .

U datoteci, svaki blok direktiva je prikazan kao diskretan, odvojen redom. U datoteci pored korisničkog imenika agenta, svako pravilo se primjenjuje na određeni skup redaka odvojenih odjeljcima. Ako datoteka ima pravilo više agenata, robot će uzeti u obzir samo najspecifičniju grupu uputa.

Tehnička sintaksa

Tehnička sintaksa
Tehnička sintaksa

Može se smatrati "jezikom" datoteka robots.txt. Postoji pet pojmova koji mogu postojati u ovom formatu, a glavni su:

  1. Korisnički agent - Web alat za indeksiranje s uputama za indeksiranje, obično tražilica.
  2. Disallow je naredba koja se koristi da se korisničkom agentu kaže da zaobiđe(izostavljanje) određenog URL-a. Za svaki postoji samo jedan zabranjeni uvjet.
  3. Dopusti. Za Googlebot koji dobije pristup, čak je i korisnička stranica odbijena.
  4. Crawl-dey - određuje koliko će sekundi indeksirati trebati prije indeksiranja. Kada bot to ne potvrdi, brzina se postavlja u Google konzoli.
  5. Sitemap - Koristi se za lociranje bilo koje XML karte povezane s URL-om.

podudaranja uzoraka

Kada je riječ o stvarnom blokiranju URL-ova ili dopuštanju valjanog txt-a robota, operacije mogu biti prilično zeznute jer vam omogućuju korištenje podudaranja uzoraka za pokrivanje brojnih mogućih parametara URL-a. Google i Bing koriste dva znaka koja identificiraju stranice ili podmape koje SEO želi isključiti. Dva znaka su zvjezdica () i znak dolara ($), gdje je:zamjenski znak koji predstavlja bilo koji niz znakova. $ - odgovara kraju URL-a.

Google nudi veliki popis mogućih sintaksa predložaka koji objašnjavaju korisniku kako pravilno postaviti Robots txt datoteku. Neki uobičajeni slučajevi upotrebe uključuju:

  1. Spriječite pojavljivanje dupliciranog sadržaja u rezultatima pretraživanja.
  2. Sve odjeljke web stranice neka budu privatni.
  3. Spremi interne stranice rezultata pretraživanja na temelju otvorene izjave.
  4. Navedite lokaciju.
  5. Spriječite tražilice da indeksiraju određenedatoteke.
  6. Određivanje odgode indeksiranja za zaustavljanje ponovnog učitavanja pri skeniranju više područja sadržaja u isto vrijeme.

Provjera prisutnosti datoteke robota

Ako na web-mjestu nema područja koja treba indeksirati, robots.txt uopće nije potreban. Ako korisnik nije siguran da ova datoteka postoji, mora unijeti root domenu i upisati je na kraj URL-a, otprilike ovako: moz.com/robots.txt. Brojni botovi za pretraživanje zanemaruju ove datoteke. Međutim, u pravilu ovi indeksi ne spadaju u renomirane tražilice. Oni su vrsta pošiljatelja neželjene pošte, agregatora pošte i drugih vrsta automatiziranih botova kojih ima u izobilju na internetu.

Vrlo je važno zapamtiti da korištenje standarda isključivanja robota nije učinkovita sigurnosna mjera. Zapravo, neki botovi mogu započeti sa stranicama na kojima ih korisnik postavlja na način skeniranja. Postoji nekoliko dijelova koji ulaze u standardnu datoteku izuzetaka. Prije nego što kažete robotu na kojim stranicama ne bi trebao raditi, morate odrediti s kojim robotom razgovarati. U većini slučajeva, korisnik će koristiti jednostavnu deklaraciju koja znači "svi botovi".

SEO optimizacija

SEO optimizacija
SEO optimizacija

Prije optimizacije, korisnik se mora pobrinuti da ne blokira sadržaj ili odjeljke stranice koje treba zaobići. Veze na stranice blokirane ispravnim Robots txt-om neće se poštovati. To znači:

  1. Ako nisu povezane s drugim stranicama dostupnim tražilicama, tj. stranice,nije blokiran robots.txt ili meta robotom, a povezani resursi neće biti indeksirani i stoga se ne mogu indeksirati.
  2. Nijedna veza ne može se proslijediti s blokirane stranice na odredište veze. Ako postoji takva stranica, bolje je koristiti drugačiji mehanizam za blokiranje od robots.txt.

Budući da druge stranice mogu izravno povezivati na stranicu koja sadrži osobne podatke, a vi želite blokirati ovu stranicu iz rezultata pretraživanja, upotrijebite drugu metodu, kao što je zaštita lozinkom ili metapodaci bez indeksa. Neke tražilice imaju više korisničkih agenata. Na primjer, Google koristi Googlebot za organska pretraživanja i Googlebot-Image za pretraživanja slika.

Većina korisničkih agenata iz iste tražilice slijedi ista pravila, tako da nema potrebe za specificiranjem direktiva za svaki od nekoliko alata za indeksiranje, ali mogućnost da to učini može fino podesiti indeksiranje sadržaja stranice. Tražilica sprema sadržaj datoteke i obično ažurira predmemorirani sadržaj najmanje jednom dnevno. Ako korisnik promijeni datoteku i želi je ažurirati brže nego inače, može poslati URL robots.txt Googleu.

Tražilice

Provjera postojanja datoteke robota
Provjera postojanja datoteke robota

Da biste razumjeli kako Robots txt radi ispravno, morate znati o mogućnostima tražilica. Ukratko, njihova sposobnost leži u tome što šalju "skenere", a to su programi kojipretražujući internet u potrazi za informacijama. Zatim pohranjuju neke od ovih informacija kako bi ih kasnije proslijedili korisniku.

Za mnoge ljude, Google je već internet. Zapravo, u pravu su, budući da je to možda njegov najvažniji izum. I premda su se tražilice dosta promijenile od svog nastanka, temeljna načela su i dalje ista. Alati za indeksiranje, također poznati kao "botovi" ili "pauci", pronalaze stranice s milijardi web-mjesta. Tražilice im daju upute kamo da idu, dok pojedinačna web-mjesta također mogu komunicirati s botovima i reći im koje specifične stranice trebaju pogledati.

Općenito, vlasnici web-mjesta ne žele se pojavljivati u tražilicama: administratorskim stranicama, pozadinskim portalima, kategorijama i oznakama i drugim stranicama s informacijama. Datoteka robots.txt također se može koristiti za sprječavanje tražilicama da provjeravaju stranice. Ukratko, robots.txt govori web pretraživačima što da rade.

Zabrana stranica

Ovo je glavni dio datoteke isključenja robota. Jednostavnom deklaracijom korisnik govori botu ili skupini botova da ne indeksiraju određene stranice. Sintaksa je jednostavna, na primjer, za uskraćivanje pristupa svemu u "admin" direktoriju stranice, napišite: Disallow: /admin. Ovaj redak spriječit će botove da indeksiraju yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html i bilo što drugo u direktoriju administratora.

Da zabranite jednu stranicu, jednostavno je navedite u redu za zabranu: Disallow: /public/exception.html. Sada stranica "iznimka".neće migrirati, ali će sve ostalo u "javnoj" mapi.

Da biste uključili više stranica, jednostavno ih navedite:

Imenici i stranice
Imenici i stranice

Ova četiri reda ispravnog txt-a robota za symphony primjenjivat će se na bilo koji korisnički agent naveden na vrhu odjeljkarobots.txt za

Zabranite stranice
Zabranite stranice

Sitemap:

Ostale naredbe:live - ne dopustite web indeksima da indeksiraju cpresources/ ili provider/.

Korisnički agent:Disallow: /cpresources/.

Zabrani: / dobavljač / Disallow: /.env.

Postavljanje standarda

Korisnik može odrediti određene stranice za različite botove kombinirajući prethodna dva elementa, ovako to izgleda. Primjer ispravnog txt-a robota za sve tražilice prikazan je u nastavku.

Postavljanje standarda
Postavljanje standarda

Odjeljci "admin" i "privatni" bit će nevidljivi Googleu i Bingu, ali Google će i dalje vidjeti "tajni" direktorij, dok Bing neće. Možete odrediti opća pravila za sve botove pomoću korisničkog agenta zvjezdice, a zatim dati posebne upute botovima u sljedećim odjeljcima. Uz gore navedeno znanje, korisnik može napisati primjer ispravnog txt-a robota za sve tražilice. Samo pokrenite svoj omiljeni uređivač teksta i recite botovima da nisu dobrodošli u određenim dijelovima stranice.

Savjeti za poboljšanje performansi poslužitelja

SublimeText jesvestrani uređivač teksta i zlatni standard za mnoge programere. Štoviše, njegovi se savjeti za programiranje temelje na učinkovitom kodiranju. korisnici cijene prisutnost prečaca u programu. Ako korisnik želi vidjeti primjer datoteke robots.txt, trebao bi otići na bilo koju stranicu i dodati "/robots.txt" na kraj. Ovdje je dio datoteke robots.txt GiantBicycles.

Program omogućuje kreiranje stranica koje korisnici ne žele prikazivati u tražilicama. I također ima nekoliko ekskluzivnih stvari za koje malo ljudi zna. Na primjer, dok datoteka robots.txt govori botovima kamo ne smiju ići, datoteka karte web-lokacije čini suprotno i pomaže im da pronađu ono što traže, a iako tražilice vjerojatno već znaju gdje se nalazi karta web-lokacije, ona ne dobiva na putu.

Postoje dvije vrste datoteka: HTML stranica ili XML datoteka. HTML stranica je ona koja posjetiteljima prikazuje sve dostupne stranice na web stranici. U vlastitom robots.txt to izgleda ovako: Sitemap://www.makeuseof.com/sitemap_index.xml. Ako web-mjesto nije indeksirano od strane tražilica, iako su ga web roboti indeksirali nekoliko puta, morate biti sigurni da je datoteka prisutna i da su njezine dozvole ispravno postavljene.

Prema zadanim postavkama, to će se dogoditi svim instalacijama SeoToastera, ali ako je potrebno, možete ga resetirati na sljedeći način: Datoteka robots.txt - 644. Ovisno o PHP poslužitelju, ako to ne radi za korisnika, preporučuje se isprobati sljedeće: Datoteka robots.txt - 666.

Postavljanje odgode skeniranja

Direktiva o kašnjenju zaobilaženja obavještava određenetražilice koliko često mogu indeksirati stranicu na web mjestu. Mjeri se u sekundama, iako ga neke tražilice tumače malo drugačije. Neki ljudi vide odgodu indeksiranja 5 kada im se kaže da čekaju pet sekundi nakon svakog skeniranja da započnu sljedeće.

Drugi ovo tumače kao uputu za skeniranje samo jedne stranice svakih pet sekundi. Robot ne može skenirati brže kako bi sačuvao propusnost poslužitelja. Ako poslužitelj treba odgovarati prometu, može postaviti odgodu zaobilaženja. Općenito, u većini slučajeva korisnici ne moraju brinuti o tome. Ovako se postavlja odgoda puzanja od osam sekundi - Odgoda puzanja: 8.

Ali neće sve tražilice poštivati ovu direktivu, pa kada zabranjujete stranice, možete postaviti različita odgoda indeksiranja za određene tražilice. Nakon što su sve upute u datoteci postavljene, možete je prenijeti na stranicu, prvo provjerite je li to jednostavna tekstualna datoteka i ima li naziv robots.txt i može se naći na yoursite.com/robots.txt.

Najbolji WordPress bot

Najbolji WordPress bot
Najbolji WordPress bot

Postoje neke datoteke i direktoriji na WordPress stranici koje je potrebno svaki put zaključati. Direktoriji koje bi korisnici trebali zabraniti su direktorij cgi-bin i standardni WP direktoriji. Neki poslužitelji ne dopuštaju pristup direktoriju cgi-bin, ali korisnici ga moraju uključiti u direktivu disallow prije pravilnog konfiguriranja robota txt WordPress

Standardni WordPress imenici,koji bi trebali blokirati su wp-admin, wp-content, wp-includes. Ovi direktoriji ne sadrže podatke koji su inicijalno korisni tražilicama, ali postoji iznimka, tj. postoji poddirektorij pod nazivom uploads u direktoriju wp-content. Ovaj poddirektorij mora biti dopušten u datoteci robot.txt jer uključuje sve što se učitava pomoću značajke za prijenos WP medija. WordPress koristi oznake ili kategorije za strukturiranje sadržaja.

Ako se koriste kategorije, tada je kako bi se napravio ispravan txt robota za Wordpress, kako je naveo proizvođač programa, potrebno je blokirati arhive oznaka iz pretraživanja. Prvo provjeravaju bazu podataka tako da odu na ploču "Administracija"> "Postavke"> "Permalink".

Prema zadanim postavkama, baza je oznaka, ako je polje prazno: Disallow: / tag /. Ako se koristi kategorija, morate onemogućiti kategoriju u datoteci robot.txt: Disallow: /category/. Prema zadanim postavkama, baza je oznaka, ako je polje prazno: Disallow: / tag /. Ako se koristi kategorija, morate onemogućiti kategoriju u datoteci robot.txt: Disallow: / category /.

Datoteke koje se prvenstveno koriste za prikaz sadržaja, blokirat će ih ispravna txt datoteka Robots za Wordpress:

Roboti txt za wordpress
Roboti txt za wordpress

osnovna postavka Joomla

Nakon što korisnik instalira Joomlu, morate vidjeti ispravnu txt postavku Joomla Robots u globalnoj konfiguraciji, koja se nalazi na upravljačkoj ploči. Neke su postavke ovdje vrlo važne za SEO. Prvo pronađite naziv stranice i uvjerite se u tokoristi se kratki naziv stranice. Zatim pronađu grupu postavki s desne strane istog zaslona, koja se zove SEO postavke. Onaj koji će svakako morati promijeniti je drugi: upotrijebite prepisni URL.

Ovo zvuči komplicirano, ali u osnovi pomaže Joomli stvoriti čistije URL-ove. Najprimjetnije ako uklonite redak index.php iz URL-ova. Ako ga kasnije promijenite, URL-ovi će se promijeniti i Googleu se to neće svidjeti. Međutim, kada mijenjate ovu postavku, potrebno je poduzeti nekoliko koraka u isto vrijeme kako biste stvorili ispravan txt robota za Joomla:

  1. Pronađi datoteku htaccess.txt u korijenskoj mapi Joomla.
  2. Označi kao.htaccess (bez proširenja).
  3. Uključite naziv stranice u naslove stranica.
  4. Pronađite postavke metapodataka na dnu zaslona globalne konfiguracije.

Robot u oblaku MODX

Robot u MODX oblaku
Robot u MODX oblaku

Prije je MODX Cloud korisnicima pružao mogućnost kontrole ponašanja dopuštanja posluživanja datoteke robots.txt na temelju prekidača na nadzornoj ploči. Iako je ovo bilo korisno, bilo je moguće slučajno dopustiti indeksiranje na web-mjestu za postavljanje/razvoj, uključivanjem opcije na nadzornoj ploči. Slično je bilo lako onemogućiti indeksiranje na proizvodnom mjestu.

Danas usluga pretpostavlja prisutnost robots.txt datoteka u datotečnom sustavu uz sljedeću iznimku: svaka domena koja završava s modxcloud.com služit će kao Disallow: /direktiva za sve korisničke agente, bez obzira na prisutnost ili izostanak datoteke. Produkcijska web-mjesta koja primaju stvarni promet posjetitelja morat će koristiti vlastitu domenu ako korisnik želi indeksirati svoju web-lokaciju.

Neke organizacije koriste ispravan txt robota za modx za pokretanje više web-mjesta iz jedne instalacije koristeći kontekste. Slučaj u kojem bi se to moglo primijeniti bila bi javna marketinška stranica u kombinaciji s mikro web lokacijama odredišne stranice i moguće nejavni intranet.

Tradicionalno je to bilo teško učiniti za višekorisničke instalacije jer dijele isti korijen mreže. Uz MODX Cloud, to je jednostavno. Jednostavno prenesite dodatnu datoteku na web-mjesto pod nazivom robots-intranet.example.com.txt sa sljedećim sadržajem i ona će blokirati indeksiranje s robotima koji dobro rade, a sva ostala imena hostova vraćaju se na standardne datoteke osim ako ne postoje drugi specifični čvorovi imena.

Robots.txt je važna datoteka koja pomaže korisniku da se poveže na stranicu na Googleu, glavnim tražilicama i drugim web stranicama. Smještena u korijenu web-poslužitelja, datoteka daje upute web robotima da indeksiraju web-mjesto, određuju koje mape treba ili ne treba indeksirati, koristeći skup uputa koji se naziva Protokol za izuzimanje robota. Primjer ispravnog txt-a robota za sve tražilice obots.txt posebno je lako napraviti sa SeoToasterom. Za njega je kreiran poseban izbornik na upravljačkoj ploči, tako da se bot nikada neće morati previše truditi da bi dobio pristup.

Preporučeni: