Reklāma

Ja jūs vadīt vietni 10 veidi, kā izveidot nelielu un vienkāršu vietni bez pārpūlesWordPress var būt pārspīlēts. Kā pierāda šie citi izcilie pakalpojumi, WordPress nav vietņu izveides galvenais mērķis. Ja vēlaties vienkāršākus risinājumus, varat izvēlēties no dažādiem. Lasīt vairāk , jūs droši vien esat dzirdējuši par failu robots.txt (vai "robotu izslēgšanas standartu"). Neatkarīgi no tā, vai jums ir vai nav, ir pienācis laiks uzzināt par to, jo šis vienkāršais teksta fails ir svarīga jūsu vietnes sastāvdaļa. Tas varētu šķist nenozīmīgi, taču jūs varētu būt pārsteigts, cik tas ir svarīgi.

Apskatīsim, kas ir fails robots.txt, kā tas darbojas un kā to pareizi iestatīt savai vietnei.

Kas ir fails robots.txt?

Lai saprastu, kā darbojas fails robots.txt, jums tas ir jāzina mazliet par meklētājprogrammām Kā darbojas meklētājprogrammas?Daudziem cilvēkiem Google IR internets. Tas, iespējams, ir vissvarīgākais izgudrojums kopš interneta. Un, lai gan kopš tā laika meklētājprogrammas ir daudz mainījušās, pamatā esošie principi joprojām ir tie paši. Lasīt vairāk

. Īsā versija ir tāda, ka viņi izsūta "rāpuļprogrammas", kas ir programmas, kas meklē informāciju internetā. Pēc tam viņi saglabā daļu šīs informācijas, lai vēlāk varētu novirzīt cilvēkus uz to.

Šīs rāpuļprogrammas, kas pazīstamas arī kā “robots” vai “zirneklis”, atrod lapas no miljardiem vietņu. Meklētājprogrammas sniedz viņiem norādes par to, kurp doties, taču atsevišķas vietnes var arī sazināties ar robotprogrammatūrām un norādīt, kuras lapas viņiem vajadzētu apskatīt.

Lielāko daļu laika viņi patiesībā rīkojas pretēji un stāsta, kuras lapas viņi dara nevajadzētu skatīties. Tādas lietas kā administratīvās lapas, aizmugursistēmas portāli, kategoriju un tagu lapas un citas lietas, ko vietņu īpašnieki nevēlas rādīt meklētājprogrammās. Šīs lapas joprojām ir redzamas lietotājiem, un tām var piekļūt ikviens, kam ir atļauja (kas bieži vien ir visi).

Taču, liekot šiem zirnekļiem neindeksēt dažas lapas, fails robots.txt dara labu ikvienam. Ja meklētājprogrammā meklējāt “MakeUseOf”, vai vēlaties, lai mūsu administratīvās lapas tiktu rādītas augstākajā reitingā? Nē. Tas nevienam nenāktu par labu, tāpēc mēs sakām meklētājprogrammām tās nerādīt. To var arī izmantot, lai neļautu meklētājprogrammām pārbaudīt lapas, kuras, iespējams, nepalīdz klasificēt jūsu vietni meklēšanas rezultātos.

Īsāk sakot, robots.txt norāda tīmekļa rāpuļprogrammām, kas jādara.

Vai rāpuļprogrammas var ignorēt robots.txt?

Vai rāpuļprogrammas kādreiz ignorē robots.txt failus? Jā. Patiesībā daudzi rāpuļprogrammas darīt ignorē to. Tomēr parasti šīs rāpuļprogrammas nav no cienījamiem meklētājprogrammām. Tie ir no surogātpasta izplatītājiem, e-pasta vācējiem un cita veida automatizēti roboti Kā izveidot pamata tīmekļa rāpuļprogrammu, lai iegūtu informāciju no vietnesVai esat kādreiz vēlējies iegūt informāciju no vietnes? Tālāk ir norādīts, kā uzrakstīt rāpuļprogrammu, lai pārvietotos pa vietni un izvilktu to, kas jums nepieciešams. Lasīt vairāk kas klīst pa internetu. Ir svarīgi paturēt to prātā - Robotu izslēgšanas standarta izmantošana, lai norādītu, ka roboti nedrīkst atrasties, nav efektīvs drošības pasākums. Patiesībā daži roboti varētu sākt ar lapām, uz kurām sakāt, lai viņi neiet.

Meklētājprogrammas tomēr darīs tā, kā norādīts failā robots.txt, ja vien tas ir pareizi formatēts.

Kā uzrakstīt failu robots.txt

Ir dažas dažādas daļas, kas tiek iekļautas robotu izslēgšanas standarta failā. Šeit es tos sadalīšu katru atsevišķi.

Lietotāja aģenta deklarācija

Pirms sakāt robotam, kuras lapas tam nevajadzētu skatīt, jums ir jānorāda, ar kuru robotu jūs runājat. Lielāko daļu laika jūs izmantosit vienkāršu deklarāciju, kas nozīmē “visas robotprogrammas”. Tas izskatās šādi:

Lietotāja aģents: *

Zvaigznīte apzīmē “visas robotprogrammas”. Tomēr noteiktiem robotiem varat norādīt lapas. Lai to izdarītu, jums būs jāzina robota nosaukums, kuram izstrādājat vadlīnijas. Tas varētu izskatīties šādi:

Lietotāja aģents: Googlebot. [to lapu saraksts, kuras nedrīkst pārmeklēt] Lietotāja aģents: Googlebot-Image/1.0. [to lapu saraksts, kuras nedrīkst pārmeklēt] Lietotāja aģents: Bingbot. [to lapu saraksts, kuras nedrīkst pārmeklēt]

Un tā tālāk. Ja atklājat robotu, kuru nevēlaties pārmeklēt jūsu vietnē, varat norādīt arī to.

Lai atrastu lietotāju aģentu nosaukumus, apmeklējiet vietni useragentstring.com [nav vairs pieejams].

Lapu atļaušana

Šī ir jūsu robotu izslēgšanas faila galvenā daļa. Izmantojot vienkāršu deklarāciju, jūs sakāt robotam vai robotprogrammatūru grupai nepārmeklēt noteiktas lapas. Sintakse ir vienkārša. Tālāk ir norādīts, kā jūs varat aizliegt piekļuvi visam jūsu vietnes administratora direktorijā.

Neatļaut: /admin/

Šī rinda neļaus robotiem pārmeklēt yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html un jebko citu, kas ietilpst administratora direktorijā.

Lai atteiktu vienu lapu, vienkārši norādiet to neatļautajā rindā:

Neatļaut: /public/exception.html

Tagad lapa “Izņēmums” netiks izņemta, bet viss pārējais “publiskajā” mapē tiks noņemts.

Lai iekļautu vairākus direktorijus vai lapas, vienkārši uzskaitiet tos nākamajās rindās:

Neatļaut: /privāts/ Neatļaut: /admin/ Neatļaut: /cgi-bin/ Neatļaut: /temp/

Šīs četras rindiņas attieksies uz jebkuru lietotāja aģentu, kuru norādījāt sadaļas augšpusē.

Ja vēlaties, lai robotprogrammatūra neskatītos nevienu jūsu vietnes lapu, izmantojiet šo:

Neatļaut: /

Atšķirīgu standartu noteikšana robotiem

Kā redzējām iepriekš, varat norādīt noteiktas lapas dažādiem robotiem. Apvienojot divus iepriekšējos elementus, tas izskatās šādi:

Lietotāja aģents: googlebot. Neatļaut: /admin/ Neatļaut: /privāts/ Lietotāja aģents: bingbot. Neatļaut: /admin/ Neatļaut: /privāts/ Neatļaut: /slepens/

Sadaļas “Administrators” un “privātā” būs neredzamas pakalpojumā Google un Bing, taču Google redzēs “slepeno” direktoriju, savukārt Bing to neredzēs.

Varat norādīt vispārīgus noteikumus visiem robotiem, izmantojot lietotāja aģentu ar zvaigznīti, un pēc tam dot robotiem īpašus norādījumus arī nākamajās sadaļās.

Saliekot to visu kopā

Izmantojot iepriekš minētās zināšanas, varat uzrakstīt pilnīgu robots.txt failu. Vienkārši iedarbiniet savu iecienītāko teksta redaktoru (mēs Sublime fani 11 izcili teksta padomi produktivitātei un ātrākai darbplūsmaiSublime Text ir daudzpusīgs teksta redaktors un zelta standarts daudziem programmētājiem. Mūsu padomi ir vērsti uz efektīvu kodēšanu, taču parastie lietotāji novērtēs īsinājumtaustiņus. Lasīt vairāk šeit) un sāciet informēt robotus, ka tie nav gaidīti noteiktās jūsu vietnes daļās.

Ja vēlaties redzēt faila robots.txt piemēru, dodieties uz jebkuru vietni un beigās pievienojiet “/robots.txt”. Šeit ir daļa no faila Giant Bicycles robots.txt:

milzīgs robots.txt fails

Kā redzat, ir diezgan daudz lapu, kuras viņi nevēlas, lai tās tiktu rādītas meklētājprogrammās. Tajos ir iekļautas arī dažas lietas, par kurām mēs vēl neesam runājuši. Apskatīsim, ko vēl varat darīt savā robotu izslēgšanas failā.

Vietnes kartes atrašanās vietas noteikšana

Ja fails robots.txt robotiem norāda, kur iet, tavs vietnes karte dara pretējo Kā izveidot XML vietnes karti 4 vienkāršās darbībāsIr divu veidu vietnes kartes – HTML lapa vai XML fails. HTML vietnes karte ir viena lapa, kurā apmeklētājiem tiek rādītas visas vietnes lapas un parasti ir saites uz tām... Lasīt vairāk un palīdz viņiem atrast to, ko viņi meklē. Un, lai gan meklētājprogrammas, iespējams, jau zina, kur atrodas jūsu vietnes karte, nav par ļaunu paziņot viņiem vēlreiz.

Vietnes kartes atrašanās vietas deklarācija ir vienkārša:

Vietnes karte: [vietnes kartes URL]

Tieši tā.

Mūsu pašu failā robots.txt tas izskatās šādi:

Vietnes karte: //www.makeuseof.com/sitemap_index.xml

Tas ir viss.

Pārmeklēšanas aizkaves iestatīšana

Rāpuļprogrammas aizkaves direktīva norāda noteiktām meklētājprogrammām, cik bieži tās var indeksēt jūsu vietnes lapu. To mēra sekundēs, lai gan dažas meklētājprogrammas to interpretē nedaudz atšķirīgi. Daži uzskata, ka pārmeklēšanas aizkave — 5 — pēc katras pārmeklēšanas jāgaida piecas sekundes, lai sāktu nākamo. Citi to interpretē kā norādījumu ik pēc piecām sekundēm pārmeklēt tikai vienu lapu.

Kāpēc rāpuļprogrammai liktu pēc iespējas vairāk nerāpot? Uz saglabāt joslas platumu 4 veidi, kā sistēma Windows 10 izšķērdē jūsu interneta joslas platumuVai sistēma Windows 10 tērē jūsu interneta joslas platumu? Lūk, kā to pārbaudīt un ko varat darīt, lai to apturētu. Lasīt vairāk . Ja jūsu serverim ir grūti sekot līdzi trafikam, iespējams, vēlēsities ieviest rāpuļprogrammas aizkavi. Kopumā lielākajai daļai cilvēku par to nav jāuztraucas. Tomēr lielas vietnes ar lielu trafiku var vēlēties nedaudz eksperimentēt.

Lūk, kā iestatīt astoņu sekunžu pārmeklēšanas aizkavi.

Pārmeklēšanas aizkave: 8

Tieši tā. Ne visas meklētājprogrammas ievēros jūsu norādījumus. Bet tas nekaitē jautāt. Tāpat kā ar lapu atļaušanu, konkrētām meklētājprogrammām varat iestatīt dažādus rāpuļprogrammas aizkaves.

Notiek faila robots.txt augšupielāde

Kad failā ir iestatīti visi norādījumi, varat to augšupielādēt savā vietnē. Pārliecinieties, vai tas ir vienkārša teksta fails un tam ir nosaukums robots.txt. Pēc tam augšupielādējiet to savā vietnē, lai to varētu atrast vietnē yoursite.com/robots.txt.

Ja lietojat a satura pārvaldības sistēma 10 populārākās satura pārvaldības sistēmas tiešsaistēAr roku kodētu HTML lapu un CSS apguves laiki jau sen ir pagājuši. Instalējiet satura pārvaldības sistēmu (CMS), un dažu minūšu laikā varat izveidot vietni, ko kopīgot ar pasauli. Lasīt vairāk tāpat kā WordPress, iespējams, jums ir nepieciešams īpašs veids, kā rīkoties. Tā kā katrā satura pārvaldības sistēmā tas atšķiras, jums būs jāiepazīstas ar savas sistēmas dokumentāciju.

Dažām sistēmām var būt arī tiešsaistes saskarnes faila augšupielādei. Šiem nolūkiem vienkārši kopējiet un ielīmējiet failu, ko izveidojāt iepriekšējās darbībās.

Atcerieties atjaunināt savu failu

Pēdējais padoms, ko es sniegšu, ir laiku pa laikam pārskatīt savu robotu izslēgšanas failu. Jūsu vietne mainās, un, iespējams, būs jāveic daži pielāgojumi. Ja pamanāt dīvainas izmaiņas meklētājprogrammas trafikā, ieteicams pārbaudīt arī failu. Iespējams, ka standarta apzīmējums nākotnē var mainīties. Tāpat kā visu citu jūsu vietnē, arī to ir vērts ik pa laikam pārbaudīt.

No kurām lapām jūs izslēdzat rāpuļprogrammas savā vietnē? Vai esat pamanījis kādas atšķirības meklētājprogrammu trafikā? Dalieties savos padomos un komentāros zemāk!

Dens ir satura stratēģijas un mārketinga konsultants, kurš palīdz uzņēmumiem radīt pieprasījumu un potenciālos klientus. Viņš arī raksta emuārus par stratēģiju un satura mārketingu vietnē dannalbright.com.