*   >> Læs Uddannelse artikler >> tech >> web development

Betydningen af ​​robots.txt File

Despite betydningen af ​​robots.txt fil i at få dit websted indekseret med de store søgemaskiner, at mange webmasters ikke tilbyde en på deres site. Hvad er den robots.txt-fil, spørger du? Hvis du ikke ved, du er langt fra alene. Den robots.txt-fil er en simpel tekstfil (ingen HTML), der er placeret i dit websted rodmappe for at fortælle søgemaskinerne hvilke sider at indeksere og som at skip.When en søgemaskine sender sin WebCrawler til dit websted, en af de første ting at WebCrawler vil gøre er at søge rodmappen for robots.txt-fil. En korrekt formateret robots.

txt-fil vil bestå af flere poster, der hver giver instruktioner for en bestemt søgning-bot. En rekord vil generelt består af to komponenter, den første kaldes bruger-agent og er, hvor navnet på søg-bot er angivet. Den anden linje consits af en eller flere "afvise" linjer. Disse linjer fortælle WebCrawler hvilke filer eller mapper skal ikke indekseres (dvs. en cgi-bin mappe) .Hvis du i øjeblikket har en hjemmeside og ikke har en robots.txt-fil, kan du oprette en nemt. Som nævnt tidligere, er filerne almindelig tekst, så bare åbne notesblok og gem filen på robots.txt.

De fleste webmastere kan bruge en post, der vil gælde for alle de søgemaskinecrawlere. Når du har åbnet notesblok indtaste følgende: User-agent: * Disallow: Den "*" gælder denne regel for alle bots. I dette eksempel er der intet anført i Disallow-linjen. Dette fortæller robotten at indeksere hele webstedet. Du kan også indtaste en mappesti her såsom "/privat", hvis der er en mappe, der ikke indekseres. Dette kan være meget nyttigt, hvis du stadig tester en del af din hjemmeside eller er en sektion er stadig under construction.Now, at du ved, hvad der skal gå ind i din robots.

txt-fil, er der flere almindelige fejl folk gør, når du opretter disse filer. Indtaste aldrig noter eller kommentarer i filen som disse elementer kan skabe forvirring for WebCrawler. Desuden bør det format altid være user-agent på den første linje, efterfulgt af Disallow (s). Du må ikke bytte om på rækkefølgen. En anden almindelig fejl, indebærer at bruge den forkerte sag. Hvis underkendt mappe er /privat, så sørg for din robots.txt-fil ikke mappelisten som /Privat. Det virker som et meget mindre problem, men det vil give problemer, hvis det gøres forkert. Endelig er der ingen Tillad kommando.

Du kan ikke fortælle WebCrawler hvad man skal kigge på, kun hvad man ikke skal kigge at.If du stadig er nysgerrig robots.txt fil, du kan finde mange flere komplekse eksempler

Page   <<       [1] [2] >>
Copyright © 2008 - 2016 Læs Uddannelse artikler,https://uddannelse.nmjjxx.com All rights reserved.