txt-fil vil bestå af flere poster, der hver giver instruktioner for en bestemt søgning-bot. En rekord vil generelt består af to komponenter, den første kaldes bruger-agent og er, hvor navnet på søg-bot er angivet. Den anden linje consits af en eller flere "afvise" linjer. Disse linjer fortælle WebCrawler hvilke filer eller mapper skal ikke indekseres (dvs. en cgi-bin mappe) .Hvis du i øjeblikket har en hjemmeside og ikke har en robots.txt-fil, kan du oprette en nemt. Som nævnt tidligere, er filerne almindelig tekst, så bare åbne notesblok og gem filen på robots.txt.
De fleste webmastere kan bruge en post, der vil gælde for alle de søgemaskinecrawlere. Når du har åbnet notesblok indtaste følgende: User-agent: * Disallow: Den "*" gælder denne regel for alle bots. I dette eksempel er der intet anført i Disallow-linjen. Dette fortæller robotten at indeksere hele webstedet. Du kan også indtaste en mappesti her såsom "/privat", hvis der er en mappe, der ikke indekseres. Dette kan være meget nyttigt, hvis du stadig tester en del af din hjemmeside eller er en sektion er stadig under construction.Now, at du ved, hvad der skal gå ind i din robots.
txt-fil, er der flere almindelige fejl folk gør, når du opretter disse filer. Indtaste aldrig noter eller kommentarer i filen som disse elementer kan skabe forvirring for WebCrawler. Desuden bør det format altid være user-agent på den første linje, efterfulgt af Disallow (s). Du må ikke bytte om på rækkefølgen. En anden almindelig fejl, indebærer at bruge den forkerte sag. Hvis underkendt mappe er /privat, så sørg for din robots.txt-fil ikke mappelisten som /Privat. Det virker som et meget mindre problem, men det vil give problemer, hvis det gøres forkert. Endelig er der ingen Tillad kommando.
Du kan ikke fortælle WebCrawler hvad man skal kigge på, kun hvad man ikke skal kigge at.If du stadig er nysgerrig robots.txt fil, du kan finde mange flere komplekse eksempler