Webmastere har lært at forbyde web skrabere adgang til deres hjemmesider ved hjælp af værktøjer eller metoder, der blokerer visse IP-adresser fra at hente hjemmeside indhold. Data skrabere står tilbage med valget mellem at enten målrette en anden hjemmeside, eller for at flytte høst script fra computer til computer ved hjælp af en anden IP-adresse hver gang og udtrække så mange data som muligt, indtil alle skraberen computere til sidst blocked.Thankfully der er en moderne løsning på dette problem. Indirekte data Skrabning teknologien løser problemet ved at bruge proxy IP-adresser.
Hver gang dine data skrabning program udfører en ekstraktion fra en hjemmeside, hjemmesiden mener det kommer fra en anden IP-adresse. Til hjemmesiden ejer, indirekte data skrabning blot ligner en kort periode med øget trafik fra hele verden. De har meget begrænsede og kedelige måder at blokere sådan et script men endnu vigtigere - det meste af tiden, de simpelthen ikke vil vide, at de er ved at blive scraped.The indlysende næste spørgsmål er: "Hvor kan jeg få Proxy data Skrabning Teknologi til min projekt?" Den "gør-det-selv" løsning er, snarere desværre ikke enkel.
Opsætning af en proxy data skrabning netværk tager en masse tid og kræver, at du enten ejer en masse IP-adresser og passende servere, der skal bruges som fuldmagter, ikke at nævne den it-guru, du har brug for at få alt konfigureret korrekt. Du kan prøve at leje proxyservere fra udvalgte hosting-udbydere, men denne mulighed har en tendens til at være ganske dyr, men bedre end alternativet: farlige og upålidelige (men gratis) offentlig proxy servers.There er bogstaveligt talt tusindvis af gratis proxy-servere placeret rundt omkring i verden, der er enkel nok til at bruge.
Det trick er dog at finde dem. Mange steder liste hundredvis af servere, men lokalisere en, der fungerer, åben, og understøtter den type protokoller, du har brug kan være en lektion i vedholdenhed, forsøg og fejl. Men hvi