En web crawler er en forholdsvis simpel automatiseret program eller script, der metodisk skanner eller “crawler” gennem internetsiderne for at oprette et indeks af de data, den leder efter, disse programmer er som regel lavet til at blive brugt én gang, men de kan programmeres til langsigtet anvendelse også. Der er flere anvendelsesmuligheder for programmet, måske den mest populære er at søgemaskiner såsom google, bruger den til at levere relevante hjemmesider udfra brugerens søgninger. Andre benytter alternative navne i stedet for web crawler som, Web spider, web robot, bot ,crawler and automatiske indeexer. Crawler programmer kan købes hos flere forskellige software firmaer og kan bruges på stort set alle computer systemer nu til dags.
Fælles anvendelser
Der er forskellige anvendelser for webcrawlere, men det væsentlige fra en web crawler kan anvendes af enhver, der ønsker at indsamle oplysninger ud på internettet. Søgemaskiner bruger ofte webcrawlere til at indsamle oplysninger om, hvad der er tilgængeligt på offentlige hjemmesider. Deres primære formål er at indsamle data, så når internetsurfere indtaster et søgeord på deres hjemmeside, kan de hurtigt give surferen relevante websteder.
Webcrawling er en vigtig metode til indsamling af data på internettet, og sørger for at finde nye hjemmeside samt nyt og opdateret indhold, hvilket er et stort behov på det hurtig voksende Internet. Der bliver aktiveret et stort antal websider hver dag, og information på internet ændre sig konstant. En web crawler er en måde for søgemaskiner og andre brugere til regelmæssigt at sikre, at deres databaser er up-to-date. Der er mange ulovlige anvendelser af webcrawlere såsom at hacke en server for mere information, end der er fri givet.
Sådan fungerer det
Når en søgemaskine web crawler besøger en webside, “læser” den synlige tekst, hyperlinks, og indholdet af de forskellige tags, der anvendes i stedet, såsom søgeord rige meta-tags. Brugen af de indsamlede oplysninger fra webcrawleren, bliver derefter tjekket af søgemaskinen som afgører, hvad webstedet handler om, og indeksere information. Hjemmesiden er derefter inkluderet i søgemaskinens database.