-
01-08-2010, 17:35 #1Approved 9-lifer
- Registered
- 03/03/08
- Location
- 3000
- Posts
- 510
- iTrader
- 0
- Mentioned
- 0 Post(s)
- Reputation
- 0/14
Google zoekresultaten - crawler voor indexatie woorden
Goedemiddag allemaal,
ik vroeg mij af of het simpel is om een Google search result crawler te schrijven, en of iemand een paar relevante (Perl/Java, Perl lijkt me handiger) tutorials weet.
Het volgende is dus de bedoeling:
(Perl)scriptje waar ge uw keywords om te zoeken ingeeft, alsook de 'woorden' die je zoekt. Als je deze 'woorden' tegenkomt op de gecrawlde website, wordt deze geïndexeerd.
Voorbeeld:
keywords: karnavalswinkel + contact
'woorden': info@ , contact@, @[domeinnaam]
gevormde array: (output)
info@lollers.be
info@kleding.be
contact@wegspullen.be
geerts@karnavalswinkelaalst.be
Alvast bedankt!...no votes
-
-
04-08-2010, 13:23 #2Approved 9-lifer
- Registered
- 03/03/08
- Location
- 3000
- Posts
- 510
- iTrader
- 0
- Mentioned
- 0 Post(s)
- Reputation
- 0/14
Precies advanced shit?
...no votes
-
04-08-2010, 13:31 #3Approved 9-lifer
- Registered
- 27/08/04
- Location
- Leuven
- Posts
- 930
- iTrader
- 0
- Mentioned
- 0 Post(s)
- Reputation
- 11/38
Hier is wat lichte lectuur
Information retrieval - Wikipedia, the free encyclopedia
no votes
-
04-08-2010, 17:35 #4Approved 9liver
- Registered
- 18/01/04
- Location
- Melle
- Posts
- 10,535
- iTrader
- 56 (100%)
- Mentioned
- 0 Post(s)
- Reputation
- 27/102
Kan je het eens wat specifieker uitleggen? Voor zover ik begrijp moet je gewoon de google pagina opvragen ( http://www.google.be/#hl=nl&q=de+zoekwoorden ) met de juiste parameters voor je zoekterm. Hiervoor zal je genoeg tutorials vinden. Daarna moet je enkel nog zoeken in de verkregen data waarbij je 1 van de vele reguliere expressie technieken van perl kan gebruiken.
“In terms of how we evaluate schooling, everything is about working by yourself. If you work with someone else, it’s called cheating. Once you get out in the real world, everything you do involves working with other people.”
PSN: Cycloon - Final Fantasy XIV: A realm reborn characterno votes
-
05-08-2010, 12:44 #5Member
- Registered
- 06/04/06
- Location
- BXL
- Posts
- 4,415
- iTrader
- 1 (100%)
- Mentioned
- 0 Post(s)
- Reputation
- 2/40
Ik begrijp het zoals Cycloon, maar toch één raad als je html-resultaten zou willen parsen: blijf weg van reguliere expressies en ga meteen voor een goeie, fout-tolerante xml- of html-parser. Voor Java kan ik je niet helpen, maar voor Perl moet je maar eens rond kijken op CPAN.
I caught a glimpse and now it haunts me.no votes
