En el sitio:
http://www.dreamincode.net/forums/topic ... b-crawler/
Encontré el siguiente script:
Using perl Syntax Highlighting
- use LWP::UserAgent;
- use HTML::LinkExtor;
- my @urls = ('http://www.misitio.com.ar/index.html');
- my %visited; # The % sigil indicates it's a hash
- my $browser = LWP::UserAgent->new();
- $browser->timeout(5);
- while (@urls) {
- my $url = shift @urls;
- # Skip this URL and go on to the next one if we've
- # seen it before
- next if $visited{$url};
- my $request = HTTP::Request->new(GET => $url);
- my $response = $browser->request($request);
- # No real need to invoke printf if we're not doing
- # any formatting
- if ($response->is_error()) {print $response->status_line, "\n";}
- my $contents = $response->content();
- # Now that we've got the url's content, mark it as
- # visited
- $visited{$url} = 1;
- my ($page_parser) = HTML::LinkExtor->new(undef, $url);
- $page_parser->parse($contents)->eof;
- my @links = $page_parser->links;
- foreach my $link (@links) {
- print "$$link[2]\n";
- push @urls, $$link[2];
- }
- sleep 1;
- }
Coloreado en 0.003 segundos, usando GeSHi 1.0.8.4
Me anda muy bien, pero mi idea es que solamente muestre los link que tengan relación a mi sitio web (http://www.misitio.com.ar) y no a otros.
¿Alguien me puede ayudar?
Muchas Gracias.