source: golgotha/src/test/web_crawl/default.scm @ 80

Last change on this file since 80 was 80, checked in by Sam Hocevar, 11 years ago
  • Adding the Golgotha source code. Not sure what's going to be interesting in there, but since it's all public domain, there's certainly stuff to pick up.
File size: 3.5 KB
Line 
1; make sure this directory exsist!
2(setf save_path "/fart/d/jc/")
3
4; pages to start traversing from
5(add_page "http://personal.nbnet.nb.ca/jkeller/MP3.HTM")
6(add_page "http://www.geocities.com/Area51/Vault/8821/mp3.html")
7(add_page "http://personal.nbnet.nb.ca/jkeller/MP3.HTM")
8(add_page "http://hem2.passagen.se/lethagen/Prodigy/")
9(add_page "http://thebigsite.com/index.html")
10(add_page "http://www.wgn.net/~eburrow/mp3.html")
11
12; add thread takes x & y offset for window position
13(add_thread 0   20)  (add_thread 320   20) 
14(add_thread 0   70)  (add_thread 320   70)
15(add_thread 0  120)  (add_thread 320  120)
16(add_thread 0  170)  (add_thread 320  170)
17(add_thread 0  220)  (add_thread 320  220)
18(add_thread 0  270)  (add_thread 320  270)
19(add_thread 0  320)  (add_thread 320  320)
20(add_thread 0  370)  (add_thread 320  370)
21(add_thread 0  420)
22
23
24(setf process_extensions  '(".html" ".htm"))
25(setf save_extensions     '(".mp3"))
26
27(setf include_sub_strings '(
28                            (".html")    ; follow any html page
29                            (".htm")   
30                            (".com")   
31                            (".net")   
32                            (".edu")   
33                            (".htm")   
34                            (".mp3" 
35                             "rem."
36                             "weezer"
37                             "ADAM_SANDLER" "adamsandler"
38                             "u2"
39                             "willsmith"  "will_smith"
40                             "offspring"
41                             "sarah_mclachlan" "sarahmclachlan"
42                             "No_Doubt" "nodoubt"
43                             "Notorious"  "puffdaddy"
44                             "james_bond" "jamesbond"
45                             "mariah_carey" "Mariahcarey"
46                             "matchbox20"
47                             "pinkfloyd"
48                             "aerosmith"
49
50                             "batman" "movie"  "jurpark" "indianajones" "indiana_jones"
51
52                             "Robert_Miles"
53                             "No_Doubt"
54                             "depeche"
55                             "queen"
56                             "simpsons"
57                             "simon"
58                             
59                             "CHUMBAWAMBA"
60                             "SirenPossession"
61                             "Spice"
62                             "Karma Police"  "karampolice"
63                             "prodigy"
64                             )))
65
66                           
67
68; don't process any page/file that has these sub strings
69(setf exclude_sub_strings '("toriamos"     ; enough already!
70                            "jacky1"       ; this guy has crap
71                            "mailto"
72                            ))
73
74; don't save files smaller than this  (700k)
75(setf save_min_size 700000)
76
77; load up our history of previously saved files
78(load "saved_files.scm")
79
80; load up history of visited urls
81(load "visited_urls.scm")
82
83
84; timeout depends on how much data we have already, if we we a lot then
85; give a little longer to respond so we have less chance of wasting time
86
87(setf timeouts '((100000000 1000)    ;
88                 (1000000  500) 
89                 (500000   360)                     
90                 (200000   120)
91                 (100000    60)
92                 (50000     45)     
93                 (10000     30)    ; if we have 10K give them 30 seconds to respond
94                 )) 
Note: See TracBrowser for help on using the repository browser.