1
  
2
  
3
  
4
  
5
  
6
  
7
  
8
  
9
  
10
  
11
  
12
  
13
  
14
  
15
  
16
  
17
  
18
  
19
  
20
  
21
  
22
  
23
  
24
  
25
  
26
  
27
  
28
  
29
  
30
  
31
  
32
  
33
  
34
  
35
  
36
  
37
  
38
  
39
  
40
  
41
  
42
  
43
  
44
  
45
  
46
  
47
  
48
  
49
  
50
  
51
  
52
  
53
  
54
  
55
  
56
  
57
  
58
  
59
  
60
  
61
  
62
  
63
  
64
  
65
  
66
  
67
  
68
  
69
  
70
  
71
  
72
  
73
  
74
  
75
  
76
  
77
  
78
  
79
  
80
  
81
  
82
  
83
  
84
  
85
  
86
  
87
  
88
  
89
  
90
  
91
  
92
  
93
  
94
  
95
  
96
  
97
  
98
  
99
  
100
  
101
  
102
  
103
  
104
  
105
  
106
  
107
  
108
  
109
  
110
  
111
  
112
  
113
  
114
  
115
  
116
  
117
  
118
  
119
  
120
  
121
  
122
  
123
  
124
  
125
  
126
  
127
  
128
  
129
  
130
  
131
  
132
  
133
  
134
  
135
  
136
  
137
  
138
  
139
  
// Roxen Whitefish main pike module 
// 
// Copyright © 2000, Roxen IS. 
 
#include "types.h" 
 
private mapping filters=([]); 
 
void create() 
{ 
  // Load filters 
  werror("Load filters\n"); 
  array tmp=__FILE__/"/"; 
  tmp=tmp[0..sizeof(tmp)-2]; 
  string path=tmp*"/"+"/filters/"; 
  //  catch { 
    array(string) f=get_dir( path ); 
    foreach(glob("*.pike",f), string file) { 
      //      mixed error = catch { 
        werror("Try with %s\n", path+file); 
        object l=(object)(path+file); 
        array(string) mimes = l->contenttypes; 
        foreach(mimes, string mime) 
          filters[mime]=l; 
        //      }; 
        //      if(error) werror("Failed to load filters/%s\n",file); 
    } 
    //  }; 
  if(!sizeof(filters)) 
    werror("No filters loaded\n"); 
  else 
    werror("Loaded %d filters\n", sizeof(filters)); 
} 
 
private constant rank_list = ([ 
  T_TITLE    : 1, 
  T_KEYWORDS : 2, 
  T_EXT_A    : 3, 
  T_H1       : 4, 
  T_H2       : 5, 
  T_H3       : 6, 
  T_DESC     : 7, 
  T_H4       : 8, 
  T_TH       : 9, 
  T_B        : 10, 
  T_I        : 11, 
  T_A        : 12, 
  T_NONE     : 13, 
  T_H5       : 14, 
  T_H6       : 15 ]); 
 
int rank(mapping word) 
{ 
  return rank_list[word->type]; 
} 
 
class Filter 
{ 
  void set_content(string); 
  array(array(string)) get_anchors(); 
  void add_content(string, int); 
  array(array) get_filtered_content(); 
  string get_title(); 
  string get_keywords(); 
  string get_description(); 
  // string normalization(string); 
} 
 
Filter get_filter(string mime_type) 
{ 
  if(!filters[mime_type]) return 0; 
  return filters[mime_type]->Filter(); 
} 
 
array(string) get_filter_mime_types() 
{ 
  return indices(filters); 
} 
 
array(mapping) splitter(array(string) text, array(int) context, 
                        function(string:string) post_normalization, 
                        function(mapping:int) ranking) 
{ 
  if(sizeof(text)!=sizeof(context)) 
    return 0; 
 
  array(mapping) result=({}); 
  for(int i=0; i<sizeof(text); i++) 
  { 
    array words=text[i]/" "; 
    int inc=0, oldinc; 
    foreach(words, string word) 
    { 
      oldinc=inc; 
      inc+=sizeof(word)+1; 
      word=post_normalization(word); 
      if(!sizeof(word)) continue; 
      mapping n_word=([ "word":word, 
                        "type":context[i], 
                        //                    "offset":offset[i]+oldinc, 
                        // This might be destroyed by pre_normalization 
      ]); 
      n_word->rank=ranking(n_word); 
      result+=({ n_word }); 
    } 
  } 
   
  return result; 
} 
 
 
// ---------- Anchor database ------------- 
 
class Anchor_database { 
 
  void add(string page, string href, string text) { 
  } 
 
  array(string) get_texts(string page) { 
    return ({}); 
  } 
 
} 
 
 
// --- Page Ranking Algorithms ------------ 
 
float entropy(array(string) page_words) { 
  mapping(string:int) words=([]); 
  foreach(page_words, string word) 
    words[word]=1; 
  return (float)sizeof(words)/(float)sizeof(page_words); 
} 
 
// A normal page has an entropy value around 0.5, so the result x should probably be 
// remapped to abs(x-0.5) or even 1-abs(x-0.5)