1
  
2
  
3
  
4
  
5
  
6
  
7
  
8
  
9
  
10
  
11
  
12
  
13
  
14
  
15
  
16
  
17
  
18
  
19
  
20
  
21
  
22
  
23
  
24
  
25
  
26
  
27
  
28
  
29
  
30
  
31
  
32
  
33
  
34
  
35
  
36
  
37
  
38
  
39
  
40
  
41
  
42
  
43
  
44
  
45
  
46
  
47
  
48
  
49
  
50
  
51
  
52
  
53
  
54
  
55
  
56
  
57
  
58
  
59
  
60
  
61
  
62
  
63
  
64
  
65
  
66
  
67
  
68
  
69
  
70
  
71
  
72
  
73
  
74
  
75
  
76
  
77
  
78
  
79
  
80
  
81
  
82
  
83
  
84
  
85
  
86
  
87
  
88
  
89
  
90
  
91
  
92
  
93
  
94
  
95
  
96
  
97
  
98
  
99
  
100
  
101
  
102
  
103
  
104
  
105
  
106
  
107
  
108
  
109
  
110
  
111
  
112
  
113
  
114
  
115
  
116
  
117
  
118
  
119
  
120
  
121
  
122
  
123
  
124
  
125
  
126
  
127
  
128
  
129
  
130
  
131
  
132
  
133
  
// Roxen Whitefish main pike module 
// 
// Copyright © 2000, Roxen IS. 
 
#include "types.h" 
 
class Document 
{ 
  string _sprintf() 
  { 
    return sprintf("Search.Document(\"http://%s\")", uri); 
  } 
  //! The placeholder for document metadata. 
  string uri; 
  string title; 
  string description; 
  int last_changed; 
  int size; 
  string content_type; 
} 
 
private mapping filters=([]); 
 
void create() 
{ 
//   werror("Loading filters\n"); 
  foreach(values(Search.Filter.Base), program filter) 
  { 
    Search.Filter.Base tmp=filter(); 
    foreach(tmp->contenttypes || ({ }), string mime) 
      filters[mime]=tmp; 
  } 
   
//   if(!sizeof(filters)) 
//     werror("No filters loaded\n"); 
//   else 
//     werror("Loaded %d filters\n", sizeof(filters)); 
} 
 
Search.Filter.Base get_filter(string mime_type) 
{ 
  if(!filters[mime_type]) return 0; 
  return filters[mime_type]; 
} 
 
array(string) get_filter_mime_types() 
{ 
  return indices(filters); 
} 
 
array(mapping) splitter(array(string) text, array(int) context, 
                        function(string:string) post_normalization, 
                        function(mapping:int) ranking) 
{ 
  if(sizeof(text)!=sizeof(context)) 
    return 0; 
 
  array(mapping) result=({}); 
  for(int i=0; i<sizeof(text); i++) 
  { 
    array words=text[i]/" "; 
    int inc=0, oldinc; 
    foreach(words, string word) 
    { 
      oldinc=inc; 
      inc+=sizeof(word)+1; 
      word=post_normalization(word); 
      if(!sizeof(word)) continue; 
      mapping n_word=([ "word":word, 
                        "type":context[i], 
                        //                    "offset":offset[i]+oldinc, 
                        // This might be destroyed by pre_normalization 
      ]); 
      n_word->rank=ranking(n_word); 
      result+=({ n_word }); 
    } 
  } 
   
  return result; 
} 
 
 
// ---------- Anchor database ------------- 
 
class Anchor_database { 
 
  void add(string page, string href, string text) { 
  } 
 
  array(string) get_texts(string page) { 
    return ({}); 
  } 
 
} 
 
 
// --- Page Ranking Algorithms ------------ 
 
float entropy(array(string) page_words) { 
  mapping(string:int) words=([]); 
  foreach(page_words, string word) 
    words[word]=1; 
  return (float)sizeof(words)/(float)sizeof(page_words); 
} 
 
 
private constant rank_list = ([ 
  T_TITLE    : 1, 
  T_KEYWORDS : 2, 
  T_EXT_A    : 3, 
  T_H1       : 4, 
  T_H2       : 5, 
  T_H3       : 6, 
  T_DESC     : 7, 
  T_H4       : 8, 
  T_TH       : 9, 
  T_B        : 10, 
  T_I        : 11, 
  T_A        : 12, 
  T_NONE     : 13, 
  T_H5       : 14, 
  T_H6       : 15 ]); 
 
int rank(mapping word) 
{ 
  return rank_list[word->type]; 
} 
 
// A normal page has an entropy value around 0.5, so the result x should probably be 
// remapped to abs(x-0.5) or even 1-abs(x-0.5)