1
  
2
  
3
  
4
  
5
  
6
  
7
  
8
  
9
  
10
  
11
  
12
  
13
  
14
  
15
  
16
  
17
  
18
  
19
  
20
  
21
  
22
  
23
  
24
  
25
  
26
  
27
  
28
  
29
  
30
  
31
  
32
  
33
  
34
  
35
  
36
  
37
  
38
  
39
  
40
  
41
  
42
  
43
  
44
  
45
  
46
  
47
  
48
  
49
  
50
  
51
  
52
  
53
  
54
  
55
  
56
  
57
  
58
  
59
  
60
  
61
  
62
  
63
  
64
  
65
  
66
  
67
  
68
  
69
  
70
  
71
  
72
  
73
  
74
  
75
  
76
  
77
  
78
  
79
  
80
  
81
  
82
  
83
  
84
  
85
  
86
  
87
  
88
  
89
  
90
  
91
  
92
  
93
  
94
  
95
  
96
  
97
  
98
  
99
  
100
  
101
  
102
  
103
  
104
  
105
  
106
  
107
  
108
  
109
  
110
  
111
  
112
  
// Roxen Whitefish main pike module 
// 
// Copyright © 2000, Roxen IS. 
 
#include "types.h" 
 
private mapping filters=([]); 
 
void create() 
{ 
  foreach(values(Search.Filter.Base), program filter) 
  { 
    Search.Filter.Base tmp=filter(); 
    foreach(tmp->contenttypes || ({ }), string mime) 
      filters[mime]=tmp; 
  } 
} 
 
Search.Filter.Base get_filter(string mime_type) 
{ 
  if(!filters[mime_type]) return 0; 
  return filters[mime_type]; 
} 
 
array(string) get_filter_mime_types() 
{ 
  return indices(filters); 
} 
 
array(mapping) splitter(array(string) text, array(int) context, 
                        function(string:string) post_normalization, 
                        function(mapping:int) ranking) 
{ 
  if(sizeof(text)!=sizeof(context)) 
    return 0; 
 
  array(mapping) result=({}); 
  for(int i=0; i<sizeof(text); i++) 
  { 
    array words=text[i]/" "; 
    int inc=0, oldinc; 
    foreach(words, string word) 
    { 
      oldinc=inc; 
      inc+=sizeof(word)+1; 
      word=post_normalization(word); 
      if(!sizeof(word)) continue; 
      mapping n_word=([ "word":word, 
                        "type":context[i], 
                        //                    "offset":offset[i]+oldinc, 
                        // This might be destroyed by pre_normalization 
      ]); 
      n_word->rank=ranking(n_word); 
      result+=({ n_word }); 
    } 
  } 
   
  return result; 
} 
 
 
// ---------- Anchor database ------------- 
 
class Anchor_database { 
 
  void add(string page, string href, string text) { 
  } 
 
  array(string) get_texts(string page) { 
    return ({}); 
  } 
 
} 
 
 
// --- Page Ranking Algorithms ------------ 
 
float entropy(array(string) page_words) { 
  mapping(string:int) words=([]); 
  foreach(page_words, string word) 
    words[word]=1; 
  return (float)sizeof(words)/(float)sizeof(page_words); 
} 
 
 
private constant rank_list = ([ 
  T_TITLE    : 1, 
  T_KEYWORDS : 2, 
  T_EXT_A    : 3, 
  T_H1       : 4, 
  T_H2       : 5, 
  T_H3       : 6, 
  T_DESC     : 7, 
  T_H4       : 8, 
  T_TH       : 9, 
  T_B        : 10, 
  T_I        : 11, 
  T_A        : 12, 
  T_NONE     : 13, 
  T_H5       : 14, 
  T_H6       : 15 ]); 
 
int rank(mapping word) 
{ 
  return rank_list[word->type]; 
} 
 
// A normal page has an entropy value around 0.5, so the result x should probably be 
// remapped to abs(x-0.5) or even 1-abs(x-0.5)