1
  
2
  
3
  
4
  
5
  
6
  
7
  
8
  
9
  
10
  
11
  
12
  
13
  
14
  
15
  
16
  
17
  
18
  
19
  
20
  
21
  
22
  
23
  
24
  
25
  
26
  
27
  
28
  
29
  
30
  
31
  
32
  
33
  
34
  
35
  
36
  
37
  
38
  
39
  
40
  
41
  
42
  
43
  
44
  
45
  
46
  
47
  
48
  
49
  
50
  
51
  
52
  
53
  
54
  
55
  
56
  
57
  
58
  
59
  
60
  
61
  
62
  
63
  
64
  
// This file is part of Roxen Search 
// Copyright © 2001 Roxen IS. All rights reserved. 
// 
// $Id: Indexer.pmod,v 1.15 2001/08/21 14:21:28 js Exp $ 
 
//! 
void index_document(Search.Database.Base db, 
                    string|Standards.URI uri, 
                    void|string language, 
                    mapping fields, 
                    mapping uri_anchors) 
{ 
  db->remove_document( uri, language ); 
 
  foreach(indices(fields), string field) 
  { 
    string f; 
    if( strlen(f = fields[field] ) ) 
    { 
      array words=Search.Utils.tokenize_and_normalize( f ); 
      db->insert_words(uri, language, field, words ); 
    } 
  } 
  // Tokenize any anchor fields 
    
//    int source_hash=hash((string)uri)&0xf; 
//    foreach(indices(uri_anchors|| ({ })), string link_uri) 
//    { 
//      array(string) words= 
//        Search.Utils.tokenize_and_normalize(uri_anchors[link_uri]); 
//      db->insert_words(link_uri, 0, "anchor", words, source_hash); 
//    } 
} 
 
 
//! 
array(Standards.URI) filter_and_extract_links(Search.Database.Base db, 
                                              string|Standards.URI uri, 
                                              void|string language, 
                                              string|Stdio.File data, 
                                              string content_type, 
                                              mapping headers, 
                                              string default_charset ) 
{ 
  Search.Filter.Base filter=Search.get_filter(content_type); 
  if(!filter) 
    throw("No indexer for content type "+content_type); 
 
  Search.Filter.Base.Output filteroutput= 
    filter->filter(uri, data, content_type, 
                   headers, default_charset); 
  index_document(db, uri, language, filteroutput->fields, filteroutput->uri_anchors); 
  return filteroutput->links; 
} 
 
//! 
void remove_document(Search.Database.Base db, 
                     string|Standards.URI uri, 
                     void|string language) 
{ 
  db->remove_document(uri, language); 
}