1
  
2
  
3
  
4
  
5
  
6
  
7
  
8
  
9
  
10
  
11
  
12
  
13
  
14
  
15
  
16
  
17
  
18
  
19
  
20
  
21
  
22
  
23
  
24
  
25
  
26
  
27
  
28
  
29
  
30
  
31
  
32
  
33
  
34
  
35
  
36
  
37
  
38
  
39
  
40
  
41
  
42
  
43
  
44
  
45
  
46
  
47
  
48
  
49
  
50
  
51
  
52
  
53
  
54
  
55
  
56
  
57
  
58
  
59
  
60
  
61
  
62
  
63
  
64
  
65
  
66
  
67
  
68
  
69
  
70
  
71
  
72
  
73
  
74
  
75
  
76
  
77
  
78
  
79
  
80
  
81
  
82
  
83
  
84
  
85
  
86
  
87
  
88
  
89
  
90
  
91
  
92
  
93
  
94
  
95
  
96
  
97
  
98
  
99
  
100
  
101
  
102
  
103
  
104
  
105
  
106
  
107
  
108
  
109
  
110
  
111
  
112
  
113
  
114
  
115
  
116
  
117
  
118
  
119
  
120
  
121
  
122
  
123
  
124
  
125
  
126
  
127
  
128
  
129
  
130
  
131
  
132
  
133
  
134
  
135
  
136
  
137
  
138
  
139
  
140
  
141
  
142
  
143
  
144
  
145
  
146
  
#pike __REAL_VERSION__ 
 
// Lexer for search queries 
 
public enum Token { 
  TOKEN_END = 0, 
 
  TOKEN_PLUS, 
  TOKEN_MINUS, 
  TOKEN_COLON, 
 
  TOKEN_EQUAL, 
  TOKEN_LESSEQUAL, 
  TOKEN_GREATEREQUAL, 
  TOKEN_NOTEQUAL,  // <> or != 
  TOKEN_LESS, 
  TOKEN_GREATER, 
 
  TOKEN_UNKNOWN, 
 
  TOKEN_LPAREN, 
  TOKEN_RPAREN, 
//  TOKEN_LBRACKET, 
//  TOKEN_RBRACKET, 
 
  TOKEN_TEXT,     // word or phrase 
 
  TOKEN_AND, 
  TOKEN_OR, 
} 
 
protected mapping(string : Token) keywords = ([ 
  //  "not" : TOKEN_NOT, 
  "and" : TOKEN_AND, 
  "or" : TOKEN_OR, 
]); 
 
// These characters cannot be part of a word, even if they are preceded by 
// word characters. 
protected multiset(int) specialChars = (< 
  ':', '(', ')', 
>); 
 
int isWhiteSpace(int ch) { return ch == '\t' || ch == ' '; } 
 
//!   Tokenizes a query into tokens for later use by a parser. 
//! @param query 
//!   The query to tokenize. 
//! @returns 
//!   An array containing the tokens: 
//!     @tt{ ({ ({ TOKEN_WORD, "foo" }), ... }) @} 
//!   Or, in case of an error, a string with the error message. 
public string|array(array(Token|string)) tokenize(string query) { 
  array(array(Token|string)) result = ({}); 
  int len = strlen(query); 
  query += "\0"; 
 
  int pos = 0; 
 
  for (;;) { 
    string x = query[pos .. pos]; 
#define EMIT(tok) EMIT2(tok,x) 
#define EMIT2(tok,str) result += ({ ({ tok, str, str }) }) 
    switch (x) { 
      case "\0": 
        EMIT(TOKEN_END); 
        return result; 
      case "\t": 
      case " ": 
        // whitespace ignored. 
        if (sizeof(result)) 
          result[-1][2] += x; 
        break; 
      case "\"": 
      case "\'": 
        string s; 
        int end = search(query, x, pos + 1); 
        if (end < 0) { 
          s = query[pos + 1 .. len - 1]; 
          pos = len - 1; 
        } 
        else { 
          s = query[pos + 1 .. end - 1]; 
          pos = end; 
        } 
        EMIT2(TOKEN_TEXT, s); 
        break; 
      case "+": EMIT(TOKEN_PLUS);       break; 
      case "-": EMIT(TOKEN_MINUS);      break; 
      case "=": EMIT(TOKEN_EQUAL);      break; 
      case "(": EMIT(TOKEN_LPAREN);     break; 
      case ")": EMIT(TOKEN_RPAREN);     break; 
      // case "[": EMIT(TOKEN_LBRACKET);   break; 
      // case "]": EMIT(TOKEN_RBRACKET);   break; 
      case ":": EMIT(TOKEN_COLON);      break; 
      case "<": 
        if (query[pos + 1] == '=') { 
          ++pos; 
          EMIT2(TOKEN_LESSEQUAL, "<="); 
        } 
        else if (query[pos + 1] == '>') { 
          ++pos; 
          EMIT2(TOKEN_NOTEQUAL, "<>"); 
        } 
        else 
          EMIT(TOKEN_LESS); 
        break; 
      case ">": 
        if (query[pos + 1] == '=') { 
          ++pos; 
          EMIT2(TOKEN_GREATEREQUAL, ">="); 
        } 
        else 
          EMIT(TOKEN_GREATER); 
        break; 
      case "!": 
        if (query[pos + 1] == '=') { 
          ++pos; 
          EMIT2(TOKEN_NOTEQUAL, "!="); 
        } 
        else 
          EMIT(TOKEN_UNKNOWN); 
        break; 
      default: 
        { 
        int i = pos + 1; 
        while (query[i] && !isWhiteSpace(query[i]) && !specialChars[query[i]]) 
          ++i; 
        string word = query[pos .. i - 1]; 
        string lword = Unicode.normalize(lower_case(word), "KD"); 
        if (keywords[lword]) 
          EMIT2(keywords[lword], word); 
        else 
          EMIT2(TOKEN_TEXT, word); 
        pos = i - 1; 
        } 
    } 
    ++pos; 
  } 
 
#undef EMIT 
#undef EMIT2 
 
}