Project

General

Profile

Topic Definitions » History » Version 1

Prokopis Prokopidis, 2016-12-06 12:22 PM

1 1 Prokopis Prokopidis
# Topic Definitions
2 1 Prokopis Prokopidis
3 1 Prokopis Prokopidis
A topic definition in the context of ILSP-FC is a list of terms that "define" a topic. This list is provided at runtime in a text file where each line contains a term with the following fields:
4 1 Prokopis Prokopidis
5 1 Prokopis Prokopidis
* weight (an integer, see below) for the term
6 1 Prokopis Prokopidis
* a `:` separator
7 1 Prokopis Prokopidis
* a (multi-word) term to be searched in a web document fetched by the crawler (in its main, non-boilerplate content, but also in its title and keywords)
8 1 Prokopis Prokopidis
* a `=` separator
9 1 Prokopis Prokopidis
* a string for one or more topics that the term corresponds to, separated by ";"
10 1 Prokopis Prokopidis
11 1 Prokopis Prokopidis
If the targetted languages are more than 1, i.e. if you run a multilingual crawl, the following fields are also needed
12 1 Prokopis Prokopidis
- a ">" separator
13 1 Prokopis Prokopidis
- a 2-digit iso language code for the language of the term
14 1 Prokopis Prokopidis
15 1 Prokopis Prokopidis
This list is an external resource that must be created before running the crawl. 
16 1 Prokopis Prokopidis
17 1 Prokopis Prokopidis
One way to create it is to search for an available term list and manually modify it according to the format above. Suppose for example that a user needs to search for the topic "vaccines". Relevant lists can be downloaded from https://www.vaccines.gov/more_info/glossary/index.html, http://www.cdc.gov/vaccines/terms/glossary.html and/or http://www.lexicon.com.gr/el/main.php. 
18 1 Prokopis Prokopidis
19 1 Prokopis Prokopidis
Προφανώς είναι δύσκολο να ορίσεις κάποιος τα "κατάλληλα" βάρη και συνήθως βάζουμε το ίδιο  βάρος σε όλους τους όρους (100). Απλά με ένα γρήγορο πέρασμα, βρίσκουμε κάποιους κοινούς όρους και αλλάζουμε το βάρος τους σε κάτι μικρό π.χ. 20.
20 1 Prokopis Prokopidis
21 1 Prokopis Prokopidis
Ένα απόσπασμα για τις υποκατηγορίες  της κατηγορίας "περιβάλλον" όταν η γλώσσα στόχος είναι μόνο 1 π.χ. "el"
22 1 Prokopis Prokopidis
70:"πράσινο" σήμα=περιβάλλον
23 1 Prokopis Prokopidis
70:άγρια ζώα=περιβάλλον
24 1 Prokopis Prokopidis
100:άγρια φυτά και ζώα=περιβάλλον
25 1 Prokopis Prokopidis
70:άγριο θηλαστικό=περιβάλλον
26 1 Prokopis Prokopidis
50:αγροτική καταστροφή=περιβάλλον
27 1 Prokopis Prokopidis
50:άδεια για κυνήγι=περιβάλλον
28 1 Prokopis Prokopidis
50:άδεια θήρας=περιβάλλον
29 1 Prokopis Prokopidis
50:άδεια κυνηγίου=περιβάλλον
30 1 Prokopis Prokopidis
50:άδεια μπαταρία=περιβάλλον
31 1 Prokopis Prokopidis
100:άδεια ρύπανσης=περιβάλλον
32 1 Prokopis Prokopidis
25:αειφόρος ανάπτυξη=περιβάλλον
33 1 Prokopis Prokopidis
25:αέρια εξάτμισης αυτοκινήτων=περιβάλλον
34 1 Prokopis Prokopidis
100:αέριο που προκαλεί το φαινόμενο του θερμοκηπίου=περιβάλλον
35 1 Prokopis Prokopidis
100:αέριο που φθείρει το στρώμα του όζοντος=περιβάλλον
36 1 Prokopis Prokopidis
37 1 Prokopis Prokopidis
Η κατηγοριοποίηση δουλεύει ως εξής:
38 1 Prokopis Prokopidis
- το topic definition περνάει από ένα analyzer της γλώσσας στόχου και "κρατιέται" ως ακολούθως:
39 1 Prokopis Prokopidis
70     πρασιν σημ    περιβάλλον    ell    "πράσινο" σήμα
40 1 Prokopis Prokopidis
70     αγρ ζωα       περιβάλλον    ell    άγρια ζώα
41 1 Prokopis Prokopidis
100    αγρ φυτ ζωα   περιβάλλον    ell    άγρια φυτά και ζώα
42 1 Prokopis Prokopidis
70     αγρι θηλαστ   περιβάλλον    ell    άγριο θηλαστικό
43 1 Prokopis Prokopidis
50     αγροτικ καταστροφ    περιβάλλον    ell    αγροτική καταστροφή
44 1 Prokopis Prokopidis
50     αδει θηρ      περιβάλλον    ell    άδεια θήρας
45 1 Prokopis Prokopidis
50     αδει κυνηγ    περιβάλλον    ell    άδεια για κυνήγι
46 1 Prokopis Prokopidis
50     αδει μπαταρ   περιβάλλον    ell    άδεια μπαταρία
47 1 Prokopis Prokopidis
100    αδει ρυπανσ   περιβάλλον    ell    άδεια ρύπανσης
48 1 Prokopis Prokopidis
25     αειφορ αναπτυξ       περιβάλλον    ell    αειφόρος ανάπτυξη
49 1 Prokopis Prokopidis
25     αερ εξατμισ αυτοκινητ      περιβάλλον    ell    αέρια εξάτμισης αυτοκινήτων
50 1 Prokopis Prokopidis
100    αερι προκαλ φαινομεν θερμοκηπ     περιβάλλον    ell    αέριο που προκαλεί το φαινόμενο του θερμοκηπίου
51 1 Prokopis Prokopidis
100    αερι φθειρ στρωμ οζοντ     περιβάλλον    ell    αέριο που φθείρει το στρώμα του όζοντος
52 1 Prokopis Prokopidis
53 1 Prokopis Prokopidis
-Tο main content κάθε webpage που έχει περάσει από language identifier και έχει βρεθεί "in a targeted language", υφίσταται την ίδια επεξεργασία  και προκύπτει το normalized main content
54 1 Prokopis Prokopidis
55 1 Prokopis Prokopidis
-Το normalized main content συγκρίνεται με τους normalized όρους και υπολογίζεται το score 
56 1 Prokopis Prokopidis
(δες section 3.5 Text Classifier in http://aclweb.org/anthology/W/W13/W13-2506.pdf)
57 1 Prokopis Prokopidis
58 1 Prokopis Prokopidis
59 1 Prokopis Prokopidis
Tα κατώφλια που απαιτούνται, ορίζονται στο configuration file  
60 1 Prokopis Prokopidis
61 1 Prokopis Prokopidis
       <classifier>
62 1 Prokopis Prokopidis
              <min_content_terms>
63 1 Prokopis Prokopidis
                     <value>4</value>
64 1 Prokopis Prokopidis
                     <description>Minimum number of terms that must exist in clean
65 1 Prokopis Prokopidis
                           content of each web page in order to be stored.This number
66 1 Prokopis Prokopidis
                           is multiplied with the median value of the terms'weights and
67 1 Prokopis Prokopidis
                           the result is the threshold for the absolute relevance score.</description>
68 1 Prokopis Prokopidis
              </min_content_terms>
69 1 Prokopis Prokopidis
              <min_unique_content_terms>
70 1 Prokopis Prokopidis
                     <value>4</value>
71 1 Prokopis Prokopidis
                     <description>Minimum unique terms that must exist in clean content</description>
72 1 Prokopis Prokopidis
              </min_unique_content_terms>
73 1 Prokopis Prokopidis
              <relative_relevance_threshold>
74 1 Prokopis Prokopidis
                     <value>0.2</value>
75 1 Prokopis Prokopidis
                     <description>The absolute relevance score is divided by the length
76 1 Prokopis Prokopidis
                     (in terms of tokens) of the clean content of a document and the
77 1 Prokopis Prokopidis
                     calculated relative relevance score is compared with this value</description>
78 1 Prokopis Prokopidis
              </relative_relevance_threshold>
79 1 Prokopis Prokopidis
              
80 1 Prokopis Prokopidis
       </classifier>