2000 - Αυτόματη Αναγνώριση ονοματικών οντοτήτων για Εξαγωγή και Ανάκτηση Πληροφοριών

"Αυτόματη Αναγνώριση ονοματικών οντοτήτων για Εξαγωγή και Ανάκτηση Πληροφοριών"
Π. Αρβανίτης - κ.ά (ομαδική εισήγηση), 2000.
Πρακτικά της 21ης Ετήσιας Συνάντησης Εργασίας του Τομέα Γλωσσολογίας του Τμήματος Φιλολογίας του Α.Π.Θ., σελ. 131-143,
Θεσσαλονίκη 2000.

Αντικείμενο της εργασίας αυτής είναι η περιγραφή ενός υπό ανάπτυξη Συστήματος Αναγνώρισης ονοματικών οντοτήτων από Η/Υ, σε ελεύθερο κείμενο. Το σύστημα αναπτύχθηκε στο πλαίσιο του Έργου "ΠΕΝΕΔ99-ΟΙΚΟΝΟΜΙΑ" και προορίζεται να ενσωματωθεί σε συστήματα εξαγωγής και ανάκτησης πληροφοριών (Information Extraction and Retrieval Systems). Το Έργο αφορά στην αναγνώριση και κατηγοριοποίηση Ονοματικών Οντοτήτων (πρόσωπα, οργανισμοί, τοπωνύμια, χρονικές εκφράσεις, αριθμητικές εκφράσεις) σύμφωνα με τις προδιαγραφές των Διεθνών συνεδρίων αξιολόγησης των Συστημάτων Εξαγωγής Πληροφοριών (Message Understanding Conferences – MUC), προσαρμοσμένων όμως στα ελληνικά δεδομένα.

Το υπό ανάπτυξη σύστημα αναγνώρισης δέχεται κατά το πρώτο στάδιο, στην είσοδό του, κείμενο το οποίο έχει περάσει από τα στάδια αναγνώρισης επιφανειακών δομών (προτάσεις, λέξεις, συντμήσεις, κ.λπ.) γραμματικού χαρακτηρισμού. Στη συνέχεια οι ονοματικές οντότητες αναγνωρίζονται με την βοήθεια λιστών γνωστών ονομάτων και μεθόδων αναγνώρισης άγνωστων λέξεων. Στο δεύτερο στάδιο το μερικώς χαρακτηρισμένο κείμενο διοχετεύεται σε μια αλληλουχία από κανόνες-πρότυπα, ενώ στο τρίτο και τελευταίο στάδιο, πραγματοποιείται η τελική αναγνώριση και κατηγοριοποίηση ΟΟ με χρήση μιας γραμματικής προτύπων (pattern grammar) που βασίζεται σε τεχνικές πεπερασμένων καταστάσεων. Σ’ αυτό οι κανόνες μεταφράζονται σε πεπερασμένα αυτόματα με γνωστές τεχνικές ανάλυσης. Μια τελική μνήμη αναφορών χρησιμεύει για την αποθήκευση των γνωστών μέχρι κάθε στιγμή εναλλακτικών διατυπώσεων κάθε ονοματικής οντότητας. Για την ανάπτυξη του εργαλείου (κατάρτιση λιστών, εξαγωγή γραμματικών κανόνων) χρησιμοποιήθηκε ένα σώμα 120.000 περίπου λέξεων, ενώ ένα σώμα κειμένων 30.000 λέξεων χρησιμοποιήθηκε για την αρχική αξιολόγησή του. Για την παρούσα εργασία, απαιτήθηκε ο σχεδιασμός και η υλοποίηση μιας πρωτότυπης Βάσης Δεδομένων για την συγκέντρωση και καταγραφή του σώματος κειμένων (σώμα 120.000 περίπου λέξεων) που ανέλαβε ο γράφων.

--------------------
"Automatic recognition of name entities for information extraction and retrieval" (in collaboration).
In Proceedings of 21th Symposium on Applied Linguistics organised by the Department Of Philology and Linguistics, Aristotle University of Thessaloniki, pp. 131-143,
Thessaloniki 2000.

020Get the full paper here - Aristotle University of Thessaloniki-Digital repository

© 2020 Παναγιώτης Αρβανίτης - Panagiotis Arvanitis

Search