Η Τεχνητη Νοημοσυνη στην υπηρεσια της μεταγραφης χειρογραφων

Το ΔΠΘ μέσω του έργου μDOC.tS ξεκλειδώνει τη γνώση χιλιάδων ιστορικών χειρόγραφων κειμένων

Ιωάννης Πρατικάκης, Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών 

«Τα χειρόγραφα εμπεριέχουν πολλές προκλήσεις, τόσο λόγω της ποικιλομορφίας τους, όσο και της παλαιότητάς τους»

Από την αρχαιότητα αλλά και μέχρι τις μέρες μας, έχει παραχθεί ένας τεράστιος όγκος χειρόγραφων κειμένων, σε παπύρους, περγαμηνές ή χαρτί. Όλος αυτός αποτελεί ένα θησαυρό για τους μελετητές, που κρύβει όμως μέσα του πολλά μυστικά, που χρειάζεται σημαντική έρευνα και προσπάθεια για να εντοπίσουν. Μέχρι σήμερα έχουν γίνει αρκετές προσπάθειες ψηφιοποίησης και ηλεκτρονικής πρόσβασης στο περιεχόμενο των συλλογών αυτών, αλλά καμία δεν έχει οδηγηθεί με ικανοποιητικό τρόπο σε πλήρη ψηφιακή μεταγραφή, ώστε να μετατρέπει αυτόματα ψηφιακές εικόνες ιστορικών χειρόγραφων σε απλό ηλεκτρονικό κείμενο. Για αυτό το λόγο, μεγάλος αριθμός ιστορικών χειρόγραφων κειμένων δεν μπορεί να μελετηθεί εύκολα και παραμένει ανεκμετάλλευτος.

Αυτό το πρόβλημα φιλοδοξεί να λύσει το Δημοκρίτειο Πανεπιστήμιο Θράκης, με την συνεργασία του Ερευνητικού Κέντρου Αθηνά, και των εταιρειών Omega Technology και Prisma Electronics ABEE, που υλοποιούν το έργο μDOC.tS, το οποίο πρόσφατα παρουσιάστηκε και στο περίπτερο του Πανεπιστημίου στην έκθεση Beyond 4.0. Μέσω του έργου αναπτύσσεται μια καινοτόμα αλλά και οικονομικά αποδοτική λύση για να βοηθήσει τόσο ειδικούς μελετητές αλλά και αρχεία, βιβλιοθήκες, μουσεία, κ.τ.λ. στην πλήρη μεταγραφή των ιστορικών χειρόγραφων.

Το Εργαλείο δημιουργίας Ground truth

Ποιοι είναι οι στόχοι του έργου

Οι τεχνολογίες που θα προκύψουν θα ενσωματωθούν σε ένα σύνολο εργαλείων τα οποία θα υλοποιηθούν σε μια εξειδικευμένη πλατφόρμα υποβοήθησης μεταγραφής χειρογράφων, σημειώνει ο Καθηγητής του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών  κ. Ιωάννης Πρατικάκης.

Το έργο, τόνισε, στοχεύει στην αυτόματη εξαγωγή κειμένου από ψηφιοποιημένα ιστορικά χειρόγραφα μέσω μίας μηχανής μεταγραφής χρησιμοποιώντας Τεχνητή Νοημοσύνη.

Για να γίνει αυτό, έχουν δημιουργήσει μια σειρά από εργαλεία βελτίωσης της ποιότητας όπως αφαίρεση θορύβου, δυαδικοποίηση και ανάδειξη περιοχών κειμένου στα ψηφιοποιημένα ιστορικά χειρόγραφα κείμενα.

Στην τελική του μορφή, ο χρήστης θα μπορεί να πραγματοποιεί αναζήτηση λέξεων-κλειδιών απευθείας στα ψηφιοποιημένα έγγραφα των ιστορικών συλλογών χρησιμοποιώντας σύγχρονες τεχνικές εντοπισμού λέξεων.

Επίσης θα υπάρχει δυνατότητα διαχείρισης των ψηφιοποιημένων χειρόγραφων με φιλικό, έξυπνο και αποδοτικό τρόπο προς τον χρήστη παρέχοντας περιβάλλον αυτόματης επεξεργασίας, μεταγραφής και διαχείρισης των δεδομένων.

Αντλώντας την πληροφορία από τα χειρόγραφα

Η επεξεργασία, ανάλυση και αναγνώριση εγγράφων δεν είναι νέα για το Πανεπιστήμιο, μιας και ασχολούνται με αυτή, σύμφωνα με τον κ. Πρατικάκη, εδώ και περίπου 15 χρόνια, τόσο στο τυπωμένο κείμενο όσο και τα χειρόγραφα. Τα χειρόγραφα όμως εμπεριέχουν πολλές προκλήσεις, τόσο λόγω της ποικιλομορφίας τους, όσο και της μειωμένης ποιότητάς τους, ιδιαίτερα των παλιότερων, και αυτό «αποτελεί ένα επιπλέον κίνητρο για να διερευνούμε και να αντλούμε χρηματοδότηση για να εξελίσσουμε την έρευνά μας» επισήμανε.

Για να αντιμετωπίσουν αυτές τις δυσκολίες, δημιουργούν αλγόριθμους με σκοπό να λύσουν αυτές τις προκλήσεις, ξεκινώντας από τον «καθαρισμό» των εγγράφων. Και αυτό γιατί η «ανάγνωση» του κειμένου από το πρόγραμμα, ξεκινά από την εικόνα που έχει προκύψει από την ψηφιοποίηση. Το πρόβλημα με την εικόνα, σημείωσε ο Καθηγητής είναι ότι δεν μπορεί να γίνει αναζήτηση στο κείμενό της για μια λέξη κλειδί που θέλουμε, χωρίς να γίνει πρώτα επεξεργασία της. Εκεί έρχεται να βοηθήσει το μDOC.tS, για να συσχετίσει την εικόνα με το κείμενο που περιέχει, κάνοντάς το επεξεργάσιμο.

Όταν γίνει αυτό, μπορούν οι συλλογές των χειρόγραφων να εμπλουτίσουν μια βάση δεδομένων, προκειμένου να μπορέσει κάποιος να αντλεί πληροφορία που είναι πλέον διαχειρίσιμη. Για την αναζήτηση αυτής της πληροφορίας έχει δημιουργηθεί, μέσω του έργου , και μια εξειδικευμένη εφαρμογή αναζήτησης λέξεων-κλειδιών, φιλική προς τον χρήστη. Μάλιστα η εφαρμογή αυτή δίνει τη δυνατότητα να επιλέξει μια λέξη από μια εικόνα χειρογράφου, που δεν υπάρχει σε μορφή κειμένου, μια «εικόνα ερώτημα» και να αναζητήσει παρόμοιες λέξεις σε μια συλλογή χιλιάδων εγγράφων που έχουν ψηφιοποιηθεί σε εικόνα. Με αυτό τον τρόπο ο μελετητής μπορεί να πάει κατευθείαν στις σελίδες που αφορούν την συγκεκριμένη ερώτηση.

Χειρόγραφα από το Βρετανικό Μουσείο και το Άγιο Όρος

Για να δημιουργήσουν τη βάση δεδομένων τους, χρησιμοποίησαν, σύμφωνα με τον κ. Πρατικάκη, χειρόγραφα από την βιβλιοθήκη του Βρετανικού Μουσείου, και από ψηφιοποιημένα χειρόγραφα από την Ιερά Μονή Σταυρονικήτα του Αγίου Όρους. Και αυτό γιατί το αντικείμενο που προσπαθούσαν να θεραπεύσουν, αφορούσε εγγραφές από τον 9ο μέχρι τον 17ο αιώνα, μια μεγάλη πρόκληση, στις οποίες υπάρχουν πολλές ιδιομορφίες. Το υλικό λοιπόν από τις δύο αυτές πηγές ήταν το πιο κατάλληλο για να αντιμετωπίσουν όλες αυτές τις προκλήσεις που επιθυμούσαν μέσα στο έργο.

Η πλατφόρμα μεταγραφής Ιστορικών Χειρογράφων

Συγκεκριμένη μέθοδος «μάθησης»

Η τεχνολογία αυτή βασίζεται στην Τεχνητή Νοημοσύνη, που σημαίνει πως πρέπει πρώτα η εφαρμογή να «μάθει» από υφιστάμενα χειρόγραφα που έχουν ψηφιοποιηθεί. Αυτό γίνεται μέσα την δημιουργία μιας Βάσης Αληθείας, που έχει τόσο την εικόνα, όσο και το ακριβές αποτέλεσμα της, που προκύπτει από εργαλεία που έχουν δημιουργήσει.

Αυτή ακριβώς η διαδικασία, τους επιτρέπει να προσαρμόσουν το σύστημα σε οποιαδήποτε μορφή γραφής, και το σύστημα μπορεί, με συγκεκριμένη διαδικασία, να «εκπαιδευτεί» ώστε να τη διαβάσει.

Όσο για τα αποτελέσματα από την μέχρι τώρα εφαρμογή, τους δίνουν σφάλμα, σε επίπεδο του 5%, και αισιοδοξούν πως τα αποτελέσματα του έργου, αυτού, θα γίνουν ακόμα πιο ελκυστικά και σε άλλες εφαρμογές.

Άλλωστε, ενώ έδωσαν το βάρος στην ανάλυση ιστορικών χειρόγραφων, τα οποία πολλές φορές έχουν και θέματα υποβάθμισης του εγγράφου, η αντίστοιχη εφαρμογή, επειδή προσαρμόζεται, μπορεί να χρησιμοποιηθεί και σε μοντέρνα χειρόγραφα.

Οι ιδιαιτερότητες που πρέπει να αντιμετωπίσουν στην μεταγραφή χειρόγραφων

Σημαντικό το ενδιαφέρον για το έργο

Ενδιαφέρον για το συγκεκριμένο έργο, και το τελικό προϊόν που θα παραχθεί από αυτό, υπάρχει από αρκετές πλευρές. Άλλωστε αποδέκτες του είναι τόσο πανεπιστημιακά ιδρύματα, μουσεία, αλλά και βιβλιοθήκες. Μάλιστα κατά τη διάρκεια της έκθεσης, τους προσέγγισε η βιβλιοθήκη του ΑΠΘ, που έχει πολλά χειρόγραφα και θέλει να τα επεξεργαστεί, για να δημιουργήσει μια ανάλογη βάση.

Ο κ. Πρατικάκης τόνισε πως δεν υπάρχει τίποτα που να εμποδίζει τη συγκεκριμένη εφαρμογή να χρησιμοποιηθεί και εκτός Ελλάδας, μιας και μπορεί να δημιουργηθεί το αντίστοιχο υπολογιστικό μοντέλο που θα εκπαιδευτεί για συγκεκριμένη μορφή για να προχωρήσει στη συνέχεια σε αναγνώριση. Γι’ αυτό και σκέφτονται να το εντάξουν σε κάποιες προσπάθειες σε ευρωπαϊκό επίπεδο, και να αναζητήσουν αντίστοιχες πηγές ενδιαφέροντος στο εξωτερικό.

google-news Ακολουθήστε το paratiritis-news.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις.