Περιγραφή: Περιγραφή: Περιγραφή: scientific-journal-articles

Περιγραφή: Περιγραφή: Περιγραφή: CVPekpaideusis

ISSN : 2241-4665

Αρχική σελίδα περιοδικού C.V.P. Παιδαγωγικής & Εκπαίδευσης

Σύντομη βιογραφία του  συγγραφέα

Κριτικές του άρθρου

Περιγραφή: Περιγραφή: Περιγραφή: vipapharm-greek

Περιγραφή: Περιγραφή: Περιγραφή: linep5

ISSN : 2241-4665

Ημερομηνία έκδοσης: Αθήνα 27 Απριλίου 2020

“Δημιουργία, επισημείωση και ανάλυση σώματος κειμένων μαθητικών

γραπτών (learner corpus) στην αγγλική γλώσσα”

ΔΑΜΙΑΝΟΣ ΠΑΠΑΔΟΠΟΥΛΟΣ

 

Creating, footnoting and analyzing a body of learner   corpus texts in English”

Damianos Papadopoulos

Περιγραφή: Περιγραφή: Περιγραφή: line

 

                           Περίληψη

Ο εντοπισμός, η αναγνώριση και η κατηγοριοποίηση λαθών (λεξιλογικών, μορφολογικών, συντακτικών κ.ά.) αποτελεί μια ιδιαίτερα χρήσιμη υπο-εργασία σε πολλές εφαρμογές επεξεργασίας φυσικής γλώσσας. Σκοπός αυτής της έρευνας είναι να παρουσιαστούν, α. οι στόχοι, η τρέχουσα κατάσταση και τα επίπεδα ανάπτυξης και βελτίωσης της πλατφόρμας Gate, β. μια οπτική των παραμέτρων-λαθών της επισημείωσης  μαθητικών κειμένων στην Αγγλική γλώσσα καθώς επίσης και τις δυσκολίες που παρατηρήθηκαν στην όλη διαδικασία της επισημείωσης αυτών, γ. ποσοτικές αναλύσεις των λαθών επισημείωσης με χρήσιμες πληροφορίες ως προς τα είδη των γραμματικών λαθών και τα συμπεράσματα που προκύπτουν από την ανάλυση τους.

Στο συγκεκριμένο πείραμα πραγματοποιήθηκε χειρωνακτική επισημείωση ενός σώματος κειμένων της αγγλικής γλώσσας 250  εκθέσεις υποψηφίων για το Κρατικό Πιστοποιητικό Γλωσσομάθειας (ΚΠγ), διαβαθμισμένου επιπέδου Β (Β1+Β2).

 

 

 

 

 Abstract

Detecting, identifying and classifying errors (lexical, morphological, syntactic, etc.) is a particularly useful sub-task in many natural language processing applications. The present dissertation aspires to identify and classify these errors in student papers using the text annotation Gate platform. The aim of this paper is threefold: a.to present the objectives, the current status and development of Gate platform, b. to give an overview of the error annotation scheme and the complexities in the error annotation that require a stand-off annotation and c. to provide a first quantitative error analysis with useful hints as to the ‘source of the grammatical error and the kinds of conclusions one can derive from such an analysis in the direction of developing targeted teaching activities.

In this experiment, a 50.000 words corpus of English texts has been manually annotated ,250  writing test papers of candidates for State Language Certificate for B level (B1 + B2). In this corpus of KPG writing test papers in English, text processing techniques have been applied to separate and classify errors and the resulting outcome was a set of attributes for each error.

 

                       Περιγραφή: Περιγραφή: Περιγραφή: line

 

                           1.Εισαγωγή

Ο όρος corpus, ο οποίος αποτελεί σημασιολογική επέκταση της γνωστής λατινικής λέξης corpus που σημαίνει σώμα, αφορά κάθε συστηματική συλλογή από ηλεκτρονικά κείμενα. Στον σχετικό κλάδο της υπολογιστικής γλωσσολογίας, ο όρος αφορά ειδικότερα σε μια συλλογή από κείμενα σχεδιασμένα για γλωσσολογική έρευνα, που επιλέγονται δειγματοληπτικά, με βάση την αντιπροσωπευτικότητά τους. Πιο ειδικά, corpus ονομάζεται η συστηματική συλλογή μεγάλου όγκου δεδομένων από περισσότερο ή λιγότερο αυθόρμητη ή επεξεργασμένη προφορική και γραπτή ομιλία.

Θέλοντας να ορίσει την έννοια των σωμάτων κειμένου, ο Sinclair (1996)[1] επισημαίνει ότι «σώμα κειμένων είναι κάθε συλλογή τμημάτων μιας γλώσσας, τα οποία-κείμενα-επιλέγονται και διατάσσονται σύμφωνα με συγκεκριμένα γλωσσολογικά κριτήρια, έτσι ώστε να μπορούν να χρησιμοποιηθούν ως αντιπροσωπευτικό δείγμα της γλώσσας αυτής». Θεωρεί ότι «το ηλεκτρονικό σώμα κειμένων είναι κατάλληλο για ηλεκτρονική χρήση, ειδικά κωδικοποιημένο για τυποποιημένες και ομοιογενείς εργασίες ανάκτησης γλωσσικών πληροφοριών».

 Όπως και στα γενικά σώματα κειμένων, ομοίως και στην περίπτωση των ΣΚΜ, το κύριο πλεονέκτημα της χρήσης τους έγκειται στο ότι αποτελούνται από αυθεντικά κείμενα παραγωγών μαθητών μιας δεύτερης γλώσσας όχι της μητρικής τους  (Leech 1998: Hunston 2002, 15)[2], προσφέροντας έτσι στον ερευνητή τη δυνατότητα να συναγάγει συμπεράσματα ή να αντλήσει παραδείγματα, μελετώντας την πραγματική γλώσσα των μαθητών και όχι να βασίζεται σε υποθέσεις ή σε κατασκευασμένα παραδείγματα (βλ. και Granger 1998, Leech 1998: Pravec 2002)[3].

                         

                            2.Θεωρία

 Στον σχετικό κλάδο της υπολογιστικής γλωσσολογίας, ο όρος αφορά σε μια συλλογή από κείμενα σχεδιασμένα για γλωσσολογική έρευνα, που επιλέγονται δειγματοληπτικά, με βάση την αντιπροσωπευτικότητά τους. Τα κείμενα αυτά διαθέτουν πεπερασμένο μέγεθος και μηχανική αναγνωσιμότητα. Συμπεραίνει κανείς ότι το σώμα κειμένων εδώ έχει ταυτιστεί με το ηλεκτρονικό σώμα κειμένων (ΗΣΚ), το οποίο αποτελεί βασικό σημείο αναφοράς και εργαλείο γλωσσολογικής έρευνας, κυρίως, για την περιγραφή και ανάλυση της γλώσσας (McEnery & Wilson 2001: 29)[4]. Τα σώματα κειμένων, επομένως, χρησιμοποιούνται σε μια σειρά από τομείς:

ü  την περιγραφή μιας γλωσσικής ποικιλίας,

ü  τη λεξικογραφία,

ü  την αυτόματη μετάφραση,

ü  την εκμάθηση γλωσσών κ.α.

Αναλυτικά, τα σώματα κειμένων επιτρέπουν να εξαγάγουμε συμπεράσματα για την γλώσσα από δεδομένα που έχουν τα εξής χαρακτηριστικά :

§  εμπειρικά: δεν βασίζονται σε εικασίες ή την διαίσθηση του ερευνητή, αλλά προέρχονται από την εξωτερική πραγματικότητα,

§  αυθεντικά: δεν προέρχονται από πειραματικές συνθήκες, αλλά από την αυθόρμητη (προφορική και γραπτή) παραγωγή λόγου των ομιλητών μιας γλώσσας,

§  συστηματικά: έχουν συλλεχθεί με βάση συγκεκριμένα κριτήρια και αρχές και όχι με τυχαίο ή ανεκδοτολογικό τρόπο,

§  κειμενικά: περιλαμβάνουν ολόκληρα κείμενα ή τμήματα τους και δεν περιορίζονται σε μεμονωμένες λέξεις ή προτάσεις

§  εκτεταμένα: διαθέτουν μεγάλο όγκο και δεν περιορίζονται σε λίγα παραδείγματα.

 

2.1.Αποσαφήνιση όρων

Ανάλογα με το αν το σώμα κειμένων έχει ή όχι υποστεί επεξεργασία πριν να δοθεί στο χρήστη χαρακτηρίζεται σαν:

ü  μη επισημειωμένο (unannotated, untagged, raw): τα κείμενα αυτού του τύπου δεν έχουν υποστεί την παραμικρή επεξεργασία.

ü  επισημειωμένο (annotated, tagged): τα κείμενα αυτού του τύπου έχουν υποστεί επεξεργασία και είναι οι ακόλουθες:

v  επισημειώσεις σε ότι αφορά το μέρος του λόγου, δηλαδή κάθε λέξη αποκτά ετικέτα είτε επιθέτου είτε ουσιαστικού κ.τ.λ. (part of speech tagged). Το πρόγραμμα που αναλαμβάνει να κάνει αυτή τη δουλειά ονομάζεται tagger.

v  επισημειώσεις που αφορούν συντακτική πληροφορία, δηλαδή υποκείμενο, ρήμα, αντικείμενο, κ.τ.λ. Το πρόγραμμα που αναλαμβάνει να κάνει αυτή τη δουλειά ονομάζεται parser.

v     παρατηρούνται ετικέτες που παρέχουν σημασιολογική πληροφορία στις λέξεις.

 

 

 

2.2.Θεωρητικές προσεγγίσεις της επισημείωσης μαθητικών κειμένων στην Αγγλική

Ένα σώμα κειμένων χωρίς ετικέτες χρησιμοποιείται κυρίως για την ανεύρεση συγκεκριμένων λέξεων ή ακολουθιών από λέξεις μαζί με τα περιβάλλοντά τους. Έτσι οι γραμματικές ετικέτες (part of speech tagging) είναι οι πλέον συχνές, ενώ όταν μιλάμε για συντακτική ανάλυση τότε οι ετικέτες δίνουν τα υποκείμενα, ρήματα, αντικείμενα. Αυτά τα προγράμματα που πραγματοποιούν αυτή τη λειτουργία ονομάζονται parsers. Έτσι για στην Αγγλική αν έχουμε το be+ επίρρημα+ παθητική μετοχή, οι κανόνες θα αναλύσουν την παθητική μετοχή σαν παθητικό ρήμα και επίρρημα. Η ακρίβεια στην απόδοση είναι ένας παράγοντας που δείχνει πόσο καλός είναι ένας tagger, ο οποίος επηρεάζεται σημαντικά από την πολυπλοκότητα των γλωσσών στο να δώσει τη σωστή ετικέτα.

Ας θεωρήσουμε για παράδειγμα ότι επιθυμούμε να ερευνήσουμε την χρήση επιθέτων. Με ένα μη επισημειωμένο σώμα κειμένων, πιθανόν να αρχίζαμε ψάχνοντας λέξεις με καταλήξεις -full, -y, -ous. Η αναζήτηση αυτού του τύπου θα έβρισκε αρκετά επίθετα – όπως τα beautiful, hungry, famous – αλλά θα εξήγαγε και λέξεις οι οποίες δεν είναι επίθετα. Επίσης η αναζήτηση επιθέτων με άλλες καταλήξεις εύλογα συμπεραίνουμε ότι θα είχε παρόμοια αποτελέσματα. Μια τέτοιου είδους αναζήτηση θα είχε σαν συνέπεια, αργότερα να κάνουμε αρκετό ξεκαθάρισμα με το χέρι, με αποτέλεσμα να χάνονται πλεονεκτήματα που μας προσφέρει η αυτοματοποιημένη προσέγγιση με τα σώματα κειμένων.

2.3.  Σκοπός της έρευνας

Κύριος σκοπός  της συγκεκριμένης έρευνας, είναι να μελετήσει με ποιον τρόπο η χρήση τεχνικών επισημείωσης μπορεί να συμβάλει στην κατασκευή συστημάτων, τα οποία θα έχουν τη δυνατότητα να αναγνωρίζουν αυτόματα τη γραμματική κατηγορία κάθε λέξης σε ένα σώμα κειμένου. Το συγκεκριμένο πρόβλημα, αφορά το πώς με αφετηρία ένα κείμενο και ένα σύνολο ετικετών (tag set) , θα πρέπει να γίνει αντιστοίχηση μιας και μόνο ετικέτας σε κάθε λέξη προς επισημείωση. Η διαδικασία αυτή είναι πολύ σημαντική στον τομέα της επεξεργασίας φυσικής γλώσσας, γιατί οι μορφολογικές πληροφορίες που αποδίδονται σε κάθε λέξη του επισημειωμένου κειμένου αποτελούν την βάση για κάθε είδους επεξεργασία του.

Βασικός  στόχος της έρευνας αυτής ήταν η πλατφόρμα να μπορέσει να δεχθεί περισσότερους κώδικες με απώτερο σκοπό τη μεγαλύτερη κατηγοριοποίηση των λαθών κατά την επισημείωση. Αξίζει να σημειωθεί ότι, παρ’ όλο που η εργασία εστιάζεται στην επισημείωση λαθών σε αγγλικά κείμενα, οι τεχνικές που προτείνονται εύκολα μπορούν να χρησιμοποιηθούν και σε άλλες γλώσσες.

 

 

3. Μεθοδολογία της έρευνας

Η κατασκευή του ΑΣΚΜ( Αγγλικά Σώματα Κειμένων Μαθητών) από εδώ και πέρα, βασίστηκε στην αρχή της Αντιπαραβολικής Ανάλυσης της Διαγλώσσας (Contrastive Interlanguage Analysis, CIA· βλ. Granger 1998). Αντίστοιχα, το ΑΣΚΜ ακολούθησε τα εξής στάδια:

·         συλλογή δεδομένων

·         καταγραφή των βασικών κατηγοριών των γραμματικών λαθών των υποψηφίων πάνω σε δείγμα 250 κειμένων,

·         σχεδιασμός του πλαισίου επισημείωσης των λαθών,

·         επισημείωση κειμένων με το εργαλείο επισημείωσης GATE (με ταυτόχρονες συχνές αναθεωρήσεις του πλαισίου επισημείωσης),

·         διασταύρωση και τυποποίηση της στρατηγικής επισημείωσης.

 

 

3.1. Υλικό

                        

                           3.1.1. Το Αγγλικό σώμα κειμένων μαθητών

Για τις ανάγκες της συγκεκριμένης έρευνας, εστιάσαμε την προσοχή μας στα γλωσσικά λάθη που παρατηρούνται κατά την παραγωγή γραπτού λόγου από μαθητές υποψήφιους ΚΠγ, ελληνικής και αλλοδαπής καταγωγής που φοιτούν σε ελληνικό  σχολείο. Στο υλικό μας περιλάβαμε 250 εκθέσεις υποψηφίων, οι οποίες συγκεντρώθηκαν από σχολεία της Αθήνας και της Κρήτης. Στο Παράρτημα 1 παραθέτουμε ως υπόδειγμα, δύο εκθέσεις υποψηφίων επισημειωμένες χειρωνακτικά αρχικά πριν μεταφορτωθούν στην πλατφόρμα Gate και γίνει η ηλεκτρονική επισημέιωση.

Ο μαθητικός πληθυσμός που μελετήσαμε αποτελείται από μαθητές ελληνικής και αλλοδαπής καταγωγής. Για να αναλύσουμε τα λάθη στα επίπεδα γλωσσικής ανάλυσης της αγγλικής  γλώσσας, αλλά και να τα συσχετίσουμε με το βαθμό κατάκτησης της αγγλικής, θεωρήσαμε σκόπιμο να διακρίνουμε τους μαθητές του δείγματός μας με κριτήριο την καταγωγή τους, καταλήγοντας στη διάκριση του πληθυσμού των υποψηφίων μας σε δύο βασικές ομάδες:

1) μαθητές ελληνικής καταγωγής,

2) μαθητές αλλοδαπής καταγωγής.

Τους αλλοδαπούς μαθητές διακρίνουμε περαιτέρω σε δύο ομάδες, οι οποίες, όπως παρατηρούμε και στον πίνακα 1, είναι: α) μαθητές αλβανικής καταγωγής, β) μαθητές μη-αλβανικής καταγωγής:

                                                  ΚΑΤΑΓΩΓΗ

 

ΑΡΙΘΜΟΣ

ΥΠΟΨΗΦΙΩΝ

 

 

ΕΛΛΗΝΙΚΗ

ΑΛΒΑΝΙΚΗ

      ΜΗ ΑΛΒΑΝΙΚΗ

  ΣΥΝΟΛΟ

 

 

73

 

 

114

 

 

 

 

63

 

 

 

 

250

 

 

 

 

            Πίνακας 1ος: Διάκριση υποψηφίων με κριτήριο την καταγωγή

 

Όπως φαίνεται στον πίνακα 1, οι μαθητές αλβανικής καταγωγής αποτέλεσαν την πολυπληθέστερη ομάδα του δείγματός μας. Η κοινή τους γλώσσα και καταγωγή συνιστούν στοιχεία κοινής κατηγοριοποίησης, τα οποία μας έδωσαν τη δυνατότητα να αντιληφθούμε τους εν λόγω μαθητές ως ομάδα διακριτή από τους μαθητές με άλλη καταγωγή. Στη διάκριση αυτή σημαντικό ρόλο έπαιξε και ο αριθμός των αλβανών υποψηφίων, καθώς μας επέτρεψε να μιλήσουμε για τα λάθη ενός αριθμητικά συγκρίσιμου συνόλου και όχι για μεμονωμένες περιπτώσεις υποψηφίων. Αντίθετα, οι αλλοδαποί υποψήφιοι μη-αλβανικής καταγωγής προέρχονται από διάφορες χώρες της Ευρώπης (π.χ.:, Πολωνία, Ρωσία, Ουκρανία, κ.α.). Έτσι για να καταλήξουμε σε μια γενική εικόνα σχετικά με τα λάθη που παρήγαγαν οι αλλοδαποί υποψήφιοι, εντάξαμε αυτούς με διαφορετική καταγωγή σε μία ενιαία ομάδα με κριτήριο τη μη αλβανική καταγωγή.

Στο δείγμα μας περιλαμβάνονται επίσης και 55 εκθέσεις  υποψηφίων ελληνικής καταγωγής. Θεωρούμε ότι η καταμέτρηση και ανάλυση των λαθών των ελλήνων υποψηφίων είναι ενδεικτική για την αξιολόγηση των γλωσσικών λαθών των υποψηφίων με αλλοδαπή καταγωγή. Τα είδη των γλωσσικών λαθών στις εκθέσεις ΚΠγ  των ελλήνων υποψηφίων, καθώς και η καταμέτρησή τους, θα μας οδηγήσουν σε ασφαλέστερα συμπεράσματα αναφορικά με τα λάθη που παρατηρήσαμε στους υποψήφιους  αλβανικής και μη-αλβανικής καταγωγής. Από αυτή την οπτική, μέσω της σύγκρισης των λαθών που παρήγαγαν οι έλληνες και οι υπό μελέτη αλλοδαποί υποψήφιοι, η ομάδα των ελλήνων υποψηφίων τέθηκε στη συγκεκριμένη εργασία ως ομάδα ‘ελέγχου’.

Οι εφαρμογές των σωμάτων κειμένων στη γλωσσική διδασκαλία εντάσσονται σε μια παράδοση που αποκαλείται linguistics applied (Widdowson 2003, Davies & Elder 2004)[5] και εκφράζει την τάση η δραστηριότητα σε εφαρμοσμένους τομείς , π.χ. η εκπαιδευτική γλωσσολογία, να εμπνέεται από τις αναζητήσεις στο χώρο της θεωρητικής έρευνας για την περιγραφή των γλωσσών.

 

3.2. Ερευνητικό εργαλείο Gate-πλατφόρμα επισημείωσης μαθητικών κειμένων

Ένα από τα πιο σημαντικά στάδια στον σχεδιασμό ενός  ΣΚΜ είναι ο καθορισμός του πλαισίου επισημείωσης των λαθών. Στην κατασκευή του ΑΣΚΜ μια βασική αρχή που καθοδήγησε τις επιλογές όσον αφορά τον τεχνικό σχεδιασμό του, όσο και την κατηγοριοποίηση των λαθών, ήταν η επιδιωκόμενη ευελιξία του τελικού προϊόντος, του ΑΣΚΜ, ως εργαλείου που μπορεί να χρησιμοποιηθεί στο μέλλον τόσο από ερευνητές όσο και από διδάσκοντες.

 Ακολουθώντας τις κύριες μεθοδολογικές αρχές της πλατφόρμας Gate, η δημιουργία και ανάλυση του ΑΣΚΜ βασίστηκε στα ακόλουθα βήματα:

·         χειρωνακτική εύρεση των λαθών

·         επεξεργασία και συμφωνία για το σύνολο των ετικετών που θα απαρτίζουν το πλαίσιο επισημείωσης λαθών

·         εισαγωγή ετικετών λαθών και διορθώσεων στα αρχεία κει-      μένων

·         ανάκτηση/εξαγωγή λιστών συγκεκριμένων τύπων λαθών και στατιστική ανάλυσή τους

·         γλωσσική ανάλυση των σημαντικότερων τύπων λαθών, βάσει κυρίως συμφραστικών πινάκων (concordance-based).

Σε ότι αφορά το τεχνικό μέρος, το πλαίσιο επισημείωσης των λαθών του ΑΣΚΜ σχεδιάστηκε με στόχο να είναι:

ü  διαφωτιστικό και ταυτόχρονα διαχειρίσιμο: να είναι αναλυτικό σε βαθμό που να παρέχει χρήσιμες πληροφορίες για τα λάθη των μαθητών,

ü  επαναχρησιμοποιήσιμο: οι κατηγορίες λαθών να είναι αρκετά

γενικές,  για να μπορούν να χρησιμοποιηθούν και σε διαφορετικές γλώσσες

ü  ευέλικτο: να επιτρέπει άμεση πρόσβαση για αλλαγές (προσθήκη/αφαίρεση ετικετών)

ü  συνεπές: να μην υπάρχουν αντιφάσεις στις επισημειώσεις των κειμένων, όταν αναμειγνύονται περισσότεροι του ενός επισημειωτές                       

 

3.3.  Εντοπισμός- Ανάλυση λαθών

Ξεκινώντας τη διερεύνηση του ζητήματος σχετικά με το αν οι αλλοδαποί υποψήφιοι του ΚΠγ παρουσιάζουν προβλήματα στην κατάκτηση του συστήματος της αγγλικής γλώσσας, εντοπίσαμε τα γλωσσικά λάθη  των υποψηφίων κατά τη δραστηριότητα παραγωγής γραπτού λόγου. Δεδομένου ότι αναγνωρίζουμε την ιδιαιτερότητα κάθε  γραπτού, προσπαθήσαμε κατά το δυνατό να αποφύγουμε στην ανάλυση του υλικού μας λάθη ‘τυχαία’ ή λάθη απροσεξίας των υποψηφίων. Αφού εντοπίσαμε τα γλωσσικά λάθη, τα κατατάξαμε σε κατηγορίες σύμφωνα με το επίπεδο ανάλυσης όπου αυτά εκδηλώνονται.

Έτσι, οι κατηγορίες γλωσσικών λαθών που προέκυψαν από την ανάλυση του υλικού μας είναι οι εξής:

§  Φωνολογία,

§  Μορφολογία,

§  Σύνταξη και

§  Ορθογραφία

Με τον τρόπο αυτό, από το σύνολο των λέξεων κάθε έκθεσης των τριών ομάδων διακρίναμε τις λεξικές μονάδες που παρουσίαζαν προβλήματα φωνολογικού, μορφολογικού και ορθογραφικού χαρακτήρα. Όπως, επίσης από το σύνολο των προτάσεων διακρίναμε αυτές που παρουσίαζαν συντακτικά προβλήματα βάσει των αρχών συντακτικής ανάλυσης της ελληνικής γλώσσας:

 

ΚΑΤΑΓΩΓΗ

 

 

ΓΛΩΣΣΙΚΑ ΛΑΘΗ

 

ΜΟΡΦΟΛΟΓΙΚΑ

ΦΩΝΟΛΟΓΙΚΑ

ΟΡΘΟΓΡΑΦΙΚΑ

ΣΥΝΤΑΚΤΙΚΑ

ΣΥΝΟΛΟ

Ελληνική

12

0

1200

15

1227

 

 

 

 

 

 

Αλβανική

30

14

1980

98

2122

Μη Αλβανική

31

14

780

57

882

Σύνολο/Ποσοστά

73

1.72%

28

0.66%

3960

93.64%

170

4.01%

4231

100%

Πίνακας 2ος: Συσχετισμός γλωσσικών λαθών με καταγωγή υποψηφίων

 

Από τον  πίνακα 2, προκύπτει ότι οι υποψήφιοι και των τριών κατηγοριών παρήγαγαν λάθη κατά τη δοκιμασία της παραγωγής γραπτού λόγου. Συγκεκριμένα, ο υποψήφιοι αλβανικής και μη αλβανικής καταγωγής φαίνεται  να παρήγαγαν περισσότερα γλωσσικά λάθη από τους υποψήφιους ελληνικής καταγωγής. Παρόλα αυτά, παρατηρούμε ότι οι υποψήφιοι στο σύνολό τους αντιμετωπίζουν προβλήματα κυρίως με την ορθογραφική αναπαράσταση των λέξεων της αγγλικής γλώσσας.

 

3.3.1. Μορφολογικά λάθη

Στο υλικό μας μόλις το 1,72%, στο σύνολο των γλωσσικών λαθών που παρήγαγαν οι υποψήφιοι και των τριών κατηγοριών, αφορά λάθη μορφολογικού τύπου (βλ. πίνακα 2). Τα μορφολογικά λάθη που εντοπίσαμε έχουν σχέση με:

·         το γένος,

·         το χρόνο και

·         την όψη των ρημάτων.

 Εντοπίζονται, δηλαδή, στο επίπεδο της λεξικής μονάδας, όμως, ανάλογα με αυτά που, στην ουσία, επιθυμεί ο υποψήφιος να διατυπώσει, θεωρούμε ότι γίνονται καλύτερα αντιληπτά μέσα από το περικείμενό τους.

Έτσι στην πλειονότητά τους οι υποψήφιοι παρατηρούμε ότι δεν είναι συνεπής ως προς τους χρόνους και τη ρηματική όψη που επιλέγει για να αφηγηθεί το γεγονός που ζητήθηκε να αφηγηθεί. Η ίδια σύγχυση φαίνεται να επικρατεί και στην επιλογή του σωστού χρόνου, καθώς αρχικά αναφέρεται σε παρελθοντικό χρόνο, ενώ στη συνέχεια χρησιμοποιεί Ενεστώτα .

Μορφολογικά λάθη παρήγαγαν τόσο οι υποψήφιοι ελληνικής καταγωγής όσο και οι υποψήφιοι αλβανικής και μη-αλβανικής καταγωγής. Παρόλα αυτά, παρατηρούμε ότι οι υποψήφιοι αλβανικής καταγωγής παρήγαγαν διπλάσιο αριθμό μορφολογικών λαθών από τους υποψήφιους ελληνικής καταγωγής ενώ οι μαθητές μη αλβανικής καταγωγής πενταπλάσιο. Βέβαια, ο αριθμός των μορφολογικών λαθών που εντοπίσαμε στις εκθέσεις των υποψηφίων αλβανικής και μη αλβανικής καταγωγής δεν είναι σημαντικός, ώστε να εστιάσουμε την προσοχή μας σε προβλήματα που αφορούν το επίπεδο μορφολογικής ανάλυσης της γλώσσας.

 

3.3.2. Φωνολογικά λάθη

Από το σύνολο των γλωσσικών λαθών, ένα πολύ μικρό ποσοστό, της τάξης του 0,66%, αφορά λάθη φωνολογικού χαρακτήρα (βλ. πίνακα 2). Οι τύποι των φωνολογικών λαθών που εντοπίστηκαν στο δείγμα μας έχουν ως εξής:

Ø  στην ηχηρότητα

Ø  στον τόπο άρθρωσης

Ø  στον τρόπο άρθρωσης

 Φωνολογικά λάθη  βλέπουμε ότι παρήγαγαν μόνο οι μαθητές των δύο ομάδων με αλλοδαπή καταγωγή. Σύμφωνα με τα δεδομένα του πίνακα 2, αντιλαμβανόμαστε αφενός ότι ο Μ.Ο. φωνολογικών λαθών των μαθητών αλβανικής καταγωγής ταυτίζεται με το Μ.Ο. των μαθητών μη-αλβανικής καταγωγής (0,15 έναντι 0,15) και αφετέρου ότι ο αριθμός λαθών που πραγματοποίησε κάθε αλλοδαπός μαθητής στις δύο ομάδες είναι μικρός.

 

3.3.3. Συντακτικά λάθη

Το ποσοστό των συντακτικών λαθών στο υλικό μας δεν ξεπερνά το 4,01% στο σύνολο των γλωσσικών λαθών (βλ. πίνακα 2). Οι τύποι των συντακτικών λαθών που εντοπίσαμε στο υλικό μας έχουν ως εξής:

§  παράλειψη του ρήματος

§  παράλειψη ορίσματος

§  έλλειψη συμφωνίας στους προτασιακούς όρους

§  λάθη στις προθέσεις

§  λάθη στη χρήση συνδέσμων

§  επανάληψη όρων

  Από τα συντακτικά λάθη, φαίνεται ότι οι αλλοδαποί μαθητές, σε κάποιες περιπτώσεις, παραλείπουν το ρήμα. Επίσης, παρατηρούμε ότι η χρήση των συνδέσμων εμφανίζεται προβληματική. Σύνδεσμοι με αντιθετική σημασία συνδυάζονται λανθασμένα. Ωστόσο, από τους Μ.Ο. λαθών ,φαίνεται ότι οι υποψήφιοι μη αλβανικής καταγωγής είναι αυτοί που παρήγαγαν τα περισσότερα συντακτικά λάθη στο δείγμα, ενώ ακολουθούν αριθμητικά οι μαθητές αλβανικής καταγωγής . Παρόλα αυτά, ο αριθμός των συντακτικών λαθών που παρήγαγε κάθε υποψήφιος  αλβανικής και μη αλβανικής καταγωγής δεν είναι ιδιαίτερα σημαντικός.

 

3.3.4. Ορθογραφικά λάθη

Η πλειονότητα των γλωσσικών λαθών παρατηρείται στα πλαίσια της ορθογραφικής αναπαράστασης των λέξεων (93,64%), καθώς οι υποψήφιοι και των τριών ομάδων παρήγαγαν πλήθος ορθογραφικών λαθών (βλ. πίνακα 2). Οι τύποι των ορθογραφικών λαθών που εντοπίσαμε στο υλικό μας έχουν ως εξής:

ü  φωνητική αναπαράσταση

ü  κεφαλαία-μικρά

ü  όρια λέξεων

 Στην ανάλυση των ορθογραφικών λαθών, με σκοπό την ενδεικτική διόρθωσή τους από τους εκπαιδευτικούς της αγγλικής γλώσσας , είναι συνήθης η κατηγοριοποίηση τους σε σχέση με τα μορφήματα όπου εμφανίζεται το λάθος. Ωστόσο, στο πλαίσιο αυτού του άρθρου δίνουμε έμφαση στην ύπαρξη αυτή καθεαυτή του ορθογραφικού λάθους και όχι στο είδος του λάθους σε σχέση με τα μορφήματα, καθώς δε στοχεύουμε στη διόρθωση των ορθογραφικών λαθών.

 

4. Αποτελέσματα

4.1. Ανάλυση εξωγλωσσικών παραγόντων των υποψηφίων

Για την ουσιαστικότερη διερεύνηση των ορθογραφικών λαθών, θα πρέπει να λάβουμε υπόψη μας τους εξωγλωσσικούς παράγοντες που πιθανόν συμβάλλουν στην παραγωγή. Συνήθως, η παραγωγή ορθογραφικών λαθών εκλαμβάνεται από τους εκπαιδευτικούς ως ένα καθαρά γλωσσικό πρόβλημα το οποίο καλούνται οι υποψήφιοι να αντιμετωπίσουν. Εντούτοις, θεωρούμε ότι η γλωσσική και κοινωνική διαμόρφωση των υποψηφίων, όπως προκύπτει από το περιβάλλον στο οποίο ζουν , από το φύλο τους, από την καταγωγή τους και την ανάπτυξη ικανοτήτων που σχετίζονται με την ηλικία τους, επηρεάζουν την παραγωγή ορθογραφικών λαθών.

 

4.1.1 Περιοχή

Τα γλωσσικά και κοινωνικά πρότυπα που ενστερνίζονται ή απορρίπτουν οι ομιλητές διαφοροποιούνται ανάλογα με το κοινωνικοπολιτισμικό περιβάλλον της περιοχής όπου τα άτομα κοινωνικοποιούνται. Η πρόσληψη γλωσσικών ερεθισμάτων, αλλά και η παροχή κατάλληλων ευκαιριών ώστε το άτομο να εξελιχθεί και να συμμετάσχει στα κοινωνικά επιτεύγματα και αγαθά σχετίζεται, σε κάποιο βαθμό, με την περιοχή διαβίωσής του.

Στο δείγμα μας, οι υποψήφιοι που εξετάσαμε ζουν σε περιοχές της Αθήνας και σε περιοχές της Κρήτης. Με βάση τη σχετική βιβλιογραφία για τις κοινωνικές και εκπαιδευτικές ανισότητες που εκδηλώνονται σε σχέση με την ευρύτερη περιοχή, εκλαμβάνουμε την Αθήνα ως το μεγαλύτερο και πιο αναπτυγμένο οικονομικά και πολιτιστικά αστικό κέντρο στη χώρα μας, δεδομένου του ρόλου της ως πρωτεύουσας, ενώ την Κρήτη ως πόλη περιφέρειας νησιωτικής . Η Κρήτη ως περιφερειακή πόλη είναι λιγότερο αναπτυγμένη οικονομικά και πολιτιστικά, ενώ είναι έντονο το ενδιαφέρον των κατοίκων της σε αγροτικές απασχολήσεις. Σύμφωνα με τα παραπάνω, υποθέτουμε ότι οι υποψήφιοι στην Αθήνα και την Κρήτη διαφοροποιούνται ως προς τα γλωσσικά και κοινωνικά ερεθίσματα που προσλαμβάνουν και τους εκπαιδευτικούς και κοινωνικούς στόχους που θέτουν, κάτι που ίσως επηρεάζει και την ανάπτυξη της ορθογραφικής τους ικανότητας.

Με άλλα λόγια για να εξετάσουμε αν υφίσταται διαφορά στον αριθμό των ορθογραφικών λαθών που παρήγαγαν οι υποψήφιοι στην Αθήνα και την Κρήτη, διακρίναμε τους υποψήφιους με  κριτήριο την περιοχή διαμονής τους:

 

                                              ΠΕΡΙΟΧΗ

ΥΠΟΨΗΦΙΟΙ

 

 

 

Αθήνα

Κρήτη

Σύνολο

120

57

 

177

 

 

 

 

 

 

 

 

 

Πίνακας 3ος: Διάκριση Υποψηφίων σε σχέση με περιοχή διαμονής

 

4.1.2. Φύλο

Διακρίναμε τον πληθυσμό μας σε άντρες και γυναίκες και προέκυψε ότι το συνολικό δείγμα που εξετάζουμε αποτελείται από 118 άντρες και 132 γυναίκες . Παράλληλα, θεωρήθηκε σημαντικό να εξετάσουμε τους παράγοντες της περιοχής και του φύλου σε συνδυασμό. Ανάλογα με τη διάκριση των υποψηφίων αλλοδαπής καταγωγής στις περιοχές της Αθήνας και της Κρήτης είναι ενδιαφέρον να διερευνήσουμε αν, και κατά πόσο, στην κάθε περιοχή υφίσταται διαφορά στον αριθμό λαθών σχετική με το φύλο. Συγκεκριμένα, διακρίναμε τους υποψήφιους κάθε περιοχής σε άντρες και γυναίκες και μέσω των ορθογραφικών λαθών που παρήγαγαν θα εξετάσουμε αν παρατηρούνται σημαντικές διαφορές μεταξύ τους:

 

                                                         ΠΕΡΙΟΧΗ/ΦΥΛΟ

 

    ΑΘΗΝΑ

ΚΡΗΤΗ

ΣΥΝΟΛΟ

ΑΝΤΡΕΣ

ΓΥΝΑΙΚΕΣ

ΑΝΤΡΕΣ

ΓΥΝΑΙΚΕΣ

ΥΠΟΨΗΦΙΟΙ

50

70

   40

17

 

ΣΥΝΟΛΟ

               120

                57

177

 

 

 

 

 

 

 

 

 

 

Πίνακας 4ος: Διάκριση υποψηφίων σε συνάρτηση περιοχής – φύλου

 

4.1.3. Καταγωγή

Θεωρήσαμε αναγκαίο να προβούμε στο συσχετισμό των ανεξάρτητων μεταβλητών της καταγωγής και του φύλου με αυτήν της περιοχής, ώστε να διερευνήσουμε κατά πόσο ο συνδυασμός των τριών αυτών παραγόντων επιδρά στην ανάδειξη κανονικοτήτων σε σχέση με τον αριθμό των ορθογραφικών λαθών που παρήγαγαν οι αλλοδαποί υποψήφιοι:

 

 

 

 

                                                         ΠΕΡΙΟΧΗ-ΚΑΤΑΓΩΓΗ-ΦΥΛΟ

 

    ΑΘΗΝΑ

ΚΡΗΤΗ

ΣΥΝΟΛΟ

ΑΛΒΑΝΙΚΗ

ΜΗ ΑΛΒΑΝΙΚΗ

ΑΛΒΑΝΙΚΗ

ΜΗ ΑΛΒΑΝΙΚΗ

ΑΝΝΤΡ.

ΓΥΝ.

ΑΝΤΡ.

ΓΥΝ.

ΑΝΤΡ.

ΓΥΝ.

ΑΝΤΡ.

ΓΥΝ.

ΥΠΟΨΗΦΙΟΙ

20

25

30

45

  15

6

25

11

 

ΣΥΝΟΛΟ

               120

                57

177

 

 

 

 

 

 

 

 

 

 

 

 

 

Πίνακας 5ος: Διάκριση υποψηφίων σε σχέση με περιοχή, καταγωγή, φύλο

 

Οι υποψήφιοι αλβανικής καταγωγής συνιστούν στο δείγμα μας μια διακριτή ομάδα με κοινά στοιχεία κατηγοριοποίησης, όπως είναι η γλώσσα και η χώρα καταγωγής. Για να μελετήσουμε, σε μεγαλύτερο βάθος την επίδραση της καταγωγής των υποψηφίων σε σχέση με την περιοχή, θα συγκρίνουμε τον αριθμό των ορθογραφικών λαθών των υποψηφίων αλβανικής καταγωγής με αυτόν των υποψηφίων ελληνικής καταγωγής στην περιοχή της Αθήνας:

 

ΑΘΗΝΑ

 

 

Αριθμός μαθητών

Ελληνικής καταγωγής

Αλβανικής

καταγωγής

Σύνολο

 

71

49

120

 Πίνακας 6ος: Διάκριση υποψηφίων Ελληνικής και Αλβανικής καταγωγής

 

 

4.2. Ποσοτική Ανάλυση Ευρημάτων του δείγματος μελέτης

 

4.2.1 Περιοχή συναρτήσει ορθογραφίας

Από την καταμέτρηση του συνόλου των ορθογραφικών λαθών που εντοπίσαμε στις εκθέσεις των υποψηφίων στην Αθήνα και την Κρήτη προέκυψαν τα ακόλουθα δεδομένα:

ΠΕΡΙΟΧΗ

                                       Ορθογραφικά                 Λάθη

Μ.Ο. Λαθών

ΑΘΗΝΑ

(120)

1315

10,95

ΚΡΗΤΗ

(57)

1598

28,03

ΣΥΝΟΛΟ

(177)

2933

16,57

          Πίνακας 7ος : Συσχετισμός ορθογραφικών λαθών με περιοχή κατοικίας

 

Με βάση τα δεδομένα του πίνακα  7, παρατηρούμε ότι οι υποψήφιοι με αλλοδαπή καταγωγή που διαμένουν στην Αθήνα πραγματοποίησαν πολύ λιγότερα λάθη από τους υποψήφιους της Κρήτης. Ο Μ.Ο. ορθογραφικών λαθών των υποψηφίων της Κρήτης είναι  ο διπλάσιος κ παραπάνω από τον αντίστοιχο Μ.Ο. λαθών των μαθητών της Αθήνας (28,03 έναντι 10,95).

 

4.2.2. Φύλο και Ορθογραφία

Από τον συσχετισμό του φύλου των υποψηφίων του δείγματός μας με το πλήθος των ορθογραφικών λαθών που παρήγαγαν προέκυψαν τα ακόλουθα στοιχεία:

 

 

          ΦΥΛΟ-ΟΡΘΟΓΡΑΦΙΚΑ ΛΑΘΗ

 

 

 

 

ΑΝΤΡΕΣ

 

(118)

                           ΓΥΝΑΙΚΕΣ

                               (132)

                  Σύνολο

                   (250)

Ορθογραφικά λάθη

1980

1980

3960

Μ.Ο.

Λαθών

16,78

15,00

15,84

Πίνακας 8ος: Συσχετισμός Ορθογραφικών λαθών με φύλο υποψηφίων

 

 

Τα δεδομένα του πίνακα 8 δείχνουν ότι τόσο οι άντρες  στο σύνολο των υποψηφίων όσο και οι γυναίκες  παρήγαγαν ορθογραφικά λάθη. Παρόλα αυτά, παρατηρούμε κάποια διαφοροποίηση ως προς τον αριθμό των λαθών που πραγματοποίησε το καθένα από τα δύο φύλα. Ο Μ.Ο. ορθογραφικών λαθών που παρήγαγε ο κάθε υποψήφιος είναι μεγαλύτερος από τον αντίστοιχο Μ.Ο. λαθών που παρήγαγε η κάθε υποψήφια (16,78 έναντι 15,00). Συνεπώς, υφίσταται διαφορά σχετική με το φύλο, καθώς οι άντρες παρήγαγαν περισσότερα ορθογραφικά λάθη από τις γυναίκες.

 

5. Συζήτηση

Από την κατηγοριοποίηση των γλωσσικών λαθών στα γραπτά, των υποψηφίων, καθώς και από την καταμέτρηση των λαθών κάθε κατηγορίας, ανάλογα με τα επίπεδα ανάλυσης της γλώσσας, είδαμε ότι οι υποψήφιοι αλβανικής και μη αλβανικής καταγωγής παρουσιάζουν, κάποιες, διαφορές ως προς το βαθμό κατάκτησης της γλώσσας. Οι υποψήφιοι αλβανικής καταγωγής φαίνεται ότι βρίσκονται σε υψηλότερο επίπεδο κατάκτησης της αγγλικής από τους μαθητές μη αλβανικής καταγωγής, αφού ο αριθμός γλωσσικών λαθών που παρήγαγαν βρίσκεται στο ενδιάμεσο των λαθών που παρήγαγαν οι υποψήφιοι μη αλβανικής και ελληνικής καταγωγής. Από τα ποσοτικά στοιχεία που παραθέσαμε στον πίνακα 2, αναφορικά με τα γλωσσικά λάθη των υποψηφίων ανά ομάδα, θα μπορούσαμε να συνάγουμε ότι οι υποψήφιοι αλβανικής καταγωγής έχουν αντιληφθεί σε μεγαλύτερο βαθμό από τους υποψήφιους μη αλβανικής καταγωγής τις διαφορές που παρουσιάζει το γλωσσικό σύστημα της γλώσσας καταγωγής τους με αυτό της αγγλικής. Αντίθετα, θα μπορούσε να ισχυρισθεί κανείς ότι οι υποψήφιοι μη αλβανικής καταγωγής αντιμετωπίζουν μεγαλύτερες γλωσσικές δυσκολίες, οι οποίες πιθανώς προέρχονται από την παρεμβολή στοιχείων της πρώτης τους γλώσσας στη γλώσσα-στόχο, δηλαδή την αγγλική.

Όσον αφορά τους υποψήφιους ελληνικής καταγωγής του δείγματός μας, είδαμε ότι και αυτοί πραγματοποίησαν γλωσσικά λάθη, αν και, όπως ήταν αναμενόμενο, λιγότερα από τους υποψήφιους αλβανικής και μη αλβανικής καταγωγής. Όπως αναδείχθηκε από την καταμέτρηση των γλωσσικών λαθών στις εκθέσεις κάθε ομάδας, η πλειονότητα των λαθών που εντοπίσαμε αφορά στην ορθογράφηση των λέξεων σύμφωνα με τους ορθογραφικούς κανόνες της αγγλικής γλώσσας. Αυτό σημαίνει ότι η βασική δυσκολία που αντιμετωπίζουν τόσο οι υποψήφιοι αλβανικής και μη αλβανικής καταγωγής όσο και οι υποψήφιοι ελληνικής καταγωγής αφορά στην ορθογραφία της αγγλικής.

Με γνώμονα, την παρατήρηση ότι οι υποψήφιοι που μελετήσαμε παρουσιάζουν, πρωτίστως προβλήματα ορθογραφίας, εστιάσαμε, σε ένα δεύτερο επίπεδο μελέτης, την προσοχή μας συγκεκριμένα στα ορθογραφικά λάθη. Από τη διερεύνηση των ορθογραφικών λαθών προέκυψαν τα ερευνητικά μας ερωτήματα σε σχέση με τους παράγοντες της καταγωγής, της περιοχής όπου διαμένουν οι υποψήφιοι μας και του φύλου.

Παράλληλα , συνεχίσαμε τη διερεύνηση των ερευνητικών μας ερωτημάτων με τη μεταβλητή της περιοχής όπου διαμένουν οι υποψήφιοι του δείγματός μας. Από το συσχετισμό των ορθογραφικών λαθών με τον παράγοντα της περιοχής προέκυψε ότι οι υποψήφιοι που διαμένουν στην Κρήτη πραγματοποίησαν περισσότερα λάθη από τους υποψήφιους της Αθήνας. Στο πλαίσιο διερεύνησης της περιοχής θεωρήσαμε σκόπιμο να συσχετίσουμε την παράμετρο της καταγωγής με αυτήν της περιοχής όπου διαμένουν υποψήφιοι αλβανικής και μη αλβανικής καταγωγής του δείγματός μας. Από τον συνδυασμό αυτό των δύο παραμέτρων διαπιστώσαμε ότι η καταγωγή δεν επιδρά με καθοριστικό τρόπο στην ανάπτυξη της ορθογραφικής ικανότητας των υποψηφίων αυτών. Αυτό συμβαίνει διότι δεν προέκυψε κανονικότητα στην παραγωγή λαθών από τους υποψήφιους αλβανικής και μη αλβανικής καταγωγής στην Αθήνα και την Κρήτη.

Συνοψίζοντας, από την ποσοτική ανάλυση των ορθογραφικών λαθών στις εκθέσεις των υποψηφίων του δείγματός μας προέκυψε τελικά ότι: α) οι υποψήφιοι αλβανικής και μη αλβανικής καταγωγής παρήγαγαν περισσότερα ορθογραφικά λάθη από ότι οι υποψήφιοι ελληνικής καταγωγής, β) οι υποψήφιοι αλβανικής και μη αλβανικής καταγωγής της Κρήτης  παρήγαγαν περισσότερα λάθη από ότι οι υποψήφιοι αλβανικής και μη αλβανικής καταγωγής της Αθήνας, γ) οι  υποψήφιοι αλβανικής καταγωγής που διαβιούν στην Αθήνα συντονίζονται περισσότερο με την ορθογραφική νόρμα από ότι οι υποψήφιοι ελληνικής καταγωγής

 

6. Συμπεράσματα και προτάσεις

Στο πλαίσιο της παρούσας έρευνας επιχειρήθηκε η μελέτη των γλωσσικών χαρακτηριστικών γραπτών εκθέσεων υποψηφίων του ΚΠγ περιόδου 2011, από την οπτική της γλωσσολογίας σωμάτων κειμένου. Συνοπτικά μιλήσαμε για την ιστορία των πιο σημαντικών σωμάτων κειμένου για τα αγγλικά, για να καταλήξουμε σε μια ανάλυση σχετικά με τα βασικά μεθοδολογικά εργαλεία που παρέχουν τα σώματα κειμένων με στόχο την εξαγωγή συμπερασμάτων γλωσσολογικού ενδιαφέροντος, όπως ο πίνακας συχνότητας και ο κατάλογος με λέξεις-κλειδιά.

Για τις ανάγκες της έρευνας, δημιουργήθηκε ένα αυθεντικό ειδικό σώμα κειμένων, κάτι που αποτελεί ίσως την πιο σημαντική συνεισφορά της μελέτης μας, διότι προστίθεται στο σύνολο των διαθέσιμων σωμάτων κειμένου για την αγγλική γλώσσα, ιδίως εκείνων με διαχρονική διάσταση, και μπορεί να αξιοποιηθεί σε μελλοντικές έρευνες.

Το σύστημα αυτό, κατηγοριοποιεί τις λέξεις στις ακόλουθες κατηγορίες:

              Λεξιλογικά/Ορθογραφικά λάθη,

              Μορφολογικά λάθη και

              Συντακτικά λάθη.

Κατά την αξιολόγηση του ταξινομητή λαθών, παρατηρήσαμε πως μία ακόμα αιτία μη ορθής κατηγοριοποίησης μεταξύ γραμματικών και συντακτικών λαθών ήταν η έλλειψη τιμής σε ένα χαρακτηριστικό, το οποίο επηρεάζει σημαντικά την απόφαση του ταξινομητή ως προς την κατηγορία ταξινόμησης στην οποία θα κατατάξει την κάθε λέξη.

Στο πλαίσιο της συγκεκριμένης έρευνας  οι μελέτες διεξήχθησαν με τη βοήθεια της πλατφόρμας Gate. Μεταφέραμε χειροκίνητα τις γραπτές εκθέσεις σε ηλεκτρονική μορφή. Αφού μετατράπηκαν σε κατάλληλη μορφή .txt, για την πλατφόρμα Gate φορτώθηκαν στο σύστημα επισημείωσης και ξεκίνησε η επεξεργασία τους. Μέσω του Word Tagger επισημειώσαμε χειροκίνητα τα 250 κείμενα επιπέδου Β (Β1 και Β2). Η παρούσα έρευνα, με βάση τα προαναφερθέντα, προτείνει ένα πολύ αποδοτικό σύστημα- (Gate)- για την επίλυση του προβλήματος της επισημείωσης και ανάλυσης σώματος κειμένων μαθητικών γραπτών (learner corpus) στην αγγλική γλώσσα, καθώς τα αποτελέσματα για την κατάταξη λέξεων στις διάφορες κατηγορίες λαθών αγγίζουν το 96%.

Ερευνήθηκε , αν ο συνδυασμός της πλατφόρμας Gate με άλλες πλατφόρμες επισημείωσης σώματος κειμένων θα επιφέρει αποδοτικότερα αποτελέσματα σε σχέση με αυτά που έχουν ήδη παρουσιαστεί και καταγραφεί. Μια πιθανή επέκταση είναι ο συνδυασμός της παραπάνω πλατφόρμας με μια πιο εξελιγμένη πλατφόρμα επισημείωσης σώματος κειμένων την Ellogon (Language Engineering Platform), η οποία λαμβάνει υπόψη της τις εξαρτήσεις των χαρακτηριστικών-ετικετών για να κάνει επιλογή των σημαντικότερων που θα χρησιμοποιηθούν από ένα ταξινομητή. Η παραπάνω πλατφόρμα θα μπορεί να ανακαλύπτει περιπτώσεις που την προβληματίζουν και αφού λάβει την ανάλογη ανατροφοδότηση από τον χρήστη θα μπορεί να συνεχίσει τη διαδικασία της επισημείωσης για να βελτιώσει την ακρίβεια του.

 

7. Περιορισμοί της έρευνας

Κατά την διαδικασία της επισημείωσης αποδίδεται μονομιάς σε μια λέξη ένα μοναδικό tag,το οποίο περιέχει το σύνολο της πληροφορίας. Το πρόβλημα είναι ότι το σφάλμα σε ένα από τα τμήματα της ετικέτας, θα σημαίνει και σφάλμα στο σύνολο όλων των κειμένων. Η πρόταση που προκύπτει σαν λύση,είναι η σταδιακή απόδοση των χαρακτηριστικών της ετικέτας σε κάθε λέξη. Με άλλα λόγια, γίνεται κλιμακωτή αναγνώριση της κατηγορίας που ανήκει κάθε λέξη, μέχρι να συμπληρωθεί το σύνολο της ετικέτας (πρώτα αναγνωρίζεται αν η επισημειωμένη λέξη ανήκει σε λεξιλογικό, μοροφολογικό ή συντακτικό λάθος). Τέλος τα πειραματικά αποτελέσματα της συγκεκριμένης έρευνας μελλοντικά θα μπορούσαν να συμβάλουν στη δημιουργία ενός εκπαιδευτικού λογισμικού, το οποίο θα περιέχει ένα αξιόπιστο και εύχρηστο Σώμα Μαθητικών Κειμένων (ΜΣΚ) λαθών της Αγγλικής γλώσσας, μέσα από το οποίο οι υποψήφιοι θα μπορούν να μελετούν τις ιδιομορφίες της (συντακτικές, μορφολογικές & λεξιλογικές) και να προετοιμάζονται κατάλληλα για τις εξετάσεις

 

 

ΒΙΒΛΙΟΓΡΑΦΙΑ

-Γούτσος, Δ. (2006). Ανάπτυξη λεξιλογίου- Από το βασικό στο προχωρημένο επίπεδο. Στο Γούτσος, Δ., Σηφιανού, Μ. & Γεωργακοπούλου, Α., Η Ελληνική ως ξένη γλώσσα: Από τις λέξεις στα κείμενα. Αθήνα: Πατάκης.

-Banko M. & Brill E. (2001). Scaling to very large corpora for natural language disambiguation. Meeting of the Association for Computational Linguistics, 26-33.

-Biber, D., Conrad, S. & Reppen, R. (1998). Corpus Linguistics: An International Handbook. Cambridge: Cambridge University Press.

-Black W., Rinaldi, F. & Mowatt, D. (1998). FACILE: Description of the NE System used for MUC-7. Proceedings of Seventh Message Understanding Conference. 1998, Manchester, Department of Language Engineering, 1-10.

-Brants, T. (2000). TnT -- A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Conference on Applied Natural Language Processing, Seattle: ANLP, 152-155.

-Braun, S. (2005). From pedagogically relevant corpora to authentic language learning contents. ReCALL 17 (1), 47-64.

-Brill, E. D. (1992). A simple rule-based part-of-speech tagger. Proceedings of the third Conference on Applied Natural Language Processing (ANLP'92), ANLP, ACL, 152-155.

-Brill, E. D. (1993). A Corpus-based Approach to Language Learning. Philadelphia: ANLP.

-Brill, E. D. (1995). A transformation-based error-driven learning and natural language processing: A case study in part of speech tagging. Computational Linguistics 21 (4), 543-566.

-Campbell L. M. & MacNeill, S. (2010). The Semantic Web. Linked and Open Data. JISC.

-Dickinson M. & Meurers W. D. (2003). Detecting errors in part-of-speech annotation. Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics. Volume 1. Association for Computational Linguistics, 107-114.

-Jones, R., & Langley, P. (1995). Retrieval and learning in analogical problem solving. Proceedings of the Seventeenth Conference of the Cognitive Science Society. Pittsburgh: Lawrence Erlbaum, 466-471.

-Kaltenbock, G. & Mehlmauer-Larcher, B. (2005). Computer corpora and the language classroom: On the potential and limitations of computer corpora in language teaching. ReCALL 17 (2), 65-84.

-MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms, Cambridge: Cambridge University Press.

-Marcus P. M. & Marcinkiewicz, M. A. (1993). Building a large annotated corpus of English: The Penn treebank. Computational Linguistics 19, 313-330.

-Mc Enery, T., Xiao, R & Tono, Y. 2006. Corpus Based Language Studies: An Advanced Resource Book. London & New York: Routledge.

-Mitchell, T. M. (1997). Machine Learning. Illinois: McGraw-Hill.

-Mooney, R. J. & Un Yong Nahm (2003). Text mining with information extraction. In W. Daelemans, T. du Plessis, C. Snyman & L. Teck (eds), Multilingualism and Electronic Language Management: Proceedings of the 4th International MIDP Colloquium. South Africa: Van Schaik, 141-160.

-Quinlan, R. (1987). Applications of Expert Systems. Cambridge: Cambridge University Press.

-Quinlan, R. (1993). Programs for Machine Learning. San Mateo,   CA: Morgan Kaufmann.

-Rabiner, L. R. & Juang, B. H. 1986. An introduction to hidden Markov model. IEEE ASSP Magazine 3 (3), 4-15.

-Schapire, R. E. & Singer, Y. (2000). BoosTexter: A boosting-based system for text categorization. Machine Learning 39(2/3), 135–168.

-Sebastiani, F. (2002) Machine learning in automated text categorization. ACM Computing Surveys 34, 1-47.

-Sinclair, J. (1996). Corpus evidence in language description. In A. Wichmann, S. Fligelstone, T. McEnery & G. Knowles (eds) Teaching and Language Corpora. London: Longman, 27-39.

 

 ΠΗΓΕΣ ΣΤΟ ΔΙΑΔΥΚΤΙΟ

-Bank of English University of Birmingham.

    http://www.titania.bham.ac.uk/docs/svenguide.html

-JNI Java Native Interface.

    http://java.sun.com/i2se/1.5.0/docs/guide/jnl

-The Stanford Natural Language Processing Group.

    http://nlp.stanford.edu/software/tagger.shtml

  

 

 

ΠΑΡΑΡΤΗΜΑ 1

 

                   Δείγμα επιπέδου Β(Β1+Β2)

We should keep our minds fit. Some people say that playing mind games is a waste of time. It's not true. If we want to keep our minds fit we should play mind games and solve some IQ tests. Our brains need to to not loss the abilities. The mind games and to solving IQ tests is doing something in our brains and with this our brains getting improved. The scientists said that if you solve tests or doing some exercises who working the brain, brain was getting improved and not only the brain and the memories of the people getting improved also the ability of concentration is increasing. The mind games and some other things are educating our brains. When you are solving a problem or playing, the brain was working and we are being more clever.To playing mind games also improving our imagination. Every exercise or mind game is helping the human brain to getting improved more energetic and more cleverer. So if somebody believes that mind games are don't improving the brains they could try to play mind games and to do some IQ tests. They will see the results after playing mind games they will be more clever.

 

 

 

 

 

 

 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               

 

 

 

 

 

 

 

 

 

                                                               

5.

Πλαίσιο κειμένου: Δείγμα επιπέδου Β(Β1+Β2)
I am writing to inform you about the event that a famus author is coming to our town to pormote his new children's story book. There are a lot of thinks you need to know about this event. He will comes on the next Sunday at the hotel "Astory" afternoon at 6 o'clock. I ought to tell you he will promoti   his new children's story bok. This bok is verry modern for all ages. Acrually i say that there era and outhers activites will take place. For excample after the promotion will take place nad party with traditional dishes. The party will take place to the modern hall of hotel. Another point of view is that will be and four reporters our newspaper and four cameraman for our local TV .The prizes will be not expensive for us because we are students. All the above I mentioned I believe that is a very important event and suitable for us and for our town.

 

 

 

 

 

 

 

 

 

 

Περιγραφή: Περιγραφή: Περιγραφή: line

                

Περιγραφή: Περιγραφή: Περιγραφή: linep5

 

© Copyright-VIPAPHARM. All rights reserved

 

Περιγραφή: Περιγραφή: Περιγραφή: vipapharm

 

Περιγραφή: Περιγραφή: Περιγραφή: linep5

 

 

 



[1]Sinclair, J., (1996). 'Preliminary recommendations on corpus typology'. Έγγραφο EAGLES (στο http://www.ilc.pi.cnr.it/EAGLES/corpustyp/corpustyp.html). 

[2] Leech, G. (1998). Teaching and language corpora: A convergence. In A. Wichmann,S. Fligelstone, T. McEnery, & G. Knowles (eds.), Teaching and language corpora (pp. 1–23). London: Longman.

Susan Hunston (2002): Lecturer in Applied Linguistics

[3] S. Granger (1998). The computer learner corpus.

  Leech, G. (1998). Teaching and language corpora: A convergence. In A. Wichmann,S. Fligelstone, T.   McEnery, & G. Knowles (eds.), Teaching and language corpora (pp. 1–23). London: Longman.

Susan Hunston (2002): Lecturer in Applied Linguistics.

Norma A. Pravec. (2002). Survey of learner corpora

[4]McEnery, A.M. & Wilson, A., (2001). Corpus Linguistics. Edinburgh: Edinburgh University Press. 

[5] Widdowson H.G. (2000). On the limitations of linguistics applied. Applied Linguistics 21 (1), 3-25.

  Davies, A., & Elder, C. (2004). Applied linguistics: Subject to discipline. In A. Davies, & C. Elder   (Eds.), The handbook of applied linguistics (pp. 1-9). Oxford: Basil Blackwell Publishers.