From 14a50f78bc609871a42c4ffe08c46692f9279d9b Mon Sep 17 00:00:00 2001 From: Asvin shrivas <114608872+kiralightyagami@users.noreply.github.com> Date: Mon, 4 Nov 2024 09:32:22 +0530 Subject: [PATCH] Issue #13 README.md Documentation Translation in English. Issue #13 --- README.md | 58 +++++++++++++++++++++++++++---------------------------- 1 file changed, 29 insertions(+), 29 deletions(-) diff --git a/README.md b/README.md index d41bbfc..c92b217 100644 --- a/README.md +++ b/README.md @@ -1,68 +1,68 @@ -__Στόχος της ΕΕΛΛΑΚ είναι η ανάπτυξη ενός Ελληνικού γλωσσικού μοντέλου ανοιχτού λογισμικού του glossAPI( a Greek Open Source LLM ), που ο κώδικας του θα διατίθεται με την άδεια ανοιχτού λογισμικού [EUPL](https://eupl.eu/) και τα δεδομένα του με την άδεια [Creative Commons BY-SA](https://creativecommons.org/licenses/by-sa/4.0/deed.el).__ +__The goal of EELLAK is the development of a Greek language model of open software glossAPI( a Greek Open Source LLM ),whose code will be made available under the open source license [EUPL](https://eupl.eu/) and its data with permission [Creative Commons BY-SA](https://creativecommons.org/licenses/by-sa/4.0/deed.el).__ TODO: Translate documentation to English, other languages -:rocket: **Τρέχουσα δράση: Καταγραφή - αποτίμηση ανοιχτών πηγών κειμένου στα Ελληνικά** +:rocket: **Current action: Registration - assessment of open text sources in Greek** -:arrow_right: Συμβουλευτείτε το CONTRIBUTING.md για να συνεισφέρετε στην :dart: συγκέντρωση και προτεραιοποίηση συνόλων κειμενικών δεδομένων στα Ελληνικά. +:arrow_right: Consult contribute to CONTRIBUTING.md :dart:aggregation and prioritization of textual datasets in Greek. -:arrow_right: Επισκεφτείτε το [wiki](https://github.com/eellak/glossAPI/wiki/%CE%9A%CE%B1%CF%84%CE%B1%CE%B3%CF%81%CE%B1%CF%86%CE%AE-%CE%A0%CE%B7%CE%B3%CF%8E%CE%BD) για να δείτε ή να τροποποιήσετε τις καταγεγραμμένες πηγές. +:arrow_right: Visit [wiki](https://github.com/eellak/glossAPI/wiki/%CE%9A%CE%B1%CF%84%CE%B1%CE%B3%CF%81%CE%B1%CF%86%CE%AE-%CE%A0%CE%B7%CE%B3%CF%8E%CE%BD) to view or modify recorded sources. -:arrow_right: Έχετε μια ιδέα που δεν βλέπετε στο αποθετήριο; Θέλετε να προτείνετε μια διόρθωση; 🚩 Ανοίξτε ένα [Issue](https://github.com/eellak/glossAPI/issues)! +:arrow_right:Have an idea you don't see in the repository? Want to suggest a fix? 🚩Open one [Issue](https://github.com/eellak/glossAPI/issues)! -🆕: Δοκιμάστε τον [λεξικό κατατεμαχιστή](https://github.com/eellak/glossAPI/blob/4a67366a91c1f87ca7874757c62f31b1a51f8c78/greek_tokenizer.json) ([παράδειγμα χρήσης](https://github.com/eellak/glossAPI/wiki/%CE%A7%CF%81%CE%AE%CF%83%CE%B7-Tokenizer)) και :pencil2: δώστε μας ανατροφοδότηση στα [Issues](https://github.com/eellak/glossAPI/issues)! +🆕: Try [dictionary splitter](https://github.com/eellak/glossAPI/blob/4a67366a91c1f87ca7874757c62f31b1a51f8c78/greek_tokenizer.json) ([usage example](https://github.com/eellak/glossAPI/wiki/%CE%A7%CF%81%CE%AE%CF%83%CE%B7-Tokenizer)) and :pencil2: give us feedback at [Issues](https://github.com/eellak/glossAPI/issues)! -:arrow_right: [Μια εφαρμογή χρήσης εμπνευσμένη από τις ψηφιακές ανθρωπιστικές επιστήμες](https://edu.ellak.gr/2024/05/31/daskalissa-idiomatikos-tipos-malliari-dimotiki-i-idiolektos-tou-papadiamanti/) +:arrow_right: [A user app inspired by the digital humanities](https://edu.ellak.gr/2024/05/31/daskalissa-idiomatikos-tipos-malliari-dimotiki-i-idiolektos-tou-papadiamanti/) # -:arrow_right: **Αν θέλετε να ενημερώνεστε για το glossAPI** μπορείτε να εγγραφείτε στο [https://newsletters.ellak.gr/](https://newsletters.ellak.gr/?p=subscribe&id=3) +:arrow_right: **If you want to be informed about glossAPI** you can subscribe at [https://newsletters.ellak.gr/](https://newsletters.ellak.gr/?p=subscribe&id=3) -📻 Κρατήστε επαφή: +📻 Keep in touch: -- [Matrix](https://matrix.to/#/%23ml-groups23:chat.ellak.gr) (#Συστηθείτε με ένα σύντομο μήνυμα.) +- [Matrix](https://matrix.to/#/%23ml-groups23:chat.ellak.gr) (#Introduce yourself with a short message.) -# Καταγραφή διαθέσιμων μοντέλων στα Ελληνικά +# List of available models in Greek -- -Το έργο καταγραφής των διαθέσιμων πηγών στα ελληνικά εντάσσεται στις προσπάθειες που άμεσα ξεκίνησε η ΕΕΛΛΑΚ με την δημοσιοποίηση του ChatGPT και τη παγκόσμια άνοδο του ενδιαφέροντος για τα προηγμένα λογοπαραγωγικά νευρωνικά δίκτυα. +The project of recording the available sources in Greek is part of the efforts that EELLAK immediately started with the publication of ChatGPT and the global rise of interest in advanced speech-generating neural networks. -Προσπερνώντας διάφορες δημώδεις και παραπλανητικές επικεντρώσεις στο θέμα της τεχνητής νοημοσύνης, σαν Οργανισμός Άνοιχτών Τεχνολογικών, βλέπουμε την τεχνητή νοημοσύνη ως μια νέα τεχνολογία οργάνωσης και προσπέλασης της ανθρώπινης γνώσης, η οποία έχει μεγάλη πρακτικη αξία, για αυτό οφείλουμε από τα πρώτα ήδη στάδια να αναδείξουμε την σημασία των ανοιχτών προτύπων, των ανοιχτών και δεοντολογικά εξασφαλισμένων δεδομένων, την προστασία της ιδιωτικότητας, την πρόνοια για τα ψηφιακά χάσματα, την ασφάλεια των δεδομένων. +Bypassing various popular and misleading focuses on the topic of artificial intelligence, as an Open Technology Organization, we see artificial intelligence as a new technology for organizing and accessing human knowledge, which has great practical value, that is why we must highlight the importance of open standards from the very first stages,of open and ethically secured data, privacy protection, digital divide provision, data security. -Σημαντικό μέρος της προσέγγισής μας έχει εστιάσει στο ενδεχόμενο υιοθέτησης των προηγμένων γλωσσικών τεχνολογικών στο πλαίσιο της ηλεκτρονικής διακυβέρνησης. Είναι άμεσα πιθανό, και δυνατό σε ένα βαθμό, οι δημόσιες υπηρεσίες να αξιοποιήσουν τις τεχνολογίες αυτές είτε για να εξυπηρετήσουν τον πολίτη μέσω ψηφιακών βοηθών είτε να διεκπεραιώσουν εσωτερικές τους διεργασίες που ειδάλλως θα απαιτούσαν μεγάλη ανθρωποπροσπάθεια. +An important part of our approach has focused on the adoption of advanced language technologies in the context of e-government. It is immediately possible, and possible to an extent, public services to utilize these technologies either to serve the citizen through digital assistants or to carry out internal processes that would otherwise require a lot of human effort. -Για αυτό είναι αποπροσανατολιστικές οι δημώδεις συζητήσεις για υπαρξιακή απειλή της ανθρωπότητας και τον υπερανθρωπισμό. Υπάρχουν άμεσα ζητήματα πολύ πιο πρακτικής φύσεως, με άμεσο κοινωνικό αντίκτυπο, τα οποία είναι καλύτερο να συζητάμε αυτή τη στιγμή. -Όπως επίσης μεγάλος θα είναι ο αντίκτυπος στις εργασιακές σχέσεις (βλ Άρθρο μας για την απεργία των σεναριογράφων στο Χόλυγουντ, και τις διεκδικήσεις τους για οριοθέητηση της ΤΝ στο αντικείμενο της εργασίας τους). +This is why the popular discussions about an existential threat to humanity and superhumanism are disorienting. There are immediate issues of a much more practical nature, with direct social impact, which are better discussed at this time. +Just as great will be the impact on labor relations (see our article on the strike of screenwriters in Hollywood, and their claims for the delimitation of TN in the scope of their work). -Ας σταθούμε προς στιγμήν σε αυτά τα θέματα: Λογοπαραγωγική τεχνολογία στο δημόσιο τομέα, στην εξυπηρέτηση του πολίτη, στις εσωτερικές διεργασίες της ηλεκτρονικής διακυβέρνησης. Εισαγωγή της λογοπαραγωγικής τεχνολογίας στις εργασιακές σχέσεις. Καθίσταται αμέσως σαφές, ότι **η απουσία ενός ικανού μοντέλου στην ελληνική γλώσσα** αποτελεί ορατό κίνδυνο επίτασης των ψηφιακών χασμάτων τόσο στην σχέση πολίτη-κράτους, όσο και στην προσπάθεια για την εύρεση εργασίας. +Let us dwell on these issues for a moment: Speech-generating technology in the public sector, in the service of the citizen, in the internal processes of e-government. Introduction of speech production technology in labor relations. It immediately becomes clear that **the absence of a competent model in the Greek language** it is a visible risk of widening the digital divide both in the citizen-state relationship and in the effort to find a job. -Όσο καινοτόμος, ωστόσο, και αν είναι, η τεχνολογία των λογοπαραγωγικών νευρωνικών δικτύων, δεν παύει να αποτελεί προέκταση των προηγούμενων τεχνολογικών μας και ειδικά των τεχνικών υπολογιστικής επεξεργασίας του λόγου, την μηχανική μάθηση, τα δεδομένα μεγάλου όγκου. Από αυτές τις τεχνολογίες δεν κληρονομούν μόνο τα πλεονεκτήματα αλλά και τους κινδύνους, ειδικά σε ένα νομικό περιβάλλον προστατευτισμού των τεχνολογικών ολιγοπωλίων, που απασχολούν την κοινότητα των ανοιχτών τεχνολογιών εδώ και αρκετά χρόνια. +As innovative as it is, the technology of speech-generating neural networks, it does not cease to be an extension of our previous technological and especially computer speech processing techniques, machine learning, big data.From these technologies they inherit not only advantages but also risks,especially in a legal environment of technology oligopoly protectionism, which has concerned the open technology community for several years. -Δυστυχώς η ετοιμότητα της ελληνικής γλώσσας να εισαχθεί δυναμικά σε αυτές τις νέες τεχνολογίες είναι αποδυναμωμένη από πολιτικές και στρατηγικές επιλογές που εκτείνονται αρκετές δεκαετίες στο παρελθόν. Ήδη διαμορφώνονται ελληνικά LLM's κλειστού κώδικά από όσες δομές διαθέτουν υψηλής ποιότητας δεδομένα για την εκπαίδευσή τους. Η κοινότητά μας όμως παραμένει φτωχή σε δεδομένα, για αυτό επιμένουμε ότι η δημιουργία ανοιχτού, δεοντολογικά αποκτημένου, μηχανικά προσπελάσιμου, και αντιπροσωπευτικού της ελληνικής γλώσσας σώματος παραδειγμάτων εκπαίδευσης, παραμένει και θα παραμείνει αυτοσκοπός για την κοινότητα του ανοιχτού λογισμικού. +Unfortunately, the readiness of the Greek language to enter dynamically into these new technologies is weakened by political and strategic choices that extend several decades into the past.Closed-source Greek LLM's are already being formed by those structures that have high-quality data for their training. But our community remains poor in data, that's why we insist that creating open, ethically sourced, mechanically accessible,and representative of the Greek language body of training examples, remains and will remain an end in itself for the open software community. -Οι προσπάθειές μας οδηγήθηκαν λοιπόν ακριβώς σε αυτό: την αποδελτίωση και καταγραφή των διαθέσιμων πηγών στα ελληνικά με άδεια επανάχρησης. Υπάρχει όμως ένα παράδοξο σε αυτό: Όσα δεδομένα είναι εύκολα προσβάσιμα, βρίσκονται ήδη σε μηχανικά αναγνώσιμη μορφή, ή είναι επισημειωμένα με κάποιον τρόπο, σίγουρα θα έχουν ήδη βρεί το δρόμο τους προς τα υπάρχοντα γλωσσικά μοντέλα. +So our efforts were led to exactly this: the de-editing and recording of the available sources in Greek with permission to reuse. But there is a paradox in this: Any data that is easily accessible, is already in a machine-readable form, or is labeled in some way, will surely have already found its way into existing language models. -Τα περισσότερα δεδομένα υψηλής γλωσσικής αξίας για την ιστορικότητα και την ποικιλία της ελληνικής γλώσσας, που αντανακλούν και τις διάφορα κειμενικά είδη και ποικιλίες χρήσης της, είναι σε ένα βαθμό ψηφιοποιημένα, αλλά στην πλειοψηφία των περιπτώσεων όχι μηχανικά προσπελάσιμα, είτε λόγω εχθρικής προς το χρήστη δόμηση της πλοήγησης της ιστοσελίδας, είτε επειδή απουσιάζει η οπτική αναγνώριση χαρακτήρων, είτε επειδή δεν υπάρχουν άδειες επανάχρησης. +Most data of high linguistic value on the historicity and diversity of the Greek language, which also reflect the various textual genres and varieties of its use, they are to some extent digitized, but in the majority of cases not mechanically accessible, or due to user-unfriendly structure of the website navigation, either because there is no OCR, or because there are no reuse licenses. -Που οδεύουμε, λοιπόν; Τα δεδομένα του προβλήματος είναι σαφή. Τα εύκολα προσβάσιμα δεδομένα έχουν αξιοποηθεί ήδη. Τα δύσκολα προσβάσιμα δεδομένα περιλαμβάνουν ένα δυσνόητο μέγεθος ανθρωποπροσπάθειας. Τα κλειστά δεδομένα είναι και θα παραμείνουν κλειστά. Είναι σχεδόν βέβαιο ότι σύντομα θα δούμε ένα κλειστό γλωσσικό μοντέλο στην ελληνική γλώσσα. Αλλά αυτό δεν θα αλλάξει σε τίποτα την δυστοπική διαπίστωση ότι οι ανοιχτές τεχνολογίες θα δεχτούν ένα πρωτόγνωρο πλήγμα. Η κύρια τεχνολογία της εποχής που έρχεται θα έχει ξεκινήσει με ένα αποφασιστικό πλεονέκτημα των κλειστών τεχνολογιών και των κλειστών δεδομένων. Πέρα από τις ακτιβιστικές μας ανησυχίες όμως, οι δυσμενείς επιπτώσεις έχουν επισημανθεί και από τις διεθνείς οργανώσεις, καθώς και από την Ευρωπαϊκή Επιτροπή. +So where are we headed?The facts of the problem are clear. Easily accessible data has already been exploited. Hard-to-access data involves an unfathomable amount of human effort. Closed data is and will remain closed. It is almost certain that we will soon see a closed language model in the Greek language. But that will do nothing to change the dystopian realization that open technologies will take an unprecedented hit. The mainstream technology of the coming era will have started with a decisive advantage of closed technologies and closed data. Beyond our activist concerns, however, the adverse effects have also been highlighted by international organizations, as well as by the European Commission. -Η ιδέα ότι τα δεδομένα των πολιτών ενός ολόκληρου κράτους μπορούν να μεταφορτωθούν στους απομακρυσμένους υπολογιστές ενός υπερατλαντικού τεχνολογικού ολιγοπωλίου, με όλους τους κινδύνους ασφάλειας και ιδιωτικότητας, είναι απλά επικίνδυνη, και αντίθετη σε μια σειρά από ευρωπαϊκές οδηγίες στις οποίες έχει δεσμευτεί η Ελλάδα. Η εύκολη λύση της προμήθειας λογοπαραγωγικής τεχνολογίας από τεχνολογικά ολογοπώλια του εξωτερικού είναι ένα ναρκοπέδιο για την ασφάλεια, την ιδιωτικότητα, την καινοτομία, και οι επιπτώσεις του θα φανούν σύντομα. +The idea that the data of an entire nation's citizens can be uploaded to the remote computers of a transatlantic technology oligopoly, with all the security and privacy risks, it's just plain dangerous, and contrary to a series of European directives to which Greece has committed itself. The facile solution of sourcing word processing technology from foreign tech hawkers is a minefield for security, privacy, innovation, and its implications will soon be seen. # -:newspaper: __Διαβάστε την αρθρογραφία μας για τα γλωσσικά μοντέλα και τις διεθνείς εξελίξεις__ +:newspaper: __Read our article on language models and international developments__ -[Νευρωνικά Δίκτυα και Μηχανική Μάθηση](https://edu.ellak.gr/2023/04/11/nevronika-diktia-ke-michaniki-mathisi/) +[Neural Networks and Machine Learning](https://edu.ellak.gr/2023/04/11/nevronika-diktia-ke-michaniki-mathisi/) -[Ανοιχτός Κώδικας και Προηγμένα Γλωσσικά Νευρωνικά Δίκτυα](https://openstandards.ellak.gr/2023/10/26/anichtos-kodikas-ke-proigmena-glossika-nevronika-diktia/) +[Open Source and Advanced Linguistic Neural Networks](https://openstandards.ellak.gr/2023/10/26/anichtos-kodikas-ke-proigmena-glossika-nevronika-diktia/) -[Τί ξέρουμε για τις ραγδαίες εξελίξεις στην OpenAI...](https://opensource.ellak.gr/2023/11/21/ti-xeroume-gia-tis-ragdees-exelixis-stin-openai-pou-elavan-chora-tis-teleftees-72-ores/) +[What do we know about the rapid developments in OpenAI...](https://opensource.ellak.gr/2023/11/21/ti-xeroume-gia-tis-ragdees-exelixis-stin-openai-pou-elavan-chora-tis-teleftees-72-ores/) -[Φιλοσοφικές προεκτάσεις νευρωνικών δικτύων](https://opensource.ellak.gr/2023/12/07/filosofikes-proektasis-nevronikon-diktion/) +[Philosophical extensions of neural networks](https://opensource.ellak.gr/2023/12/07/filosofikes-proektasis-nevronikon-diktion/) -[Τεχνητή νοημοσύνη και το μέλλον της εργασίας](https://openstandards.ellak.gr/2023/12/08/ti-echoume-na-mathoume-apo-tin-apergia-ton-singrafeon-tou-choligount-gia-tin-techniti-noimosini-ke-to-mellon-tis-ergasias/) +[Artificial intelligence and the future of work](https://openstandards.ellak.gr/2023/12/08/ti-echoume-na-mathoume-apo-tin-apergia-ton-singrafeon-tou-choligount-gia-tin-techniti-noimosini-ke-to-mellon-tis-ergasias/) #