DATA FABRIC ΚΑΙ ΕΛΛΗΝΙΚH ΠΡΑΓΜΑΤΙΚOΤΗΤΑ

DATA FABRIC ΚΑΙ ΕΛΛΗΝΙΚH ΠΡΑΓΜΑΤΙΚOΤΗΤΑ

Το data fabric είναι μια σύγχρονη προσέγγιση για ενοποίηση δεδομένων σε multi-cloud
επίπεδο, που βασίζεται στην τεχνητή νοημοσύνη και τα μετα-δεδομένα. Η εφαρμογή της
στις ελληνικές επιχειρήσεις αποτελεί μεγάλη πρόκληση για αυτές, κάνοντας απαραίτητη
τη συνεργασία με εξειδικευμένη ομάδα αναλυτών και τεχνικών.

ΤΩΝ ΑΝΤΩΝΙΟΥ ΧΑΤΖΗΠΑΥΛΗ, MCT – DATA SOLUTIONS ARCHITECT, ΜΑΤΘΑΙΟΥ ΠΡΩΤΟΠΑΠΑ,
PHD MCP – SENIOR DATA ENGINEER, ΦΡΑΝΤΖΕΣΚΟΥ ΡΑΜΦΟΥ, MCP – SENIOR DATA ENGINEER

 

Τι είναι το Data Fabric;

Το data fabric είναι μια καινούργια προσέγγιση σχεδιασμού της υποδομής ενός οργανισμού. Τα κύρια χαρακτηριστικά του είναι:

  • Εννοιολογική ενοποίηση των δεδομένων μεταξύ των διαφορετικών υποδομών του οργανισμού (on premises, multi-cloud, edge)
  • Εκτενής αξιοποίηση μεταδεδομένων (metadata) για την συσχέτιση και την ενοποίηση
  • Ανάλυση των metadata με αλγόριθμους τεχνητής νοημοσύνης (ΑΙ) για την επίτευξη του στόχου αυτού, αλλά και να προτείνονται αυτόματα οι κατάλληλες πηγές για την εκάστοτε εργασία

Δεδομένου ότι πρόκειται για μια καινούργια πρόταση στον σχεδιασμό της υποδομής μας, αξίζει λοιπόν να  μελετηθεί εκτενώς το πλάνο εφαρμογής της, υπό την καθοδήγηση, έμπειρων επαγγελματιών Data Management.

Αυτόματη αναζήτηση των πηγών δεδομένων

Πρώτα απ’ όλα η δημιουργία των metadata που θα χρησιμοποιηθούν για την εξόρυξη γνώσης από τα δεδομένα, θα πρέπει να είναι όσο το δυνατόν αυτόματη. Αυτό είναι εφικτό με το Purview, την πιο πρόσφατη λύση data governance της Microsoft που σε αντίθεση με τον προκάτοχό του, δεν απαιτεί manual δουλειά για να καταχωρηθούν τα στοιχεία των πηγών δεδομένων.

Έχουμε αρκετά δεδομένα για τη χρήση ΑΙ;

Για να είναι μπορέσουμε να βγάλουμε χρήσιμες πληροφορίες από τα metadata με τη χρήση ΑΙ, θα πρέπει επίσης έχουμε μεγάλο όγκο δεδομένων, αφού οι σύγχρονες μέθοδοι ΑΙ τον χρειάζονται για την «εκπαίδευσή» τους. Για παράδειγμα, θα μπορούσαμε να αξιοποιήσουμε το κείμενο των συζητήσεων στο που σχετίζονται με τις πηγές δεδομένων που έχουμε εντοπίσει. Για παράδειγμα, ένας καθηγητής σε πανεπιστήμιο της Αυστραλίας έφτιαξε ένα chat-bot για να απαντάει κάποιες από τις απορίες των φοιτητών του, αξιοποιώντας τις σχετικές συζητήσεις τους στο Teams. Βέβαια σ’ αυτή  την περίπτωση επρόκειτο για μια τάξη των 500+ φοιτητών. Αν είχαμε μια μικρή εταιρία με 2-3 άτομα να συζητάνε σε ποιόν πίνακα του ERP πρέπει να ψάξουν για λ.χ. τα στοιχεία τιμολογήσεων, η μέθοδος τεχνητής μάθησης δε θα απέδιδε.

Είναι μια ακόμη πρόκληση η ελληνική γλώσσα;

Ένα σημαντικό ζήτημα είναι και η γλώσσα, δεδομένου ότι η ελληνική γλώσσα δεν είναι ευρέως χρησιμοποιούμενη παγκοσμίως, όπως είναι για παράδειγμα η αγγλική. Αυτό δε βοηθά για να παραχθεί μεγάλος όγκος δεδομένων για την εφαρμογή machine learning μοντέλων. Εδώ βοηθούν έτοιμες δυνατότητες AI, όπως τα Cognitive Services. Πρόσφατα κάναμε Sentiment Analysis σε ελληνικά κείμενα. Παρότι το συγκεκριμένο service  δεν υποστηρίζει ελληνικά, χρησιμοποιήσαμε το translator service για να μεταφράσουμε στα αγγλικά, με αρκετά ικανοποιητική ακρίβεια. Έτσι, μια μεγάλη εταιρία που έχει πολλά διαθέσιμα δεδομένα μπορεί να βγάλει αρκετά insights. Ωστόσο, υπήρχαν μεμονωμένες περιπτώσεις που είτε η μετάφραση, είτε η πρόβλεψη του sentiment δεν αποδόθηκε 100% σωστά. Αυτό αυξάνει το ρίσκο παρερμηνειών όταν έχουμε μικρό αριθμό σχολίων στη διάθεσή μας, όπως συμβαίνει σε μικρότερες εταιρίες.

Είναι λοιπόν σημαντικό εάν δεν υπάρχουν έτοιμες μέθοδοι στη γλώσσα μας, να υπάρχει η ευελιξία και η ευρηματικότητα από την ομάδα των data scientists, να αναπτύξουν έναν εξειδικευμένο αλγόριθμο για το πρόβλημα που καλούμαστε να αντιμετωπίσουμε.  

Η προσέγγισή μας

Γενικότερα, ενώ το data fabric φαίνεται ότι μπορεί να προσδώσει αξία σε μεγάλες πολυεθνικές, σε πιο εξειδικευμένες περιπτώσεις χρειάζεται μια agile προσέγγιση, ώστε να διασφαλιστεί ότι δημιουργείται αξία σε κάθε επιπρόσθετο βήμα.

Μπορούμε να επεκτείνουμε τα πιο απλά Power BI reports, εμπλουτίζοντάς τα με αναλύσεις κειμένου, εικόνας ή ήχου, με το Synapse και τα Cognitive Services. Αξιοποιώντας παράλληλα τις δυνατότητες ανίχνευσης και τεκμηρίωσης των διαφόρων πηγών δεδομένων που μας δίνει το Purview, συμπεριλαμβανομένων και των Power BI & Synapse (workspaces, reports, κλπ.) αποκτούμε μια ξεκάθαρη εικόνα και των δεδομένων και της χρήσης τους μέσα στον οργανισμό.

Έτσι παράγουμε αξία για τον οργανισμό σε κάθε βήμα του «ταξιδιού» προς το Data Fabric.

Δείτε το δημοσιευμένο άρθρο στο NetWeek Μαρτίου.