Χρησιμοποιώντας τεχνικές βαθιάς μάθησης για τον εντοπισμό πιθανών ανθρώπινων δραστηριοτήτων σε βίντεο

Disruption - Day 2 - Part 1 (ENG) (Ιούλιος 2019).

Anonim

Όταν ένας αστυνομικός αρχίζει να σηκώνει ένα χέρι σε κίνηση, οι οδηγοί του ανθρώπου συνειδητοποιούν ότι ο αξιωματικός πρόκειται να τους σημάνει να σταματήσουν. Αλλά οι υπολογιστές δυσκολεύονται να βρουν τις επόμενες πιθανές ενέργειες των ανθρώπων με βάση την τρέχουσα συμπεριφορά τους. Τώρα, μια ομάδα ερευνητών και συναδέλφων της A * STAR έχει αναπτύξει έναν ανιχνευτή, ο οποίος μπορεί να διαλέξει με επιτυχία το πού θα πραγματοποιηθούν οι ανθρώπινες ενέργειες σε βίντεο, σχεδόν σε πραγματικό χρόνο.

Η τεχνολογία ανάλυσης εικόνας θα πρέπει να γίνει καλύτερη στην κατανόηση των ανθρώπινων προθέσεων, εάν πρόκειται να χρησιμοποιηθεί σε ένα ευρύ φάσμα εφαρμογών, λέει ο Hongyuan Zhu, επιστήμονας υπολογιστών στο Ινστιτούτο Πληροφορικής της A * STAR, ο οποίος ηγήθηκε της μελέτης. Τα αυτοκίνητα χωρίς οδηγό πρέπει να είναι σε θέση να ανιχνεύουν αστυνομικούς και να ερμηνεύουν τις ενέργειές τους γρήγορα και με ακρίβεια για ασφαλή οδήγηση, εξηγεί. Τα αυτόνομα συστήματα θα μπορούσαν επίσης να εκπαιδευτούν για τον εντοπισμό ύποπτων δραστηριοτήτων όπως η καταπολέμηση, η κλοπή ή η απόρριψη επικίνδυνων αντικειμένων και οι υπάλληλοι ασφαλείας.

Οι υπολογιστές είναι ήδη εξαιρετικά καλοί στην ανίχνευση αντικειμένων σε στατικές εικόνες, χάρη σε τεχνικές βαθιάς μάθησης, οι οποίες χρησιμοποιούν τεχνητά νευρικά δίκτυα για να επεξεργάζονται σύνθετες πληροφορίες εικόνας. Αλλά τα βίντεο με κινούμενα αντικείμενα είναι πιο προκλητικά. «Η κατανόηση των ανθρώπινων ενεργειών στα βίντεο αποτελεί απαραίτητο βήμα για την κατασκευή έξυπνων και φιλικότερων μηχανών», λέει ο Ζου.

Προηγούμενες μέθοδοι για τον εντοπισμό πιθανών ανθρώπινων ενεργειών σε βίντεο δεν χρησιμοποιούσαν πλαίσια βαθιάς μάθησης και ήταν αργά και επιρρεπή σε σφάλματα, λέει ο Ζου. Για να ξεπεραστεί αυτό, ο ανιχνευτής YoTube της ομάδας συνδυάζει παράλληλα δύο τύπους νευρωνικών δικτύων: ένα στατικό νευρωνικό δίκτυο το οποίο έχει αποδειχθεί ότι είναι ακριβές κατά την επεξεργασία ακίνητων εικόνων και ένα επαναλαμβανόμενο νευρωνικό δίκτυο που συνήθως χρησιμοποιείται για επεξεργασία μεταβαλλόμενων δεδομένων,. "Η μέθοδος μας είναι η πρώτη που φέρνει μαζί την ανίχνευση και την παρακολούθηση σε έναν αγωγό βαθιάς μάθησης", λέει ο Zhu.

Η ομάδα εξέτασε το YoTube σε περισσότερα από 3.000 βίντεο που χρησιμοποιούνται συνήθως σε πειράματα ηλεκτρονικής όρασης. Αναφέρουν ότι υπερέβησαν τους υπερσύγχρονους ανιχνευτές, επιλέγοντας σωστά πιθανές ανθρώπινες ενέργειες κατά περίπου 20% για βίντεο που δείχνουν γενικές καθημερινές δραστηριότητες και περίπου 6% για αθλητικά βίντεο. Ο ανιχνευτής κάποιες φορές κάνει λάθη εάν οι άνθρωποι στο βίντεο είναι μικρόι ή αν υπάρχουν πολλοί άνθρωποι στο παρασκήνιο. Ωστόσο, ο Zhu λέει: «Έχουμε αποδείξει ότι μπορούμε να εντοπίσουμε τις περισσότερες πιθανές περιοχές ανθρώπινης δράσης με σχεδόν πραγματικό χρόνο».

menu
menu