scholarly journals Sound Source Location Estimation using Phase Difference of Formants

2002 ◽  
Vol 122 (12) ◽  
pp. 2067-2075
Author(s):  
Kenzo Obata ◽  
Kentaro Noguchi ◽  
Yoshiaki Tadokoro
2018 ◽  
Author(s):  
Αναστάσιος Αλεξανδρίδης

Τα Ασύρματα Δίκτυα Ακουστικών Αισθητήρων αποτελούν μια νέα τεχνική λήψης ακουστικών σημάτων. Πολλαπλοί ακουστικοί αισθητήρες με επεξεργαστική ισχύ και ικανότητες μετάδοσης πληροφορίας διανέμονται σε ένα περιβάλλον όπου τυπικά πολλές ηχητικές πηγές είναι ενεργές. Σε τέτοιες περιπτώσεις, η εκτίμηση της θέσης των πηγών στο χώρο ήταν πάντα ένα ενδιαφέρον ερευνητικό πρόβλημα. Η πληροφορία της θέσης των πολλαπλών ενεργών ηχητικών πηγών είναι σημαντική σε μια πληθώρα εφαρμογών όπως η παρακολούθηση της άγριας πανίδας και η βελτίωση ποιότητας για την εύρωστη λήψη ηχητικών σημάτων. Με την πάροδο των χρόνων αναπτύχθηκαν διάφορες μέθοδοι εύρεσης θέσης με τελικό στόχο την επίτευξη του χαμηλότερου δυνατού σφάλματος. Ενώ έχει γίνει σημαντική πρόοδος προς αυτή την κατεύθυνση, ένας άλλος τομέας που δεν έχει ευρέως μελετηθεί αφορά τους πρακτικούς περιορισμούς που προκύπτουν από το δίκτυο αισθητήρων, οι οποίοι περιορίζουν την πρακτική εφαρμογή τέτοιων μεθόδων σε πραγματικά δίκτυα ακουστικών αισθητήρων. Τέτοιοι περιορισμοί αφορούν την περιορισμένη επεξεργαστική ισχύ των αισθητήρων, τις απαιτήσεις σε εύρος ζώνης που πρέπει να είναι χαμηλές, τις απαιτήσεις για εφαρμογές πραγματικού χρόνου και τα ζητήματα συγχρονισμού μεταξύ των ηχητικών σημάτων. Σε αυτή τη διατριβή, μελετάμε το πρόβλημα της εύρεσης θέσης πολλαπλών ταυτόχρονα ενεργών ηχητικών πηγών σε ένα δίκτυο ακουστικών αισθητήρων και ερευνούμε την ανάπτυξη μεθόδων εύρεσης θέσης που είναι ικανές όχι μόνο να επιτυγχάνουν υψηλή ακρίβεια σε ρεαλιστικά περιβάλλοντα, αλλά επίσης έχουν χαμηλές απαιτήσεις σε εύρος ζώνης, μπορούν να λειτουργήσουν με μη-συγχρονισμένη είσοδο και είναι υπολογιστικά αποτελεσματικές, ώστε να καθιστούν δυνατή την εφαρμογή τους σε πραγματικά δίκτυα ακουστικών αισθητήρων. Θεωρούμε ένα ασύρματο δίκτυο ακουστικών αισθητήρων όπου ο κάθε κόμβος είναι μια συστοιχία μικροφώνων η οποία εκτιμά και μεταδίδει πληροφορία σχετικά με την κατεύθυνση άφιξης των ηχητικών σημάτων των ενεργών ηχητικών πηγών στο περιβάλλον. Αυτή η προσέγγιση επιτυγχάνει χαμηλές απαιτήσεις σε εύρος ζώνης, αφού αρκεί μόνο η μετάδοση των εκτιμήσεων των κατευθύνσεων άφιξης. Επιπλέον, οι τεχνικές εύρεσης θέσης που βασίζονται σε εκτιμήσεις κατευθύνσεων άφιξης μπορούν να λειτουργήσουν όταν τα ηχητικά σήματα μεταξύ των διάφορων κόμβων του δικτύου δεν είναι τέλεια συγχρονισμένα. Αρχικά επικεντρωνόμαστε στο πρόβλημα εκτίμησης θέσης μιας ενεργής ηχητικής πηγής και προτείνουμε έναν υπολογιστικά αποτελεσματικό μη-γραμμικό εκτιμητή θέσης που είναι ικανός να εντοπίσει τη θέση της πηγής με ακρίβεια χρησιμοποιώντας μια επαναληπτική μέθοδο βασισμένη σε πλέγμα. Έπειτα, ασχολούμαστε με την περίπτωση όπου πολλαπλές ηχητικές πηγές είναι ταυτόχρονα ενεργές, θεωρώντας ότι ο αριθμός τους είναι γνωστός. Το βασικό πρόβλημα που προκύπτει στην περίπτωση των πολλαπλών πηγών είναι ότι ο κεντρικός κόμβος που λαμβάνει τις πολλαπλές εκτιμήσεις κατευθύνσεων άφιξης δεν γνωρίζει σε ποια πηγή αντιστοιχούν. Το πρόβλημα αυτό είναι γνωστό ως πρόβλημα αντιστοίχισης δεδομένων (data-association problem). Για να επιλύσουμε αυτό το πρόβλημα προτείνουμε δύο προσεγγίσεις: η πρώτη αφορά την επέκταση της βασισμένης σε πλέγμα τεχνικής σε πολλαπλές πηγές και η δεύτερη χρησιμοποιεί επιπλέον πληροφορία (εκτός των κατευθύνσεων άφιξης) από τους αισθητήρες με σκοπό να βρεθεί η σωστή αντιστοίχιση των κατευθύνσεων άφιξης από τους κόμβους στις ηχητικές πηγές. Έπειτα, θεωρούμε ότι ο αριθμός των πηγών είναι επίσης άγνωστος και προτείνουμε μια μέθοδο ικανή να εκτιμήσει τον αριθμό των πηγών που είναι ενεργές στο περιβάλλον και τις θέσεις τους. Η μέθοδος μας βασίζεται στην ομαδοποίηση εκτιμήσεων θέσης που προκύπτουν για κάθε συχνότητα των ηχητικών σημάτων και έχουν εκτιμηθεί χρησιμοποιώντας τις ανα-συχνότητα εκτιμήσεις κατευθύνσεων άφιξης. Στη συνέχεια μελετάμε το πώς μπορούμε να βελτιώσουμε την ακρίβεια στην εκτίμηση των κατευθύνσεων άφιξής, αφού αυτή αποτελεί έναν σημαντικό παράγοντα που επηρεάζει την ακρίβεια της εκτίμησης θέσης. Προτείνουμε μια τεχνική που μπορεί να συνδυαστεί με οποιαδήποτε μέθοδο εκτίμησης κατευθύνσεων άφιξης για πιο ακριβείς και αξιόπιστες εκτιμήσεις. Τέλος, ερευνούμε και περιγράφουμε δύο παραδείγματα για την δυνητική χρήση της πληροφορίας σχετικά με τη θέση των ηχητικών πηγών σε διάφορες εφαρμογές επεξεργασίας ήχου. Το πρώτο παράδειγμα αφορά τη χρήση της πληροφορίας της θέσης για την παραγωγή ήχου με χωρική πληροφορία και το δεύτερο αφορά τη σχεδίαση ενός σχηματιστή λοβού (beamformer) που χρησιμοποιεί την πληροφορία των θέσης για την ενίσχυση του σήματος μιας ηχητικής πηγής. Αρχικά αποτελέσματα στις δύο αυτές εφαρμογές δείχνουν ότι μέθοδοι που βασίζονται στη θέση των ηχητικών πηγών μπορούν δυνητικά να χρησιμοποιηθούν σε εφαρμογές διαχωρισμού πηγών και βελτίωσης της ποιότητας των λαμβανόμενων ηχητικών σημάτων.


Energies ◽  
2021 ◽  
Vol 14 (12) ◽  
pp. 3446
Author(s):  
Muhammad Usman Liaquat ◽  
Hafiz Suliman Munawar ◽  
Amna Rahman ◽  
Zakria Qadir ◽  
Abbas Z. Kouzani ◽  
...  

Sound localization is a field of signal processing that deals with identifying the origin of a detected sound signal. This involves determining the direction and distance of the source of the sound. Some useful applications of this phenomenon exists in speech enhancement, communication, radars and in the medical field as well. The experimental arrangement requires the use of microphone arrays which record the sound signal. Some methods involve using ad-hoc arrays of microphones because of their demonstrated advantages over other arrays. In this research project, the existing sound localization methods have been explored to analyze the advantages and disadvantages of each method. A novel sound localization routine has been formulated which uses both the direction of arrival (DOA) of the sound signal along with the location estimation in three-dimensional space to precisely locate a sound source. The experimental arrangement consists of four microphones and a single sound source. Previously, sound source has been localized using six or more microphones. The precision of sound localization has been demonstrated to increase with the use of more microphones. In this research, however, we minimized the use of microphones to reduce the complexity of the algorithm and the computation time as well. The method results in novelty in the field of sound source localization by using less resources and providing results that are at par with the more complex methods requiring more microphones and additional tools to locate the sound source. The average accuracy of the system is found to be 96.77% with an error factor of 3.8%.


2001 ◽  
Vol 109 (1) ◽  
pp. 430-433 ◽  
Author(s):  
Karsten Brensing ◽  
Katrin Linke ◽  
Dietmar Todt

2002 ◽  
Vol 87 (4) ◽  
pp. 1749-1762 ◽  
Author(s):  
Shigeto Furukawa ◽  
John C. Middlebrooks

Previous studies have demonstrated that the spike patterns of cortical neurons vary systematically as a function of sound-source location such that the response of a single neuron can signal the location of a sound source throughout 360° of azimuth. The present study examined specific features of spike patterns that might transmit information related to sound-source location. Analysis was based on responses of well-isolated single units recorded from cortical area A2 in α-chloralose-anesthetized cats. Stimuli were 80-ms noise bursts presented from loudspeakers in the horizontal plane; source azimuths ranged through 360° in 20° steps. Spike patterns were averaged across samples of eight trials. A competitive artificial neural network (ANN) identified sound-source locations by recognizing spike patterns; the ANN was trained using the learning vector quantization learning rule. The information about stimulus location that was transmitted by spike patterns was computed from joint stimulus-response probability matrices. Spike patterns were manipulated in various ways to isolate particular features. Full-spike patterns, which contained all spike-count information and spike timing with 100-μs precision, transmitted the most stimulus-related information. Transmitted information was sensitive to disruption of spike timing on a scale of more than ∼4 ms and was reduced by an average of ∼35% when spike-timing information was obliterated entirely. In a condition in which all but the first spike in each pattern were eliminated, transmitted information decreased by an average of only ∼11%. In many cases, that condition showed essentially no loss of transmitted information. Three unidimensional features were extracted from spike patterns. Of those features, spike latency transmitted ∼60% more information than that transmitted either by spike count or by a measure of latency dispersion. Information transmission by spike patterns recorded on single trials was substantially reduced compared with the information transmitted by averages of eight trials. In a comparison of averaged and nonaveraged responses, however, the information transmitted by latencies was reduced by only ∼29%, whereas information transmitted by spike counts was reduced by 79%. Spike counts clearly are sensitive to sound-source location and could transmit information about sound-source locations. Nevertheless, the present results demonstrate that the timing of the first poststimulus spike carries a substantial amount, probably the majority, of the location-related information present in spike patterns. The results indicate that any complete model of the cortical representation of auditory space must incorporate the temporal characteristics of neuronal response patterns.


Author(s):  
Shun Takase ◽  
Kentaro Nishimori ◽  
Ryotaro Taniguchi ◽  
Takahiro Matsuda ◽  
Tsutomu Mitsui

Sign in / Sign up

Export Citation Format

Share Document