Mel-Frequenz cepstrum

In der gesunden Verarbeitung ist Mel-Frequenz cepstrum (MFC) eine Darstellung des Kurzzeitmacht-Spektrums eines Tons, gestützt auf einem geradlinigen Kosinus verwandeln sich von einem Klotz-Macht-Spektrum auf einer nichtlinearen mel Skala der Frequenz.

Mel-Frequenz cepstral Koeffizienten (MFCCs) ist Koeffizienten, die insgesamt einen MFC zusammensetzen. Sie werden aus einem Typ der cepstral Darstellung der Audiobüroklammer (ein nichtlineares "Spektrum eines Spektrums") abgeleitet. Der Unterschied zwischen dem cepstrum und der Mel-Frequenz cepstrum ist, dass im MFC die Frequenzbänder auf der Mel-Skala ebenso unter Drogeneinfluss sind, die der Antwort des menschlichen Gehörsystems näher näher kommt als die im normalen cepstrum verwendeten Frequenzbänder geradlinig unter Drogeneinfluss. Dieses Frequenzverwerfen kann bessere Darstellung des Tons zum Beispiel in der Audiokompression berücksichtigen.

MFCCs werden wie folgt allgemein abgeleitet:

  1. Nehmen Sie den Fourier verwandeln sich von (ein mit Fenster versehenes Exzerpt) ein Signal.
  2. Stellen Sie die Mächte des Spektrums kartografisch dar, das oben auf die Mel-Skala mit überlappenden Dreiecksfenstern erhalten ist.
  3. Nehmen Sie den Klotz der Mächte an jeder der mel Frequenzen.
  4. Nehmen Sie den getrennten Kosinus verwandeln sich von der Liste von Mel-Klotz-Mächten, als ob es ein Signal war.
  5. Die MFCCs sind die Umfänge des resultierenden Spektrums.

Es kann Schwankungen auf diesem Prozess zum Beispiel geben, Unterschiede in der Gestalt oder dem Abstand der Fenster haben gepflegt, die Skala kartografisch darzustellen. Das europäische Fernmeldestandardinstitut am Anfang der 2000er Jahre hat einen standardisierten MFCC in Mobiltelefonen zu verwendenden Algorithmus definiert.

Anwendungen

MFCCs werden als Eigenschaften in Spracherkennungssystemen wie die Systeme allgemein verwendet, die in ein Telefon gesprochene Zahlen automatisch anerkennen können. Sie sind auch in der Sprecher-Anerkennung üblich, die die Aufgabe ist, Leute von ihren Stimmen anzuerkennen.

MFCCs finden auch Gebrauch in Musik-Informationsgewinnungsanwendungen wie Genre-Klassifikation, Audioähnlichkeitsmaßnahmen usw. zunehmend.

Geräuschempfindlichkeit

MFCC Werte sind in Gegenwart vom zusätzlichen Geräusch nicht sehr robust, und so ist es üblich, ihre Werte in Spracherkennungssystemen zu normalisieren, um den Einfluss des Geräusches zu vermindern. Einige Forscher schlagen Modifizierungen dem grundlegenden MFCC Algorithmus vor, um Robustheit - z.B zu verbessern, indem sie den log-mel-amplitudes zu einer passenden Macht (ungefähr 2 oder 3) vor der Einnahme des DCT erheben, der den Einfluss von Bestandteilen der niedrigen Energie reduziert.

Geschichte

Paul Mermelstein wird normalerweise die Entwicklung des MFC zugeschrieben. Kreditzaum von Mermelstein und Brown für die Idee:

Zaum und Brown haben eine Reihe verwendet 19 belastete durch den Kosinus gegebene Koeffizienten der Spektrum-Gestalt verwandeln sich von den Produktionen von einer Reihe von ungleichförmig Bandfiltern unter Drogeneinfluss. Der Filterabstand wird gewählt, um über 1 Kilohertz logarithmisch zu sein, und die Filterbandbreite wird dort ebenso vergrößert. Wir werden deshalb diese die mit Sitz in mel cepstral Rahmen nennen.

Manchmal werden beide frühen Schöpfer zitiert.

Viele Autoren, einschließlich Davis und Mermelsteins, haben kommentiert, dass sich die geisterhaften Basisfunktionen des Kosinus im MFC verwandeln, sind den Hauptbestandteilen der Spektren sehr ähnlich, die auf die Rede-Darstellung und Anerkennung viel früher von Pols und seinen Kollegen angewandt wurden.


Eichelsquash / Einzeln (Baseball)
Impressum & Datenschutz