Speex

Speex ist ein Audiokompressionsformat ohne Patente, das für die Rede und auch eine Rede der kostenlosen Software codec entworfen ist, der auf Anwendungen von VoIP und podcasts verwendet werden kann. Es basiert auf der CELP Rede, die Algorithmus codiert. Speex behauptet, frei von irgendwelchen offenen Beschränkungen zu sein, und wird laut der revidierten (3-Klauseln-)-BSD-Lizenz lizenziert. Es kann mit dem Behälterformat von Ogg verwendet oder direkt über UDP/RTP übersandt werden.

Die Speex Entwerfer sehen ihr Projekt als ergänzend zu Vorbis Mehrzweckaudiokompressionsprojekt.

Speex ist ein Lossy-Format, meinend, dass Qualität dauerhaft erniedrigt wird, um Dateigröße zu reduzieren.

Das Speex-Projekt wurde am 13. Februar 2002 geschaffen. Die ersten Entwicklungsversionen von Speex wurden laut der LGPL-Lizenz veröffentlicht, aber bezüglich des Betas 1 der Version 1.0 wird Speex unter der Version von Xiph der (revidierten) BSD-Lizenz befreit. Speex 1.0 wurde am 24. März 2003 nach einem Jahr der Entwicklung bekannt gegeben. Die letzte stabile Version von Speex encoder und Decoder ist 1.1.12.

Beschreibung

Verschieden von vielen andere Rede codecs wird Speex an der Zelltelefonie, aber eher am Begleitkommentar IP (VoIP) und der dateibasierten Kompression nicht ins Visier genommen. Die Designabsichten sind gewesen, einen codec zu machen, der für die hohe Qualitätsrede optimiert würde und niedrig Rate b. Um das zu erreichen, verwendet der codec vielfache Bit-Raten, und unterstützt Ultrabreitband (32 Kilohertz, die Rate probieren), Breitband (16 Kilohertz, die Rate probieren) und engbandig (Telefonqualität, 8 Kilohertz, die Rate probieren). Seitdem Speex für den Begleitkommentar IP (VoIP) statt des Mobiltelefon-Gebrauches entworfen wurde, muss der codec zu verlorenen Paketen, aber nicht zu verdorbenen robust sein. All das hat zur Wahl von Code Excited Linear Prediction (CELP) als die Verschlüsselungstechnik geführt, um für Speex zu verwenden. Einer der Hauptgründe ist, dass CELP lange bewiesen hat, dass er den Job tun und gut zu beiden niedrigen Bit-Raten (wie gezeigt, durch DoD CELP 4.8 kbit/s) klettern konnte und hoch Raten (als mit G.728 16 kbit/s) gebissen hat.

Die Haupteigenschaften können wie folgt zusammengefasst werden:

  • Kostenlose Software/open-source, offen und ohne Königtum.
  • Integration von engbandigen und Breitband-in demselben Bit-Strom.
  • Breite Reihe von Bit-Raten verfügbar (von 2 kbit/s bis 44 kbit/s).
  • Dynamische Bit-Rate-Schaltung und Variable Bit-Rate (VBR).
  • Stimmentätigkeitsentdeckung (VAD, der mit VBR integriert ist) (von der Version 1.2 nicht arbeitend).
  • Variable Kompliziertheit.
  • Ultrabreitbandweise an 32 Kilohertz (bis zu 48 Kilohertz).
  • Intensität Stereoverschlüsselungsauswahl.

Eigenschaften

Stichprobenerhebung der Rate: Speex wird für drei verschiedene ausfallende Raten hauptsächlich entworfen: 8 Kilohertz (dieselbe ausfallende Rate, um Anrufe zu übersenden), 16 Kilohertz und 32 Kilohertz. Diese werden beziehungsweise engbandig, Breitband- und Ultrabreitband-genannt.

Qualität: Verschlüsselung von Speex wird den größten Teil der Zeit durch einen Qualitätsparameter kontrolliert, der sich von 0 bis 10 erstreckt. In der Operation der unveränderlichen Bit-Rate (CBR) ist der Qualitätsparameter eine ganze Zahl, während für die variable Bit-Rate (VBR) der Parameter ein echter ist (Punkt schwimmen lassend), Zahl.

Kompliziertheit (Variable): Mit Speex ist es möglich sich zu ändern die Kompliziertheit hat den encoder berücksichtigt. Das wird durch das Steuern getan, wie die Suche mit einer ganzen Zahl im Intervall von 1 bis 10 in einem Weg durchgeführt wird, der den-1 zu-9 Optionen zu gzip Kompressionsdienstprogrammen ähnlich ist. Für den normalen Gebrauch ist das Geräuschniveau an der Kompliziertheit 1 zwischen 1 und 2 DB höher als an der Kompliziertheit 10, aber die Zentraleinheitsvoraussetzungen für die Kompliziertheit 10 sind ungefähr fünfmal höher als für die Kompliziertheit 1. In der Praxis ist der beste Umtausch zwischen der Kompliziertheit 2 und 4, obwohl höhere Einstellungen häufig nützlich sind, wenn sie Nichtsprachlaute wie DTMF-Töne verschlüsseln, oder wenn Verschlüsselung nicht in Realtime ist.

Variable Bit-Rate (VBR): Variable Bit-Rate (VBR) erlaubt einem codec, seine Bit-Rate dynamisch zu ändern, um sich an die "Schwierigkeit" des Audios anzupassen, das wird verschlüsselt. Im Beispiel von Speex, ist Vokalen ähnlich, und energiereiche Übergangsprozesse verlangen, dass eine höhere Bit-Rate gute Qualität erreicht, während Reibelaute (z.B s und F-Töne) entsprechend mit weniger Bit codiert werden können. Deshalb kann VBR niedrigere Bit-Quote für dieselbe Qualität oder eine bessere Qualität für eine bestimmte Bit-Rate erreichen. Trotz seiner Vorteile hat VBR drei Hauptnachteile: Erstens, indem es nur Qualität angegeben wird, gibt es keine Garantie über die endgültige durchschnittliche Bit-Rate. Zweitens, für einige Echtzeitanwendungen wie Begleitkommentar IP (VoIP), was zählt, ist die maximale Bit-Rate, die für den Nachrichtenkanal niedrig genug sein muss. Drittens kann die Verschlüsselung der VBR-verschlüsselten Rede nicht ganze Gemütlichkeit sichern, weil Ausdrücke noch, mindestens in einer kontrollierten Einstellung mit einem kleinen Wörterbuch von Ausdrücken, durch das Analysieren des Musters der Schwankung der Bit-Rate identifiziert werden können.

Average Bit-Rate (ABR): Durchschnittliche Bit-Rate behebt eines der Probleme von VBR, weil es dynamisch VBR Qualität anpasst, um eine spezifische Zielbit-Rate zu entsprechen. Weil der quality/bit-rate in Realtime (offene Schleife) angepasst wird, wird die globale Qualität ein bisschen niedriger sein als das, das durch die Verschlüsselung in VBR mit genau der richtigen Qualität erhalten ist, die untergeht, um den Zieldurchschnitt bitrate zu entsprechen.

Voice Activity Detection (VAD): Wenn ermöglicht, entdeckt Stimmentätigkeitsentdeckung, ob das Audio, das wird verschlüsselt, Rede oder Schweigen/Nebengeräusch ist. VAD wird immer implizit aktiviert, wenn man in VBR verschlüsselt, so ist die Auswahl nur in der non-VBR Operation nützlich. In diesem Fall entdeckt Speex Nichtrede-Perioden und verschlüsselt sie mit gerade genug Bit, um das Nebengeräusch wieder hervorzubringen. Das wird "Bequemlichkeitsgeräuschgeneration" (CNG) genannt. Letzte Version VAD arbeitete fein, ist 1.1.12, seitdem v 1.2 ist es durch den einfachen Jede Tätigkeitsentdeckung ersetzt worden.

Diskontinuierliche Übertragung (DTX): Diskontinuierliche Übertragung ist eine Hinzufügung zur VAD/VBR Operation, die erlaubt aufzuhören, völlig zu übersenden, wenn das Nebengeräusch stationär ist. In einer Datei werden 5 Bit für jeden fehlenden Rahmen (entsprechend 250 bit/s) verwendet.

Erhöhung von Perceptual: Erhöhung von Perceptual ist ein Teil des Decoders, der, wenn angemacht, versucht (die Wahrnehmung) das durch den Prozess des Codierens/Entzifferung erzeugte Geräusch zu reduzieren. In den meisten Fällen, perceptual Erhöhung macht den Ton weiter aus dem Original objektiv (Verhältnis des Signals zum Geräusch), aber schließlich klingt es noch besser (subjektive Verbesserung).

Algorithmische Verzögerung: Jeder codec führt eine Verzögerung in der Übertragung ein. Für Speex ist diese Verzögerung der Rahmengröße plus ein Betrag "des Blicks vorn" gleich, der erforderlich ist, jeden Rahmen zu bearbeiten. In der engbandigen Operation (8 Kilohertz) ist die Verzögerung 30 Millisekunden, während für das Breitband (16 Kilohertz) die Verzögerung 34 Millisekunden ist. Diese Werte sind für die Zentraleinheitszeit nicht verantwortlich, die man braucht, um die Rahmen zu verschlüsseln oder zu decodieren.

Anwendungen

Es gibt bereits eine große Basis von Anwendungen, die Speex codec, davon unterstützen, Anwendungen wie Telefonkonferenz zu verströmen (z.B. TeamSpeak; viele Server bevorzugen Speex wegen seiner guten Qualität), zu Systemen von VoIP (z.B Sternchen), zu Videospielen (z.B Xbox Lebend, Zivilisation 4) und in einer Prozession gehende Audioanwendungen. Die meisten von diesen basieren auf dem Filter von DirectShow oder OpenACM codec (z.B Microsoft NetMeeting) auf Windows von Microsoft, oder Xiph.org Bezugsdurchführung, libvorbis auf Linux (z.B. Ekiga). Es gibt auch plugins für viele Audiospieler. Sieh die Steckseite und Softwareseite auf speex.org Seite für mehr Details.

Das Sektorformat für Speex ist audio/ogg, während enthalten, durch Ogg und audio/speex (vorher audio/x-speex), wenn transportiert, durch RTP oder ohne Behälter.

Das Landkrieger-System der USA-Armee, das durch die Allgemeine Dynamik entworfen ist, verwendet auch Speex für VoIP in einem EPLRS von Raytheon entworfenen Radio.

Die Ohr-Bibel ist ein Kopfhörer des einzelnen Ohrs mit einem eingebauten Spieler von Speex mit 1 GB des Blitz-Gedächtnisses, das mit einer Aufnahme der Neuen amerikanischen Standardbibel vorgeladen ist.

ASL Sicherheit & der Linux der Sicherheit haben VIPA OS Software gestützt, die in langen öffentlichen Linienlautsprecheranlagen und Stimmenwarnungssystemen an internationalen Hauptlufttransportmittelpunkten und Schiene-Netzen verwendet wird.

Das Rockbox-Projekt verwendet Speex für seine Stimmenschnittstelle. Es kann auch Dateien von Speex auf unterstützten Spielern, wie der Apfel-iPod oder der iRiver H10 spielen.

Vernier LabQuest tragbares Datenerfassungsgerät für die Wissenschaftsausbildung verwendet Speex für Stimmenanmerkungen, die von Studenten und Lehrern geschaffen sind, die entweder das eingebaute oder ein Außenmikrofon verwenden.

Der Google Bewegliche App für das iPhone vereinigt zurzeit Speex. Es ist auch darauf hingewiesen worden, dass das neue Stimmensuch-iPhone von Google app Speex verwendet, um Stimme Servern von Google für die Interpretation zu übersenden.

Adobe Flash Player unterstützt Speex, der mit dem Blitz-Spieler 10.0.12.36, veröffentlicht im Oktober 2008 anfängt. Wegen einiger Programmfehler im Blitz-Spieler ist die erste empfohlene Version für die Unterstützung von Speex 10.0.22.87 und später. Speex im Blitz-Spieler kann für beide Art der Kommunikation, durch den Blitz-Mediaserver oder P2P verwendet werden. Speex kann decodiert oder zu jedem Format verschieden von Audio-Nellymoser umgewandelt werden, der das einzige Rede-Format in vorherigen Versionen des Blitz-Spielers war. Speex kann auch im Blitz-Videobehälterformat (.flv) verwendet werden, mit der Version 10 der Videodateiformat-Spezifizierung (veröffentlicht im November 2008) anfangend.

Der Stimmenrecorder von ListenUp von JavaSonics verwendet Speex, um Stimmennachrichten zusammenzupressen, die in einem Browser registriert und dann zu einem Webserver geladen werden. Primäre Anwendungen sind Sprachausbildung, Abschrift und sozialer Netzwerkanschluss.

Speex wird als der Stimmenkompressionsalgorithmus in der Stimmenhilfe von Siri auf dem iPhone 4S verwendet. Da Text zur Rede auf den Servern des Apfels vorkommt, wird Speex codec verwendet, um Netzbandbreite zu minimieren.

Siehe auch

  • Vergleich von Audiocodecs

Links

Dieser Artikel verwendet Material aus dem Speex Codec Handbuch, das copyright © Jean-Marc Valin and ist, der in Form von lizenziert ist.


Pharmacia / Samwise Gamgee
Impressum & Datenschutz