MPEG-1

MPEG-1 ist ein Standard für die lossy Kompression des Videos und Audios. Es wird entworfen, um Rohstoff der VHS-QUALITÄT Digitalvideo und CD Audio-unten zu 1.5 Mbit/s (26:1 und 6:1 Kompressionsverhältnisse beziehungsweise) ohne übermäßigen Qualitätsverlust zusammenzupressen, Video-CDs, digitales Kabel/Satellitenfernsehen und Digitalaudiorundfunkübertragung (DAB) möglich machend.

Heute ist MPEG-1 das am weitesten vereinbare lossy Audio/Video Format in der Welt geworden, und wird in einer Vielzahl von Produkten und Technologien verwendet. Vielleicht ist der am besten bekannte Teil des MPEG-1 Standards das MP3 Audioformat, das es eingeführt hat.

Der MPEG-1 Standard wird als ISO/IEC 11172 - Informationstechnologie — das Codieren von bewegenden Bildern veröffentlicht und Audio-für Digitalspeichermedien an bis zu ungefähr 1.5 Mbit/s vereinigt. Der Standard besteht aus den folgenden fünf Teilen:

  1. Systeme (Lagerung und Synchronisation des Videos, andere und Audiodaten zusammen)
  2. Video (zusammengepresster Videoinhalt)
  3. Audio-(hat Audioinhalt zusammengepresst)
  4. Übereinstimmungsprüfung (die Genauigkeit von Durchführungen des Standards prüfend)
,
  1. Bezugssoftware (Beispiel-Software, die sich zeigt, wie man verschlüsselt und gemäß dem Standard decodiert)

Geschichte

Modelliert auf der erfolgreichen zusammenarbeitenden Annäherung und den Kompressionstechnologien, die von Joint Photographic Experts Group und Experts Group von CCITT auf der Telefonie (Schöpfer des JPEG Bildkompressionsstandards und des H.261 Standards für die Videokonferenzführung beziehungsweise) entwickelt sind, wurde die Arbeitsgruppe von Moving Picture Experts Group (MPEG) im Januar 1988 gegründet. MPEG wurde gebildet, um das Bedürfnis nach dem Standardvideo und den Audioformaten zu richten, und auf H.261 zu bauen, um Qualität durch den Gebrauch von komplizierteren Verschlüsselungsmethoden besser zu werden.

Die Entwicklung des MPEG-1 Standards hat im Mai 1988 begonnen. 14 Video und 14 codec Audiovorschläge wurden von individuellen Gesellschaften und Einrichtungen für die Einschätzung vorgelegt. Die codecs wurden für die rechenbetonte Kompliziertheit umfassend geprüft und (Mensch wahrgenommen) Qualität an Datenraten von 1.5 Mbit/s subjektiv. Dieser spezifische bitrate wurde für die Übertragung T-1/E-1 Linien und als die ungefähre Datenrate von Audio-CDs gewählt. Der codecs, der in dieser Prüfung hervorgeragt hat, wurde als die Basis für den Standard verwertet und hat sich weiter, mit zusätzlichen Eigenschaften und anderen Verbesserungen verfeinert, die im Prozess vereinigen werden.

Nach 20 Sitzungen der vollen Gruppe in verschiedenen Städten um die Welt, und 4½ Jahre der Entwicklung und Prüfung wurde der Endstandard (für Teile 1-3) Anfang November 1992 genehmigt und hat ein paar Monate später veröffentlicht. Der berichtete Fertigstellungstermin des MPEG-1 Standards, ändert sich außerordentlich: Ein größtenteils ganzer Draftstandard wurde im September 1990, und von diesem Punkt darauf erzeugt, nur geringe Änderungen wurden eingeführt. Der Draftstandard war für den Kauf öffentlich verfügbar. Der Standard wurde mit der Sitzung am 6. November 1992 beendet. Berkeley Plateau Multimedia Research Group hat einen MPEG-1 Decoder im November 1992 entwickelt. Im Juli 1990, bevor der erste Entwurf des MPEG-1 Standards sogar geschrieben worden war, hat Arbeit auf einem zweiten Standard, MPEG-2, beabsichtigt begonnen, um MPEG-1 Technologie zu erweitern, um volles Sendungsqualitätsvideo (laut CCIR 601) an hohem bitrates (3-15 Mbit/s), und Unterstützung für das verflochtene Video zur Verfügung zu stellen. Teilweise dank der Ähnlichkeit zwischen den zwei codecs schließt der MPEG-2 Standard voll umgekehrt Vereinbarkeit mit dem MPEG-1 Video ein, so kann jeder MPEG-2 Decoder MPEG-1 Videos spielen.

Namentlich definiert der MPEG-1 Standard sehr ausschließlich den bitstream und die Decoder-Funktion, aber definiert nicht, wie MPEG-1-Verschlüsselung durchgeführt werden soll, obwohl eine Bezugsdurchführung in ISO/IEC-11172-5 zur Verfügung gestellt wird. Das bedeutet, dass MPEG-1, den das Codieren der Leistungsfähigkeit abhängig vom encoder drastisch ändern kann, verwendet hat, und allgemein bedeutet, dass neuere encoders bedeutsam besser leisten als ihre Vorgänger. Die ersten drei Teile (Systeme, Video und Audio-) ISO/IEC 11172 wurden im August 1993 veröffentlicht.

Patente

MPEG-1 Video und Schicht Audio-I/II können im Stande sein, ohne Zahlung von Lizenzgebühren durchgeführt zu werden. Die ISO-Patent-Datenbank verzeichnet ein Patent für ISO 11172, die Vereinigten Staaten 4,472,747, der 2003 abgelaufen ist. Der nah-ganze Entwurf des MPEG-1 Standards war als ISO CD 11172 vor dem 6. Dezember 1991 öffentlich verfügbar. Wegen seines Alters sind viele der Patente auf der Technologie abgelaufen. Weder der Artikel Kuro5hin "Offener Status von MPEG-1, H.261 und MPEG-2" noch ein Faden auf der gstreamer-devel Adressenliste sind im Stande gewesen, ein einzelnes nicht abgelaufenes MPEG-1 Video und Schicht I/II Audiopatent zu verzeichnen. Eine Diskussion über whatwg hat die jetzt ungültigen Vereinigten Staaten 5,214,678 Patent als ein mögliches Patent auf der Audioschicht II erwähnt. Ein voller MPEG-1 Decoder und encoder können nicht durchgeführtes freies Königtum sein, da es Gesellschaften gibt, die offene Gebühren für Durchführungen der MPEG-1 Schicht 3 Audio, wie besprochen, im Artikel MP3 verlangen.

Anwendungen

  • Die populärste Software für das Videoplay-Back schließt MPEG-1-Entzifferung zusätzlich zu irgendwelchen anderen unterstützten Formaten ein.
  • Die Beliebtheit des MP3 Audios hat eine massive installierte Basis der Hardware gegründet, die MPEG-1 Audio (alle drei Schichten) abspielen kann.
  • "Eigentlich können alle Digitalaudiogeräte" MPEG-1 Audio abspielen. Viele Millionen sind bis heute verkauft worden.
  • Bevor MPEG-2 weit verbreitet geworden ist, haben viele Digitaldienstleistungen des Satelliten/Kabelfernsehens MPEG-1 exklusiv verwendet.
  • Die weit verbreitete Beliebtheit von MPEG-2 mit Fernsehsprechern bedeutet, dass MPEG-1 durch die meisten und mit dem Satz obersten Digitalkabelsatellitenkästen und Digitalscheibe- und Band-Spieler wegen umgekehrt der Vereinbarkeit spielbar ist.
  • MPEG-1 ist das exklusive Video- und Audioformat, das auf der Grünen Buch-CD-i, der erste Verbraucher Digitalvideoformat, und auf der Video-CD (VCD), noch ein sehr populäres Format um die Welt verwendet ist.
  • Der Supervideo-CD-Standard, der auf VCD gestützt ist, verwendet MPEG-1 Audio exklusiv, sowie MPEG-2 Video.
  • Das mit der DVDvideoformat verwendet MPEG-2 Video in erster Linie, aber MPEG-1-Unterstützung wird im Standard ausführlich definiert.
  • Der mit der DVDvideostandard hat ursprünglich MPEG-1 Schicht II Audio für FREUND-Länder verlangt, aber wurde geändert, um AC-3/Dolby Digitaleinzige Scheiben zu erlauben. MPEG-1 Schicht, die II Audio noch auf DVDs erlaubt wird, obwohl neuere Erweiterungen auf das Format, wie Mehrkanal-MPEG, selten unterstützt werden.
  • Die meisten DVD-Spieler unterstützen auch Video-CD und MP3 CD-Play-Back, die MPEG-1 verwenden.
  • Der internationale Standard von Digital Video Broadcasting (DVB) verwendet in erster Linie MPEG-1 Schicht II MPEG-2 und Audiovideo.
  • Der internationale Standard von Digital Audio Broadcasting (DAB) verwendet MPEG-1 Schicht II Audio exklusiv, wegen MP2's besonders hohe Qualität, bescheidene Decoder-Leistungsvoraussetzungen und Toleranz von Fehlern.

Teil 1: Systeme

Der Teil 1 des MPEG-1 Standards bedeckt Systeme, und wird in ISO/IEC-11172-1 definiert.

MPEG-1 Systeme geben das logische Lay-Out an, und Methoden haben gepflegt, die verschlüsselten und anderen Audiovideodaten in einen Standard bitstream zu versorgen, und Synchronisation zwischen dem verschiedenen Inhalt aufrechtzuerhalten. Dieses Dateiformat wird für die Lagerung auf Medien und Übertragung über Datenkanäle spezifisch entworfen, die relativ zuverlässig betrachtet werden. Nur beschränkter Fehlerschutz wird durch den Standard definiert, und kleine Fehler im bitstream können erkennbare Defekte verursachen.

Diese Struktur wurde später einen MPEG Programm-Strom genannt: "Das MPEG-1 Systemdesign ist zur MPEG-2 Programm-Strom-Struktur im Wesentlichen identisch." Diese Fachsprache ist populärer, genau (unterscheidet es von einem MPEG-Transportstrom), und wird hier verwendet.

Elementare Ströme

Elementary Streams (ES) sind der Rohstoff bitstreams von MPEG-1 verschlüsselten und Audiovideodaten (Produktion von einem encoder). Diese Dateien können selbstständig, solche verteilt werden, die mit MP3 Dateien der Fall sind.

Packetized Elementary Streams (PES) sind elementare Ströme packetized in Pakete von variablen Längen, d. h., geteilter ES in unabhängige Klötze, wo Kontrollsumme der zyklischen Redundanzprüfung (CRC) zu jedem Paket für die Fehlerentdeckung hinzugefügt wurde.

System Clock Reference (SCR) ist ein Timing-Wert, der in einem 33-Bit-Kopfball jedes PES an einer Frequenz/Präzision von 90 Kilohertz mit einer Extra-9-Bit-Erweiterung versorgt ist, die zusätzliche Timing-Daten mit einer Präzision von 27 MHz versorgt. Diese werden durch den encoder eingefügt, ist auf die Systemkontrolluhr (STC) zurückzuführen gewesen. Gleichzeitig verschlüsselte Audio- und Videoströme werden identische SCR-Werte, jedoch, wegen Pufferung, Verschlüsselung, Bammels und anderer Verzögerung nicht haben.

Programm-Ströme

Program Streams (PS) sind mit sich verbindenden vielfachen packetized elementaren Strömen (gewöhnlich gerade ein Audio- und Video-PES) in einen einzelnen Strom beschäftigt, gleichzeitige Übergabe sichernd, und Synchronisation aufrechterhaltend. PS ist Struktur als ein Mehrfach-, oder ein Behälterformat bekannt.

Präsentationszeitstempel (PTS) bestehen in PS, um die unvermeidliche Verschiedenheit zwischen Audio- und Video-SCR-Werten (Zeitbasis-Korrektur) zu korrigieren. PTS 90-Kilohertz-Werte in PS erzählt Kopfball den Decoder, der Video-SCR Match schätzt, das Audio-SCR schätzt. PTS bestimmt, wenn man einen Teil eines MPEG Programms zeigt, und auch durch den Decoder verwendet wird, um zu bestimmen, wenn Daten vom Puffer verworfen werden können. Entweder Video oder Audio werden durch den Decoder verzögert, bis das entsprechende Segment vom anderen ankommt und decodiert werden kann.

Das PTS Berühren kann problematisch sein. Decoder müssen vielfache Programm-Ströme akzeptieren, die (angeschlossen folgend) verkettet worden sind. Das veranlasst PTS-Werte in der Mitte des Videos, zur Null neu zu fassen, die dann beginnen, wieder zu erhöhen. Solche PTS Bildumlauf-Verschiedenheiten können Timing-Probleme verursachen, die besonders durch den Decoder behandelt werden müssen.

Decoding Time Stamps (DTS) sind zusätzlich wegen B-Rahmen erforderlich. Mit B-Rahmen im Videostrom müssen angrenzende Rahmen verschlüsselt und in Unordnung (wiederbestellte Rahmen) decodiert werden. DTS ist PTS ziemlich ähnlich, aber anstatt gerade folgende Rahmen zu behandeln, enthält es die richtigen Zeitstempel, um den Decoder zu erzählen, wenn man decodiert und den folgenden B-Rahmen (Typen von Rahmen zeigt, die unten erklärt sind) vor seinem Anker (P- oder I-) Rahmen. Ohne B-Rahmen im Video sind PTS und DTS-Werte identisch.

Gleichzeitig zu senden

Um PS zu erzeugen, wird der multiplexer (zwei oder mehr) packetized elementare Ströme durchschießen. Das wird so getan die Pakete der gleichzeitigen Ströme können über denselben Kanal übertragen werden und werden zu beiden versichert erreichen den Decoder in genau derselben Zeit. Das ist ein Fall der gleichzeitig sendenden Zeitabteilung.

Die Bestimmung, wie viel Daten von jedem Strom in jedem durchgeschossenen Segment sein sollten (die Größe der Auslassung), wird noch eine wichtige Voraussetzung kompliziert. Das unpassende Durchschießen wird auf Pufferunterläufe oder Überschwemmungen hinauslaufen, weil der Empfänger mehr von einem Strom bekommt, als es versorgen kann (eg. Audio-), bevor es veranlasst, dass genug Daten den anderen gleichzeitigen Strom (eg. Video) decodieren. MPEG Video Buffering Verifier (VBV) hilft bei der Bestimmung, wenn ein gleichzeitig gesandter PS durch ein Gerät mit einer angegebenen Datendurchfluss-Rate und Puffergröße decodiert werden kann. Das bietet Feed-Back dem muxer und dem encoder an, so dass sie die mux Größe ändern oder bitrates, wie erforderlich, für den Gehorsam anpassen können.

Teil 2: Video

Der Teil 2 des MPEG-1 Standards bedeckt Video und wird in ISO/IEC-11172-2 definiert. Das Design war schwer unter Einfluss H.261.

MPEG-1 Video nutzt perceptual Kompressionsmethoden aus, die durch einen Videostrom erforderliche Datenrate bedeutsam zu reduzieren. Es reduziert oder verwirft völlig Information in bestimmten Frequenzen und Gebieten des Bildes, das das menschliche Auge Fähigkeit beschränkt hat völlig wahrzunehmen. Es nutzt auch zeitlich (mit der Zeit) und räumlich (über ein Bild) im Video übliche Überfülle aus, um bessere Datenkompression zu erreichen, als sonst möglich sein würde. (Sieh: Videokompression)

Farbenraum

Vor der Verschlüsselung des Videos zu MPEG-1 wird der Farbenraum in Y'CbCr (Y' =Luma, Cb=Chroma Blau, Cr=Chroma Rot) umgestaltet. Luma (Helligkeit, Entschlossenheit) wird getrennt von chroma (Farbe, Farbton, Phase) versorgt und noch weiter in rote und blaue Bestandteile getrennt. Der chroma wird auch subprobiert zu, bedeutend, dass er durch eine Hälfte vertikal und eine Hälfte horizontal, zu gerade einem Viertel die Entschlossenheit des Videos reduziert wird.

Dieser Softwarealgorithmus hat auch Analogien in der Hardware wie die Produktion von einem Muster-Filter von Bayer, der in Digitalfarbenkameras üblich ist.

Weil das menschliche Auge zu kleinen Änderungen in der Helligkeit (der Y Bestandteil) viel empfindlicher ist als in der Farbe (die Bestandteile von Cr und Cb), chroma Probenteilung ist eine sehr wirksame Weise, den Betrag von Videodaten zu reduzieren, der zusammengepresst werden muss. Auf Videos mit dem feinen Detail (hohe Raumkompliziertheit) kann das als chroma aliasing Kunsterzeugnisse erscheinen. Im Vergleich zu anderen Digitalkompressionskunsterzeugnissen scheint dieses Problem, sehr selten eine Quelle des Ärgers zu sein.

Wegen der Probenteilung muss Video von Y'CbCr immer mit sogar Dimensionen (teilbar durch 2) versorgt werden, sonst chroma Fehlanpassung ("Geister") wird vorkommen, und es wird erscheinen, als ob die Farbe vor, oder hinter dem Rest des Videos viel wie ein Schatten ist.

Y'CbCr wird häufig YUV ungenau genannt, der nur im Gebiet von analogen Videosignalen verwendet wird. Ähnlich werden die Begriffe Klarheit und Farbsignal häufig statt der (genaueren) Begriffe luma und chroma gebraucht.

Resolution/Bitrate

MPEG-1 unterstützt Entschlossenheiten bis zu 4095×4095 (12 Bit) und bitrates bis zu 100 Mbit/s.

MPEG-1 Videos werden meistens mit der Entschlossenheit von Source Input Format (SIF) gesehen: 352x240, 352x288, oder 320x240. Diese niedrigen Entschlossenheiten, die mit einem bitrate weniger als 1.5 Mbit/s verbunden sind, setzen zusammen, was als gezwungene Rahmen bitstream (CPB) bekannt ist, später hat die "Niedrige Stufe" (LL) Profil in MPEG-2 umbenannt. Das ist die minimalen Videospezifizierungen jeder Decoder sollte im Stande sein, MPEG-1 zu behandeln, als er zu werden. Das wurde ausgewählt, um ein gutes Gleichgewicht zwischen Qualität und Leistung zur Verfügung zu stellen, den Gebrauch der vernünftig billigen Hardware der Zeit erlaubend.

Typen des Rahmens/Bildes/Blocks

MPEG-1 hat mehrere Typen des Rahmens/Bildes, die verschiedenen Zwecken dienen. Das wichtigste, noch am einfachsten, ist I-Rahmen.

I-Rahmen

I-Rahmen ist eine Abkürzung für, so genannt, weil sie unabhängig von irgendwelchen anderen Rahmen decodiert werden können. Sie können auch als I-Bilder bekannt, oder wegen ihrer etwas ähnlichen Funktion zu den im Zeichentrickfilm verwendeten Schlüsselrahmen keyframes sein. I-Rahmen können effektiv identisch zur Grundlinie JPEG Images betrachtet werden.

Das Hochleistungssuchen durch ein MPEG-1 Video ist nur zum nächsten I-Rahmen möglich. Wenn man ein Video schneidet, ist es nicht möglich, Play-Back eines Segmentes des Videos vor dem ersten I-Rahmen im Segment (mindestens nicht ohne rechenbetont intensive Wiederverschlüsselung) anzufangen. Deshalb "rahme ich nur" MPEG Videos ein werden im Redigieren von Anwendungen verwendet.

I-Rahmen ist nur Kompression sehr schnell, aber erzeugt sehr große Dateigrößen: ein Faktor 3× (oder mehr) größer als normalerweise verschlüsseltes MPEG-1 Video, je nachdem wie zeitlich kompliziert ein spezifisches Video ist. I-Rahmen nur MPEG-1 Video ist dem MJPEG Video sehr ähnlich. So viel, so dass sehr schnelllaufend und theoretisch lossless (in Wirklichkeit es Rundungsfehler gibt), kann Konvertierung von einem Format bis den anderen gemacht, zur Verfügung gestellt werden einige Beschränkungen (färben Sie Raum, und quantization Matrix) werden in der Entwicklung des bitstream gefolgt.

Die Länge zwischen I-Rahmen ist als die Größe der Gruppe von Bildern (GOP) bekannt. MPEG-1 verwendet meistens eine Größe von republikanischen Partei 15-18. d. h. 1 I-Rahmen für jeden 14-17 "entwickle nicht ich mich" (eine Kombination von P-- und B-Rahmen). Mit intelligenterem encoders wird Größe von republikanischer Partei, bis zu etwas vorausgewählte maximale Grenze dynamisch gewählt.

Grenzen werden auf der maximalen Zahl von Rahmen zwischen I-Rahmen wegen der Entzifferung complexing, Decoder-Puffergröße, Wiederherstellungszeit nach Datenfehlern gelegt, Fähigkeit und Anhäufung von IDCT Fehlern in in Hardware-Decodern am üblichsten Durchführungen der niedrigen Präzision suchend (Sieh: IEEE-1180).

P-Rahmen

P-Rahmen ist eine Abkürzung für den Vorausgesagten Rahmen. Sie können auch vorwärtsvorausgesagte Rahmen genannt werden, oder Rahmen (sind B-Rahmen auch Zwischenrahmen).

P-Rahmen bestehen, um Kompression durch die Ausnutzung (mit der Zeit) in einem Video zu verbessern. P-Rahmen versorgen nur den Unterschied im Image vom Rahmen (entweder ein I-Rahmen oder P-Rahmen) sofort das Vorangehen ihm (dieser Bezugsrahmen wird auch den Rahmen genannt).

Der Unterschied zwischen einem P-Rahmen und seinem Ankerrahmen wird mit Bewegungsvektoren auf jedem Makroblock des Rahmens (sieh unten) berechnet. Solche Bewegungsvektor-Daten werden im P-Rahmen für den Gebrauch durch den Decoder eingebettet.

Ein P-Rahmen kann jede Zahl von intracodierten Blöcken zusätzlich zu irgendwelchen vorwärtsvorausgesagten Blöcken enthalten.

Wenn sich ein Video drastisch von einem Rahmen bis das folgende ändert (wie eine Kürzung), ist es effizienter, es als ein I-Rahmen zu verschlüsseln.

B-Rahmen

B-Rahmen tritt für bidirektionalen Rahmen ein. Sie können auch als umgekehrt vorausgesagte Rahmen oder B-Bilder bekannt sein. B-Rahmen sind P-Rahmen ziemlich ähnlich, außer können ihnen Vorhersagen mit sowohl den vorherigen als auch zukünftigen Rahmen (d. h. zwei Ankerrahmen) machen.

Es ist deshalb für den Spieler notwendig, zuerst den folgenden I- oder P-Ankerrahmen folgend nach dem B-Rahmen zu decodieren, bevor der B-Rahmen decodiert und gezeigt werden kann. Das bedeutet, B-Rahmen zu decodieren, verlangt größere Datenpuffer und verursacht eine vergrößerte Verzögerung sowohl auf der Entzifferung als auch während der Verschlüsselung. Das macht auch die Eigenschaft der Entzifferung von Zeitstempeln (DTS) im Strom des Behälters/Systems nötig (sieh oben). Als solcher sind B-Rahmen lange Thema von viel Meinungsverschiedenheit gewesen, sie werden häufig in Videos vermieden, und werden manchmal durch Hardware-Decoder nicht völlig unterstützt.

Keine anderen Rahmen werden von einem B-Rahmen vorausgesagt. Wegen dessen kann ein sehr niedriger bitrate B-Rahmen, wo erforderlich, eingefügt werden, um zu helfen, den bitrate zu kontrollieren. Wenn das mit einem P-Rahmen getan würde, würden zukünftige P-Rahmen davon vorausgesagt und würden die Qualität der kompletten Folge senken. Jedoch ähnlich muss der zukünftige P-Rahmen noch alle Änderungen dazwischen und dem vorherigen I- oder P-Ankerrahmen verschlüsseln. B-Rahmen können auch in Videos vorteilhaft sein, wo der Hintergrund hinter einem Gegenstand über mehrere Rahmen, oder in verwelkenden Übergängen wie Szene-Änderungen offenbart wird.

Ein B-Rahmen kann jede Zahl von intracodierten Blöcken und vorwärtsvorausgesagten Blöcken zusätzlich zu umgekehrt vorausgesagten oder bidirektional vorausgesagten Blöcken enthalten.

D-Rahmen

MPEG-1 hat einen einzigartigen in späteren Videostandards nicht gefundenen Rahmentyp. D-Rahmen oder Gleichstrom-Bilder sind unabhängige Images (Intrarahmen), die Gleichstrom-Only-verschlüsselt worden sind (AC Koeffizienten werden entfernt - sehen DCT unten), und sind folglich sehr niedrige Qualität. In D-Rahmen wird durch I-, P- oder B-Rahmen nie Verweise angebracht. D-Rahmen werden nur für schnelle Vorschauen auf das Video zum Beispiel verwendet, wenn man durch ein Video mit der hohen Geschwindigkeit sucht.

Gegeben gemäßigt Entzifferungsausrüstung der höheren Leistung, dieser Eigenschaft kann durch die Entzifferung von I-Rahmen stattdessen näher gekommen werden. Das stellt höhere Qualitätsvorschauen, und ohne das Bedürfnis nach D-Rahmen zur Verfügung, die Raum im Strom noch aufnehmen, Videoqualität nicht verbessernd.

Makroblöcke

MPEG-1 funktioniert auf dem Video in einer Reihe 8x8 Blöcke für quantization. Jedoch, weil chroma (Farbe) durch einen Faktor 4 subprobiert wird, entspricht jedes Paar (rot und blau) chroma Blöcke 4 verschiedenen Luma-Blöcken. Dieser Satz von 6 Blöcken, mit einer Entschlossenheit 16x16, wird einen Makroblock genannt.

Ein Makroblock ist die kleinste unabhängige Einheit des (farben)-Videos. Bewegungsvektoren funktionieren (sieh unten) allein am Makroblock-Niveau.

Wenn die Höhe und/oder Breite des Videos von 16 nicht genau sind, muss eine volle Reihe von Makroblöcken noch (obwohl nicht gezeigt) verschlüsselt werden, um den Rest des Bildes (Makroblock-Polstern) zu versorgen. Das vergeudet eine bedeutende Datenmenge im bitstream und soll ausschließlich vermieden werden.

Einige Decoder werden auch Videos mit teilweisen Makroblöcken unpassend behandeln, auf sichtbare Kunsterzeugnisse hinauslaufend.

Bewegungsvektoren

Um den Betrag der Raumüberfülle in einem Video zu vermindern, blockiert nur diese Änderung, werden (bis zur maximalen Größe von republikanischen Partei) aktualisiert. Das ist als bedingtes Nachfüllen bekannt. Jedoch ist das allein nicht sehr wirksam. Bewegung der Gegenstände und/oder die Kamera können auf große Teile des Rahmens hinauslaufen, der aktualisiert werden muss, wenn auch sich nur die Position der vorher verschlüsselten Gegenstände geändert hat. Durch die Bewegungsbewertung kann der encoder diese Bewegung ersetzen und einen großen Betrag der überflüssigen Information entfernen.

Der encoder vergleicht den aktuellen Rahmen mit angrenzenden Teilen des Videos vom Ankerrahmen (vorheriger I-- oder P-Rahmen) in einem Diamantmuster bis zu einer (encoder-spezifischen) vorherbestimmten Radius-Grenze vom Gebiet des aktuellen Makroblocks. Wenn ein Match gefunden wird, müssen nur die Richtung und Entfernung (d. h. der Bewegung) vom vorherigen Videogebiet bis den aktuellen Makroblock in den Zwischenrahmen (P- oder B-Rahmen) verschlüsselt werden. Die Rückseite dieses Prozesses, der durch den Decoder durchgeführt ist, um das Bild wieder aufzubauen, wird Bewegungsentschädigung genannt.

Ein vorausgesagter Makroblock vergleicht selten das aktuelle Bild vollkommen jedoch. Die Unterschiede zwischen dem geschätzten zusammenpassenden Gebiet und dem echten Rahmen/Makroblock werden den Vorhersagefehler genannt. Je größer der Fehler, desto mehr Daten im Rahmen zusätzlich verschlüsselt werden müssen. Für die effiziente Videokompression ist es sehr wichtig, dass der encoder zu effektiv und genau leistende Bewegungsbewertung fähig ist.

Bewegungsvektoren registrieren die Entfernung zwischen zwei Gebieten auf dem Schirm, der auf der Zahl von Pixeln gestützt ist (hat pels genannt). MPEG-1 Video verwendet eine Präzision des Bewegungsvektoren (MV) einer Hälfte eines Pixels oder half-pel. Je feiner die Präzision des MVs, desto genauer das Match wahrscheinlich, und das effizientere die Kompression sein wird. Es gibt Umtausche zur höheren Präzision jedoch. Feinere MVs laufen auf größere Datengröße hinaus, weil größere Zahlen im Rahmen für jeden einzelnen MV versorgt werden müssen, hat Codierkompliziertheit vergrößert, weil zunehmende Niveaus der Interpolation auf dem Makroblock sowohl für den encoder als auch für Decoder, und (minimale Gewinne) mit der höheren Präzision MVs erforderlich sind. Half-pel wurde als der ideale Umtausch gewählt. (Sieh: qpel)

Weil benachbarte Makroblöcke wahrscheinlich sehr ähnliche Bewegungsvektoren haben werden, kann diese überflüssige Information ganz effektiv zusammengepresst werden, indem sie DPCM-verschlüsselt versorgt wird. Nur der (kleinere) Betrag des Unterschieds zwischen dem MVs für jeden Makroblock muss im endgültigen bitstream versorgt werden.

P-Rahmen haben 1 Bewegungsvektoren pro Makroblock hinsichtlich des vorherigen Ankerrahmens. B-Rahmen können jedoch 2 Bewegungsvektoren verwenden; ein vom vorherigen Ankerrahmen, und ein vom zukünftigen Ankerrahmen.

Teilweise Makroblöcke und schwarze Grenzen/Bars haben ins Video verschlüsselt, die genau auf einer Makroblock-Grenze, Ursache-Verwüstung mit der Bewegungsvorhersage nicht fallen. Die Block-Information des Polsterns/Grenze verhindert den Makroblock davon, mit jedem anderen Gebiet des Videos nah zusammenzupassen, und so muss bedeutsam größere Vorhersagefehlerinformation für jeden der mehrerer Dutzende teilweiser Makroblöcke entlang der Schirm-Grenze verschlüsselt werden. DCT Verschlüsselung und quantization sind (sieh unten) auch nicht fast als wirksam, wenn es große/scharfe Bilderunähnlichkeit in einem Block gibt.

Ein noch ernsteres Problem besteht mit Makroblöcken, die bedeutend, zufällig, Rand-Geräusch, wo die Bilderübergänge zu (normalerweise) schwarz enthalten. Alle obengenannten Probleme gelten auch für das Rand-Geräusch. Außerdem ist die zusätzliche Zufälligkeit einfach zur Kompresse bedeutsam unmöglich. Alle diese Effekten werden die Qualität senken (oder den bitrate vergrößern) des Videos wesentlich.

DCT

Jeder 8x8 Block wird durch die erste Verwendung von Forward Discrete Cosine Transform (FDCT) und dann einem Quantization-Prozess verschlüsselt. Der FDCT-Prozess ist (allein) theoretisch lossless, und kann durch die Verwendung eines Gegenteils DCT (IDCT) umgekehrt werden, um die ursprünglichen Werte (ohne jeden quantization und Rundungsfehler) wieder hervorzubringen. In Wirklichkeit gibt es einige (manchmal groß) Rundungsfehler eingeführt beide durch quantization im encoder (wie beschrieben, in der folgenden Abteilung) und durch den IDCT Annäherungsfehler im Decoder. Die minimale erlaubte Genauigkeit eines Decoders IDCT Annäherung wird durch ISO/IEC 23002-1 definiert. (Vor 2006 wurde es durch IEEE 1180-1990 angegeben.)

Der FDCT-Prozess wandelt sich 8x8 Block von unkomprimierten Pixel-Werten (Helligkeit oder Farbenunterschied-Werte) in 8x8 mit einem Inhaltsverzeichnis versehene Reihe von mitwirkenden Frequenzwerten um. Einer von diesen ist (statistisch hoch in der Abweichung) Gleichstrom-Koeffizient, der den durchschnittlichen Wert des kompletten 8x8 Block vertritt. Die anderen 63 Koeffizienten sind die statistisch kleineren AC Koeffizienten, die positive oder negative Werte jeder vertretende sinusförmige Abweichungen vom flachen durch den Gleichstrom-Koeffizienten vertretenen Block-Wert sind.

Ein Beispiel eines verschlüsselten 8x8 FDCT Block:

:

\begin {bmatrix }\

- 415 &-30 &-61 & 27 & 56 &-20 &-2 & 0 \\

4 &-22 &-61 & 10 & 13 &-7 &-9 & 5 \\

- 47 & 7 & 77 &-25 &-29 & 10 & 5 &-6 \\

- 49 & 12 & 34 &-15 &-10 & 6 & 2 & 2 \\

12 &-7 &-13 &-4 &-2 & 2 &-3 & 3 \\

- 8 & 3 & 2 &-6 &-2 & 1 & 4 & 2 \\

- 1 & 0 & 0 &-2 &-1 &-3 & 4 &-1 \\

0 & 0 &-1 &-4 &-1 & 0 & 1 & 2

\end {bmatrix }\

</Mathematik>

Da der mitwirkende Gleichstrom-Wert von einem Block bis das folgende statistisch aufeinander bezogen wird, wird es mit der DPCM Verschlüsselung zusammengepresst. Nur der (kleinere) Betrag des Unterschieds zwischen jedem Gleichstrom-Wert und dem Wert des Gleichstrom-Koeffizienten im Block zu seinen linken Bedürfnissen, im endgültigen bitstream vertreten zu werden.

Zusätzlich stellt die durchgeführte Frequenzkonvertierung durch die Verwendung des DCT eine statistische Decorrelation-Funktion zur Verfügung, das Signal in weniger Werte des hohen Umfangs vor der Verwendung quantization (sieh unten) effizient zu konzentrieren.

Quantization

Quantization (Digitaldaten), ist im Wesentlichen, der Prozess, die Genauigkeit eines Signals, durch das Teilen davon in eine größere Schritt-Größe (d. h. die Entdeckung des nächsten Vielfaches, und die Verschrottung des Rests/Moduls) zu reduzieren.

Das Rahmenniveau quantizer ist eine Zahl von 0 bis 31 (obwohl encoders gewöhnlich einige der äußersten Werte weglassen/unbrauchbar machen wird), der bestimmt, wie viel Information von einem gegebenen Rahmen entfernt wird. Das Rahmenniveau quantizer wird entweder durch den encoder dynamisch ausgewählt, um einen bestimmten benutzerangegebenen bitrate aufrechtzuerhalten, oder (viel weniger allgemein) direkt vom Benutzer angegeben.

Gegen den populären Glauben liefert ein festes Rahmenniveau quantizer (gesetzt vom Benutzer) kein unveränderliches Niveau der Qualität. Statt dessen ist es ein willkürlicher metrischer, der ein etwas unterschiedliches Niveau der Qualität abhängig vom Inhalt jedes Rahmens zur Verfügung stellen wird. In Anbetracht zwei Dateien identischer Größen sollte diejenige, die an einem Durchschnitt bitrate verschlüsselt ist, besser aussehen als derjenige, der mit einem festen quantizer (Variable bitrate) verschlüsselt ist. Unveränderliche Quantizer-Verschlüsselung kann jedoch verwendet werden, um das Minimum und Maximum bitrates möglich genau zu bestimmen, für ein gegebenes Video zu verschlüsseln.

Eine quantization Matrix ist eine Reihe von 64 Nummern (0-255), die den encoder erzählt, wie relativ wichtig oder unwichtig jedes Stück der Sehinformation ist. Jede Zahl in der Matrix entspricht einem bestimmten Frequenzbestandteil des Videoimages.

Ein Beispiel quantization Matrix:

:\begin {bmatrix }\

16 & 11 & 10 & 16 & 24 & 40 & 51 & 61 \\

12 & 12 & 14 & 19 & 26 & 58 & 60 & 55 \\

14 & 13 & 16 & 24 & 40 & 57 & 69 & 56 \\

14 & 17 & 22 & 29 & 51 & 87 & 80 & 62 \\

18 & 22 & 37 & 56 & 68 & 109 & 103 & 77 \\

24 & 35 & 55 & 64 & 81 & 104 & 113 & 92 \\

49 & 64 & 78 & 87 & 103 & 121 & 120 & 101 \\

72 & 92 & 95 & 98 & 112 & 100 & 103 & 99

\end {bmatrix }\</Mathematik>

Quantization wird durch die Einnahme von jedem der 64 Frequenzwerte des DCT-Blocks, das Teilen von ihnen durch das Rahmenniveau quantizer, dann das Teilen von ihnen durch ihre entsprechenden Werte in der quantization Matrix durchgeführt. Schließlich wird das Ergebnis nach unten abgerundet. Das nimmt bedeutsam ab, oder beseitigt völlig, die Information in einigen Frequenzbestandteilen des Bildes. Gewöhnlich ist hohe Frequenzinformation weniger visuell wichtig, und so werden hohe Frequenzen (drastisch reduziert) viel stärker gequantelt. MPEG-1 verwendet wirklich zwei getrennte quantization matrices, ein für Intrablöcke (I-Blöcke) und ein für den Zwischenblock (P- und B-Blöcke), so quantization verschiedener Block-Typen kann unabhängig, und so effektiver getan werden.

Dieser Quantization-Prozess reduziert gewöhnlich eine bedeutende Anzahl der AC Koeffizienten zur Null, (bekannt als Daten), der dann durch das Wärmegewicht-Codieren (lossless Kompression) im nächsten Schritt effizienter zusammengepresst werden kann.

Ein Beispiel hat DCT-Block gequantelt:

:\begin {bmatrix }\

- 26 &-3 &-6 & 2 & 2 &-1 & 0 & 0 \\

0 &-2 &-4 & 1 & 1 & 0 & 0 & 0 \\

- 3 & 1 & 5 &-1 &-1 & 0 & 0 & 0 \\

- 4 & 1 & 2 &-1 & 0 & 0 & 0 & 0 \\

1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\

0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\

0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\

0 & 0 & 0 & 0 & 0 & 0 & 0 & 0

\end {bmatrix }\</Mathematik>

Quantization beseitigt eine große Datenmenge, und ist der wichtige lossy, der Schritt in der MPEG-1 Videoverschlüsselung bearbeitet. Das ist auch die primäre Quelle von den meisten MPEG-1 Videokompressionskunsterzeugnissen, wie blockiness, Farbenstreifenbildungen, Geräusch, das Klingeln, die Verfärbung, u. a. Das geschieht, wenn Video mit einem ungenügenden bitrate verschlüsselt wird, und der encoder deshalb gezwungen wird, hohes Rahmenniveau quantizers (starker quantization) durch viel vom Video zu verwenden.

Das Wärmegewicht-Codieren

Mehrere Schritte in der Verschlüsselung des MPEG-1 Videos sind lossless, bedeutend, dass sie nach der Entzifferung umgekehrt werden, um genau dieselben (ursprünglichen) Werte zu erzeugen. Da diese lossless Datenkompressionsschritte Geräusch darin nicht hinzufügen, oder sonst den Inhalt ändern (verschieden von quantization), wird es manchmal das geräuschlose Codieren genannt. Seitdem lossless Kompression hat zum Ziel, so viel Überfülle wie möglich zu entfernen, es ist als das Wärmegewicht-Codieren im Feld der Informationstheorie bekannt.

Die Koeffizienten von gequantelten DCT-Blöcken neigen zur Null zum untersten Recht. Maximale Kompression kann durch eine zickzackförmige Abtastung des DCT-Blocks erreicht werden, der von der Spitze verlassen und verwendende Verschlüsselungstechniken der Lauf-Länge anfängt.

Die Gleichstrom-Koeffizienten und Bewegungsvektoren werden DPCM-verschlüsselt.

Verschlüsselung der Lauf-Länge (RLE) ist eine sehr einfache Methode, Wiederholung zusammenzupressen. Eine folgende Reihe von Charakteren, egal wie lange, kann durch einige Bytes ersetzt werden, den Wert bemerkend, der sich und wie oft wiederholt. Zum Beispiel, wenn jemand "fünf nines" sagen sollte, würden Sie wissen, dass sie die Zahl vorhaben: 99999.

RLE ist danach quantization besonders wirksam, weil eine bedeutende Anzahl der AC Koeffizienten jetzt Null (genannt Daten) ist, und mit gerade einigen Bytes vertreten werden kann. Das wird in einem speziellen 2-dimensionalen Tisch von Huffman versorgt, der die Lauf-Länge und den Lauf beendenden Charakter codiert.

Huffman, der Codiert, ist eine sehr populäre Methode des Wärmegewicht-Codierens, und verwendet im MPEG-1 Video, um die Datengröße zu reduzieren. Die Daten werden analysiert, um Schnuren diese Wiederholung häufig zu finden. Jene Schnuren werden dann in einen speziellen Tisch, mit den sich am häufigsten wiederholenden Daten zugeteilt der kürzeste Code gestellt. Das behält die Daten so klein wie möglich mit dieser Form der Kompression. Sobald der Tisch gebaut wird, werden jene Schnuren in den Daten durch ihre (viel kleineren) Codes ersetzt, die im passenden Zugang im Tisch Verweise anbringen. Der Decoder kehrt einfach diesen Prozess um, um die ursprünglichen Daten zu erzeugen.

Das ist der Endschritt im Videoverschlüsselungsprozess, so ist das Ergebnis von Huffman, der codiert, als das MPEG-1 Video "bitstream" bekannt.

Konfigurationen von republikanischer Partei für spezifische Anwendungen

I-Rahmenladen ganzes Rahmeninfo innerhalb des Rahmens und wird deshalb für den zufälligen Zugang angepasst. P-Rahmen stellen Kompression mit Bewegungsvektoren hinsichtlich des vorherigen Rahmens (Ich oder P) zur Verfügung. B-Rahmen stellen maximale Kompression zur Verfügung, aber verlangt den vorherigen sowie folgenden Rahmen für die Berechnung. Deshalb, Verarbeitung von B-Rahmen verlangen mehr Puffer auf der decodierten Seite. Eine Konfiguration der Gruppe Von Bildern (GOP) sollte gestützt auf diesen Faktoren ausgewählt werden. I-Rahmen geben nur Folgen kleinste Kompression, aber sind für den zufälligen Zugang, FF/FR und editability nützlich. Ich und P-Rahmenfolgen geben gemäßigte Kompression, aber fügen einen bestimmten Grad des zufälligen Zugangs, FF/FR Funktionalität hinzu. Ich geben Rahmenfolgen von P & B sehr hohe Kompression, sondern auch vergrößert die Verzögerung des Codierens/Entzifferung bedeutsam. Solchen Konfigurationen wird deshalb für die Videotelefonie oder Videokonferenzführungsanwendungen nicht angepasst.

Die typische Datenrate eines I-Rahmens ist 1 Bit pro Pixel, während dieser eines P-Rahmens 0.1 Bit pro Pixel und für einen B-Rahmen, 0.015 Bit pro Pixel ist.

Teil 3: Audio-

Der Teil 3 des MPEG-1 Standards bedeckt Audio- und wird in ISO/IEC-11172-3 definiert.

Audio-MPEG-1 verwertet psychoacoustics, um die durch einen Audiostrom erforderliche Datenrate bedeutsam zu reduzieren. Es reduziert oder verwirft völlig bestimmte Teile des Audios, das das menschliche Ohr nicht hören kann, entweder weil sie in Frequenzen sind, wo das Ohr Empfindlichkeit beschränkt hat, oder durch anderen (normalerweise lauter) Töne maskiert wird.

Kanalcodierung:

  • Mono abspielbarer
  • Gemeinsames Stereo - Intensität hat verschlüsselt
  • Gemeinsames Stereo - M/S, der für die Schicht 3 nur verschlüsselt ist
  • Stereo-
  • Doppel-(zwei Modokanäle)
  • Stichprobenerhebung von Raten: 32000, 44100, und 48000 Hz
  • Bitrates: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 und 384 kbit/s

Audio-MPEG-1 wird in 3 Schichten geteilt. Jede höhere Schicht ist mehr rechenbetont kompliziert, und allgemein an tiefer bitrates effizienter als das vorherige. Die Schichten sind umgekehrt vereinbar als höhere durch die niedrigeren Schichten durchgeführte Schicht-Wiedergebrauch-Technologien Halb-. Eine "Volle" Schicht II Decoder kann auch Schicht I Audio, aber nicht Schicht III Audio spielen, obwohl nicht alle höheren Niveau-Spieler "voll" sind.

Schicht I

MPEG-1 Schicht bin ich nichts anderes als eine vereinfachte Version der Schicht II. Schicht I Gebrauch eine kleinere 384-Proben-Rahmengröße für die sehr niedrige Verzögerung und feinere Entschlossenheit. Das ist für Anwendungen wie Telefonkonferenz, das Studio-Redigieren usw. vorteilhaft. Es hat niedrigere Kompliziertheit als Schicht II, um Echtzeitverschlüsselung auf der um 1990 verfügbaren Hardware zu erleichtern.

Schicht ich habe beschränkte Adoption in seiner Zeit gesehen, und wurde am meisten namentlich auf der Digitalkompaktkassette des Philips an einem bitrate von 384 kbit/s verwendet. Mit den wesentlichen Leistungsverbesserungen in der Digitalverarbeitung seit seiner Einführung Schicht bin ich schnell unnötig und veraltet geworden.

Schicht I Audiodateien verwendet normalerweise die Erweiterung.mp1 oder manchmal.m1a

Schicht II

MPEG-1 Schicht II (hat MP2-häufig falsch MUSICAM genannt), ist ein lossy Audioformat, das entworfen ist, um hohe Qualität an ungefähr 192 kbit/s für den Stereoton zur Verfügung zu stellen. Entzifferung von Audio-MP2, ist hinsichtlich MP3, AAC usw. rechenbetont einfach.

History/MUSICAM

MPEG-1 Schicht II wurde aus dem MUSICAM abgeleitet (Angepasstes Universales Subband des Musters das Einheitliche Codieren maskierend Und Gleichzeitig zu senden), Audiocodec, der durch Centre commun d'études de télévision et télécommunications (CCETT), Philips und Institut für Rundfunktechnik (IRT/CNET) als ein Teil des EUREKA 147 paneuropäische internationale Forschungs- und Entwicklungsinitiative für die Entwicklung der Digitalaudiorundfunkübertragung entwickelt ist.

Die meisten Hauptmerkmale des MPEG-1 Audios wurden von MUSICAM, einschließlich der Filterbank, Zeitabschnitt-Verarbeitung, Audiorahmengrößen usw. direkt geerbt. Jedoch wurden Verbesserungen gebildet, und der wirkliche MUSICAM Algorithmus wurde in der MPEG-1 Endschicht II Audiostandard nicht verwendet. Der weit verbreitete Gebrauch des Begriffes MUSICAM, um sich auf die Schicht II zu beziehen, ist völlig falsch und sowohl aus technischen als auch aus gesetzlichen Gründen entmutigt.

Technische Details

Schicht II/MP2 ist ein Zeitabschnitt encoder. Es verwendet eine niedrige Verzögerung 32 Subband hat Filterbank für die kartografisch darstellende Zeitfrequenz aufeinander polyabgestimmt; überlappende Reihen (d. h. aufeinander polyabgestimmt) zu haben, um aliasing zu verhindern. Das psychoacoustic Modell basiert auf den Grundsätzen der Gehörmaskierung, gleichzeitigen Verdeckeneffekten und der absoluten Schwelle, (ATH) zu hören. Die Größe einer Schicht II Rahmen wird an 1152 Proben (Koeffizienten) befestigt.

Zeitabschnitt bezieht sich darauf, wie Analyse und quantization durchgeführt werden: auf kurzen, getrennten Proben/Klötzen der Audiowellenform. Das bietet niedrige Verzögerung an, weil nur eine kleine Zahl von Proben analysiert wird, vor der Verschlüsselung im Vergleich mit der Frequenzbereichsverschlüsselung (wie MP3), der oft mehr Proben analysieren muss, bevor es entscheiden kann, wie man sich verwandelt und hat Produktion Audio-verschlüsselt. Das bietet auch höhere Leistung auf komplizierten, zufälligen und vergänglichen Impulsen (wie Schlaginstrumente und Beifall) an, Aufhebung von Kunsterzeugnissen wie Vorecho anbietend.

Die 32 Subband-Filterbank gibt 32 Umfang, ein für jedes gleich-große Frequenzband/Segment des Audios zurück, das (abhängig von ausfallender Frequenz des Audios) ungefähr 700 Hz breit ist. Der encoder verwertet dann das psychoacoustic Modell, um zu bestimmen, welche Subbänder Audioinformation enthalten, die, und so weniger wichtig ist, wo quantization unhörbar, oder mindestens viel weniger bemerkenswert sein wird.

Das psychoacoustic Modell wird mit 1024-Punkte-Fast Fourier Transform (FFT) angewandt. Der 1152-Proben pro Rahmen werden 64 Proben oben und Boden der Frequenzreihe für diese Analyse ignoriert. Sie sind vermutlich nicht bedeutend genug, um das Ergebnis zu ändern. Das psychoacoustic Modell verwendet ein empirisch entschlossenes Verdeckenmodell, um zu bestimmen, welche Subbänder mehr zur Verdeckenschwelle beitragen, und wie viel quantization Geräusch jeder enthalten kann ohne, wahrgenommen zu werden. Irgendwelche Töne unter der absoluten Schwelle, (ATH) zu hören, werden völlig verworfen. Die verfügbaren Bit werden dann jedem Subband entsprechend zugeteilt.

Gewöhnlich sind Subbänder weniger wichtig, wenn sie ruhigere Töne (kleinerer Koeffizient) enthalten als ein benachbarter (d. h. ähnliche Frequenz) Subband mit lauteren Tönen (größerer Koeffizient). Außerdem haben "Geräusch"-Bestandteile normalerweise eine bedeutendere Verdeckenwirkung als "Ton"-Bestandteile.

Weniger bedeutende Subbänder werden in der Genauigkeit durch quantization reduziert. Das schließt grundsätzlich das Zusammendrücken der Frequenzreihe (Umfang des Koeffizienten), d. h. Aufhebung des Geräuschpegels ein. Dann einen Erweiterungsfaktor für den Decoder schätzend, um zu verwenden, um jedes Subband zur richtigen Frequenzreihe wiederauszubreiten.

Schicht II kann auch Intensität das Stereocodieren, eine Form des gemeinsamen Stereos fakultativ verwenden. Das bedeutet, dass die Frequenzen über 6 Kilohertz von beiden Kanälen combined/down-mixed in einen einzelnen (mono abspielbaren) Kanal sind, aber die "" Seitenkanalinformation über die Verhältnisintensität (Volumen, Umfang) jedes Kanals wird bewahrt und in den bitstream getrennt verschlüsselt. Auf dem Play-Back wird der einzelne Kanal durch linke und richtige Sprecher mit der auf jeden Kanal angewandten Intensitätsinformation gespielt, um das Trugbild des Stereotons zu geben. Dieser Perceptual-Trick ist als Stereobelanglosigkeit bekannt. Das kann die weitere Verminderung des Audiobitrate ohne viel feststellbaren Verlust der Treue erlauben, aber wird allgemein mit höher bitrates nicht verwendet, weil es sehr hoher Qualität (durchsichtiges) Audio nicht zur Verfügung stellt.

Qualität

Die subjektive Audioprüfung durch Experten, in den kritischsten jemals durchgeführten Bedingungen, hat MP2 gezeigt, um durchsichtige Audiokompression an 256 kbit/s für 16-Bit-44.1kilohertz-CD das Audioverwenden der frühsten Bezugsdurchführung anzubieten (neuerer encoders sollte vermutlich noch besser leisten). Das (ungefähr) 1:6 ist das Kompressionsverhältnis für die Audio-CD besonders eindrucksvoll, weil es ganz der geschätzten oberen Grenze des perceptual Wärmegewichtes, an gerade über 1:8 nah ist. Das Erzielen viel höherer Kompression ist einfach nicht möglich, ohne etwas wahrnehmbare Information zu verwerfen.

MP2 bleibt ein begünstigter lossy Audiocodierstandard wegen seiner besonders hohen Audiocodierleistungen auf dem wichtigen Audiomaterial wie Kastagnette, symphonisches Orchester, männliche und weibliche Stimmen und besonders komplizierte und hohe Energieübergangsprozesse (Impulse) wie Schlagtöne: Dreieck, Glockenspiel und Publikum-Beifall. Neuere Prüfung hat gezeigt, dass MPEG Mehrkanal-(hat auf MP2 gestützt), trotz des in Verlegenheit bringet durch eine untergeordnete matrixed Weise (wegen umgekehrt der Vereinbarkeit) Raten gerade ein bisschen tiefer als viel neuerer Audiocodecs, wie Dolby Digital (AC-3) und Advanced Audio Coding (AAC) (größtenteils innerhalb des Randes des Fehlers - und wesentlich höher in einigen Fällen, wie Publikum-Beifall). Das ist ein Grund, dass MP2 Audio fortsetzt, umfassend verwendet zu werden. Der MPEG-2 AAC Stereoüberprüfungstests ist zu einem gewaltig verschiedenen Schluss gelangen, jedoch AAC zeigend, um höhere Leistung MP2 an der Hälfte des bitrate zur Verfügung zu stellen. Der Grund für diese Verschiedenheit sowohl mit früher als auch mit spätere Tests, ist aber seltsam nicht klar, eine Probe des Beifalls fehlt namentlich von diesem Test.

Schicht II Audiodateien verwendet normalerweise die Erweiterung.mp2 oder manchmal.m2a

Schicht III/MP3

MPEG-1 Schicht III (MP3) ist ein lossy Audioformat, das entworfen ist, um annehmbare Qualität an ungefähr 64 kbit/s für das monaural Audio über den einzelnen Kanal (BRI) ISDN Verbindungen und 128 kbit/s für den Stereoton zur Verfügung zu stellen.

History/ASPEC

Schicht III/MP3 wurde aus Adaptive Spectral Perceptual Entropy Coding (ASPEC) codec entwickelt von Fraunhofer als ein Teil des EUREKA 147 paneuropäische internationale Forschungs- und Entwicklungsinitiative für die Entwicklung der Digitalaudiorundfunkübertragung abgeleitet. ASPEC wurde angepasst, um mit der Schicht II/MUSICAM Modell (Rahmengröße, Filterbank, FFT, usw.) einzufügen, um Schicht III zu werden.

ASPEC wurde selbst auf dem Vielfachen anpassungsfähigen Geisterhaften Audiocodieren (MSC) von E. F. Schroeder, dem Optimalen Codieren im Frequenzgebiet (OCF) die Doktorthese von Karlheinz Brandenburg an der Universität Erlangen-Nürnbergs gestützt, Perceptual Gestalten das Codieren (PXFM) durch J. D. Johnston an AT&T Glockenlaboratorien Um, und Gestalten das Codieren von Audiosignalen durch Y. Mahieux und J. Petit an Institut für Rundfunktechnik (IRT/CNET) Um.

Technische Details

MP3 ist ein Audio-Frequenzgebiet gestalten encoder um. Wenn auch es einige der niedrigeren Schicht-Funktionen verwertet, ist MP3 von der Schicht II/MP2 ziemlich verschieden.

MP3 Arbeiten an 1152 Proben wie Schicht II, aber Bedürfnisse, vielfache Rahmen für die Analyse vor dem Frequenzgebiet (MDCT) Verarbeitung und quantization zu nehmen, können wirksam sein. Es Produktionen eine variable Zahl von Proben, mit wenig Puffer, um diese Variable bitrate (VBR) Verschlüsselung zu ermöglichen, während man 1152 Beispielgröße-Produktionsrahmen aufrechterhält. Das verursacht eine bedeutsam längere Verzögerung vor der Produktion, die MP3 veranlasst hat, unpassend für Studio-Anwendungen wo das Redigieren oder andere in einer Prozession gehende Bedürfnisse betrachtet zu werden, stattzufinden.

MP3 zieht aus aufeinander polyabgestimmter Filterbank des 32 Subbandes stattdessen gerade mit einer MDCT 18-Punkte-Transformation auf jeder Produktion nicht einen Nutzen, um die Daten in 576 Frequenzbestandteile zu spalten, und es im Frequenzgebiet bearbeitend. Das zusätzlich erlaubt MP3, ein viel feineres psychoacoustic Modell zu haben, und sorgfältiger passenden quantization auf jedes Band anzuwenden, viel besser niedrige-bitrate Leistung zur Verfügung stellend.

Frequenzgebiet-Verarbeitung erlegt einige Beschränkungen ebenso auf, einen Faktor 12 oder 36 &times verursachend; schlechtere zeitliche Entschlossenheit als Schicht II. Das verursacht quantization Kunsterzeugnisse, wegen des Übergangsprozesses ist Schlagereignissen und anderen Hochfrequenzereignissen ähnlich, die sich über ein größeres Fenster ausbreiten. Das läuft auf das hörbare Schmieren und Vorecho hinaus. MP3 verwendet Vorecho-Entdeckungsroutinen und VBR-Verschlüsselung, die ihm erlaubt, den bitrate während schwieriger Durchgänge in einem Versuch provisorisch zu vergrößern, diese Wirkung zu reduzieren. Es ist auch im Stande, zwischen der normalen 36 Probe quantization Fenster zu schalten, und stattdessen 3&times verwendend; kurze 12 Beispielfenster statt dessen, um das zeitliche (Zeit) Länge von quantization Kunsterzeugnissen zu reduzieren. Und noch in der Auswahl einer ziemlich kleinen Fenstergröße, um MP3's zeitliche Antwort entsprechend genug zu machen, um die ernstesten Kunsterzeugnisse zu vermeiden, wird MP3 viel weniger effizient in der Frequenzbereichskompression von stationären, tonalen Bestandteilen.

Gezwungen, einen hybriden Zeitabschnitt (Filterbank) / Frequenzgebiet (MDCT) Modell zu verwenden, um mit der Schicht II einfach Verschwendungsverarbeitungszeit und Kompromiss-Qualität durch das Einführen aliasing von Kunsterzeugnissen einzufügen. MP3 hat eine aliasing Annullierungsbühne spezifisch, um dieses Problem zu maskieren, aber der stattdessen Frequenzbereichsenergie erzeugt, die im Audio verschlüsselt werden muss. Das wird zur Spitze der Frequenzreihe gestoßen, wo die meisten Menschen das Hören beschränkt haben, in Hoffnungen wird die Verzerrung, die es verursacht, weniger hörbar sein.

Schicht-II'S 1024 Punkt bedeckt FFT alle Proben nicht völlig, und würde mehrere komplette MP3 Subbänder weglassen, wo quantization Faktoren bestimmt werden müssen. MP3 verwendet stattdessen zwei Pässe der FFT Analyse für die geisterhafte Bewertung, um die globalen und individuellen Verdeckenschwellen zu berechnen. Das erlaubt ihm, alle 1152 Proben zu bedecken. Der zwei verwertet es das globale maskierende Schwellenniveau vom kritischeren Pass mit dem schwierigsten Audio.

Zusätzlich zur Schicht-II'S-Intensität verschlüsseltes gemeinsames Stereo kann MP3 Mitte/Seite (Mitte/Seite, m/s, FRAU, matrixed) gemeinsames Stereo verwenden. Mit der Mitte/Seite bestimmte Stereofrequenzreihen von beiden Kanälen werden in eine Single (Mitte, Mitte, L+R) Modokanal verschmolzen, während der gesunde Unterschied zwischen dem verlassenen und den richtigen Kanälen als ein getrennter (Seite, L-R) Kanal versorgt wird. Verschieden von der Stereo-Intensität verwirft dieser Prozess keine Audioinformation. Wenn verbunden, mit quantization, jedoch, kann es Kunsterzeugnisse übertreiben.

Wenn der Unterschied zwischen dem verlassenen und den richtigen Kanälen klein ist, wird der Seitenkanal klein sein, der nicht weniger als 50 % bitrate Ersparnisse und vereinigte Qualitätsverbesserung anbieten wird. Wenn der Unterschied zwischen linkem und richtigem groß, normal ist (getrennt, link/richtig), kann Stereoverschlüsselung bevorzugt werden, weil Mitte/Seite gemeinsames Stereo keine Vorteile zur Verfügung stellen wird. Ein MP3 encoder kann zwischen dem m/s vollen und Stereostereo auf einer Rahmen-für-Rahmen-Basis umschalten.

Verschieden von Schichten I/II verwendet MP3 variable Länge Huffman, der (nach perceptual) codiert, um weiter den bitrate ohne weiteren Qualitätsverlust zu reduzieren.

Qualität

Diese technischen Beschränkungen halten von Natur aus MP3 davon ab, kritisch durchsichtige Qualität an jedem bitrate zur Verfügung zu stellen. Das macht Schicht II gesunde als MP3 Audio wirklich höhere Qualität, wenn es an einem genug hohen bitrate verwendet wird, um erkennbare Kunsterzeugnisse zu vermeiden. Der Begriff "durchsichtiger" wird häufig jedoch missbraucht. Die Qualität von MP3 (und anderer codecs) wird manchmal "durchsichtig" sogar an unmöglich niedrigem bitrates genannt, wenn, was wirklich gemeint wird, "gute Qualität auf dem durchschnittlichen/nichtkritischen Material," oder vielleicht "Ausstellen nur nichtärgerlicher Kunsterzeugnisse ist."

MP3's mehr feinkörniger und auswählender quantization erweist sich wirklich namentlich höher als Schicht II/MP2 an tiefer-bitrates jedoch. Es ist im Stande, fast gleichwertige Audioqualität der Schicht II, an einem um 15 % niedrigeren bitrate (ungefähr) zur Verfügung zu stellen. 128 kbit/s werden als der "süße Punkt" für MP3 betrachtet; Bedeutung davon stellt allgemein annehmbarer Qualität Stereoton auf dem grössten Teil der Musik zur Verfügung, und dort verringert Qualitätsverbesserungen davon, den bitrate weiter zu vergrößern. MP3 wird auch als ausstellende Kunsterzeugnisse betrachtet, die weniger ärgerlich sind als Schicht II, wenn beide an bitrates verwendet werden, die zu niedrig sind, um vielleicht treue Fortpflanzung zur Verfügung zu stellen.

Schicht III Audiodateien verwendet die Erweiterung.mp3.

MPEG-2 Audioerweiterungen

Der MPEG-2 Standard schließt mehrere Erweiterungen auf das MPEG-1 Audio ein. Diese sind als MPEG-2 v. Chr. - umgekehrt vereinbar mit dem MPEG-1 Audio bekannt. Audio-MPEG-2 wird in ISO/IEC 13818-3 definiert

  • MPEG Mehrkanal-Rückwärts kompatibel 5.1-Kanäle-umgeben Ton.
  • Stichprobenerhebung von Raten: 16000, 22050, und 24000 Hz
  • Bitrates: 8, 16, 24, 40, 48, und 144 kbit/s

Diese ausfallenden Raten sind genau halb mehr als das von denjenigen, die ursprünglich für das MPEG-1 Audio definiert sind. Sie wurden eingeführt, um höheren Qualitätston aufrechtzuerhalten, als man Audio-an tiefer-bitrates verschlüsselt hat. Die noch niedrigeren bitrates wurden eingeführt, weil Tests gezeigt haben, dass MPEG-1 Audio höhere Qualität zur Verfügung stellen konnte als irgendwelcher vorhanden (um 1994) sehr niedriger bitrate (d. h. Rede) Audiocodecs.

Teil 4: Übereinstimmungsprüfung

Der Teil 4 des MPEG-1 Standards bedeckt Übereinstimmungsprüfung, und wird in ISO/IEC-11172-4 definiert.

Übereinstimmung: Verfahren, um Übereinstimmung zu prüfen.

Stellt zwei Sätze von Richtlinien und Verweisung bitstreams zur Verfügung, für die Übereinstimmung von MPEG-1 Audio- und Videodecodern, sowie den durch einen encoder erzeugten bitstreams zu prüfen.

Teil 5: Bezugssoftware

Der Teil 5 des MPEG-1 Standards schließt Bezugssoftware ein, und wird in ISO/IEC TR 11172-5 definiert.

Simulation: Bezugssoftware.

C Bezugscode, um zu verschlüsseln und von Audio- und Video-zu decodieren, sowie gleichzeitig zu senden und zu entschachteln.

Das schließt den ISO Dist10 Audioencoder-Code ein, die LAHM und TooLAME ursprünglich darauf basiert haben.

Dateierweiterung

.mpg ist eine mehrerer Dateierweiterungen für MPEG-1 oder MPEG-2 Audio- und Videokompression. MPEG-1 Video des Teils 2 ist heutzutage selten, und diese Erweiterung bezieht sich normalerweise auf einen MPEG Programm-Strom (definiert in MPEG-1 und MPEG-2) oder MPEG-Transportstrom (definiert in MPEG-2). Andere Nachsilben wie.m2ts bestehen auch, den genauen Behälter, in diesem Fall MPEG-2 TS angebend, aber das hat wenig Relevanz zu MPEG-1 Medien.

.mp3 ist die allgemeinste Erweiterung für Dateien, die MPEG-1 Schicht 3 Audio-enthalten. Eine MP3 Datei ist normalerweise ein unenthaltener Strom des rohen Audios; die herkömmliche Weise, MP3 Dateien zu markieren, ist durch das Schreiben von Daten "Müll"-Segmenten jedes Rahmens, die die Mediainformation bewahren, aber vom Spieler verworfen werden. Das ist in vieler Hinsicht dazu ähnlich, wie rohe.AAC Dateien markiert werden (aber das wird heutzutage, z.B iTunes weniger unterstützt).

Bemerken Sie, dass, obwohl es gelten würde.mpg rohen AAC oder AAC in MPEG-2 Behältern des Teils 7 nicht normalerweise anhängt. Die.aac Erweiterung zeigt normalerweise diese Audiodateien an.

Siehe auch

  • MPEG Moving Picture Experts Group, Entwickler des MPEG-1 Standards
  • MP3 Mehr (weniger technisch) Detail über die MPEG-1 Schicht III Audio-
  • MPEG Mehrkanal-Umgekehrt vereinbarer 5.1 Kanal umgeben gesunde Erweiterung auf die Schicht II Audio-
  • MPEG-2 Der direkte Nachfolger des MPEG-1 Standards.

Durchführungen

  • Libavcodec schließt MPEG-1/2 Video/Audio encoders und Decoder ein
  • Mjpegtools MPEG-1/2 Video/Audio encoders
  • TooLAME Eine hohe Qualität MPEG-1 Schicht II Audioencoder.
  • LAHM Eine hohe Qualität MP3 (Schicht III) Audioencoder.
  • Musepack Ein Format hat ursprünglich auf der MPEG-1 Schicht II Audio, aber jetzt unvereinbar gestützt.

Links


Moving Picture Experts Group / Mumia Abu-Jamal
Impressum & Datenschutz