DVD-Basics
Ein gebündelter Lichtstrahl (Laser) liest in einer von innen nach außen verlaufenden Spirale die Wechsel von Stellen, die das Licht gut oder schlecht reflektieren. Der Wechsel der Reflexionseigenschaft wird als Wechsel von 0 und 1 interpretiert…
Folgender Überblick wurde auszugsweise aus mehreren Quellen zusammengestellt. Weiterführende Informationen zum Thema unter http://members.aon.at/neuhold/dvd/dvd_knowhow.html
Über eine Pressmatrize werden Vertiefungen in eine durchsichtige Polykarbonatscheibe gebracht. Auf diese wird eine reflektierende Aluminiumschicht aufgedampft. Darüber kommt eine Schutzlackschicht. Die Vertiefungen (pits) reflektieren das Licht schlechter als die umgebende Oberfläche (land).
Dank neuer Lasertechnik können die Pits auf der DVD kleiner als auf einer CD sein - und die Spirale, in der sie angeordnet sind, enger geführt werden. So passen auf die gleiche Fläche wesentlich mehr Daten.
Aufbau der DVD
Der DVD-Standard sieht noch eine zusätzliche Möglichkeit vor, die Datenmenge, die auf eine DVD passt, annähernd zu verdoppeln - mit einer zweiten, halbtransparenten Datenschicht (Layer), die über der ersten angebracht ist. Beim Layerwechsel muss der Laser neu fokussiert werden, daher kann es kurzfristig zu einem Aussetzen der Wiedergabe kommen. Um diese Unterbrechung so kurz wie möglich zu halten, wird die zweite Datenschicht im entgegengesetzten Sinn (also von außen nach innen) beschrieben (reverse spiral dual layer, kurz RSDL).
Einmal beschreibbare DVD
Welches Format sich durchsetzen wird, ist noch immer nicht entschieden. Neben der bereits eingeführten DVD-R wurde vor kurzem von der DVD+RW Alliance die DVD+R herausgebracht.
Bei einmal beschreibbaren DVDs besteht die Schreibschicht aus einem Lack, in den der Laser gewissermaßen Löcher brennt.
Die von DVD-Forum abgesegnete DVD-R gibt es in zwei Varianten: als DVD-R(G) (General) und als DVD-R(A) (Authoring). Für letztere wird ein Laser mit kürzerer Wellenlänge eingesetzt: DVD-R(A) - 635 nm, DVD-R(G) - 650 nm.
Wiederbeschreibbare DVD
Wiederbeschreibbare DVDs erzeugen die unterschiedliche Reflexion mit Hilfe der Phase-Change-Technik: ein Laser erhitzt die Schreibschicht, und je nachdem wie rasch sie abkühlt, wird das Material amorph (schlecht reflektierend) oder kristallin (gut reflektierend).
Video-DVD-Standard
Der Standard sieht vor, dass zu einem Film bis zu 8 Tonspuren und bis zu 32 Untertitel untergebracht werden können. Ein besonderes Feature stellt die Möglichkeit dar, ein Geschehen gleichzeitig aus verschiedenen Kamerablickwinkeln zu zeigen, zwischen denen der Zuschauer wechseln kann (Multi-Angle).
Seamless branching bezeichnet die Option, Szenen direkt anzusteuern, Szenen zu überspringen, zu alternativen Szenen abzuzweigen. Auf diese Weise werden verschiedene Versionen desselben Films miteinander verschränkt auf einer einzigen DVD untergebracht.
Dateisystem
Als Dateisystem für Video-DVDs wird meist UDF-Bridge verwendet, eine Mischung aus UDF (Universal Disk Format, können DVD-Player lesen) und ISO-9660 (Dateisystem für CD-ROMs, können praktisch alle Computersysteme lesen).
Die Videodaten liegen in Dateien mit der Endung VOB (Video Object), von denen keine größer als 1 GB ist. Der Grund für diese Beschränkung (die dem ISO-9660-Dateisystem entstammt) liegt darin, dass Computerbetriebssysteme unterschiedliche maximale Dateigrößen zulassen. Mit 1-GB-Dateien kommen die meisten Systeme zurecht.
Die IFO-Dateien enthalten Steuerinformation (Kapitelanwahl), die BUP-Dateien sind Backups der IFO-Dateien.
Dateistruktur
In den VOB-Dateien sind Bilddaten, Tonspuren und Untertitel zusammengemischt (Multiplex). Zur Wiedergabe muss das Abspielgerät diese Daten wieder voneinander trennen (demux). Wären andererseits die Videodaten, Tonspuren und Untertitel in getrennten Dateien, müsste das Wiedergabegerät ständig abwechselnd aus diesen Dateien lesen und der Lesekopf des DVD-Laufwerks ununterbrochen hin- und herfahren.
Intern besteht eine VOB-Datei aus Interleaved Video Units (ILVU), diese bestehen jeweils aus einem oder mehreren Video Object Units (VOBU), diese wiederum aus einem Navigation Pack (NV_PCK), das Sprungmarken und Timing-Information enthält, und einem oder mehreren Group of Pictures (GOP). Darin verpackt schließlich die Video Packs (V_PCK), Audio Packs (A_PCK) und Subtitle Packs (SP_PCK), die eigentlichen Bild-, Ton- und Untertiteldaten.
Die ILVUs werden benötigt für den Wechsel des Aufnahmewinkels bei der Multi-Angle-Funktion. Ein VOBU ist die kleinste Einheit, die vom DVD-Wiedergabegerät angesteuert werden kann. Die GOPs enthalten die komprimierten Daten. Eine GOP beginnt mit einem I-Frame und endet vor dem nächsten I-Frame (siehe Motion Compensation).
Datenkompression
Die enorme Datenmenge, die bei der Digitalisierung von Film (d.h. der Verwandlung von Bild und Ton in Bits und Bytes) anfällt, passt nur stark komprimiert auf eine DVD. Die programmtechnische Realisierung eines Kompressionsverfahrens nennt man Codec (Coder-Decoder).
Das bei der DVD üblicherweise verwendete Kompressionsverfahren ist MPEG-2. MPEG ist Abkürzung für die Motion Picture Experts Group, die Standards zur komprimierten Speicherung von Audio- und Videodaten entwickelt.
YUV
Im TV- und Videobereich wird ein eigener Farbraum verwendet: YUV. Hier besteht die Farbinformation aus einer Komponente für die Luminanz (Helligkeit) und zwei Farbdifferenzwerten für die Chrominanz (Farbwert). Dieses Verfahren ist einerseits abwärtskompatibel zum Schwarzweißfernsehen (das eben nur die Y-Komponente anzeigt), und es entspricht anderseits auch besser der menschlichen Wahrnehmung, die Helligkeitswechsel genauer differenziert als Farbveränderungen.
In MPEG werden die zu kodierenden Bilder in den YCbCr-Farbraum (einer Variante von YUV) übergeführt. Dabei werden meist für jeden 2x2-Pixel-Block vier Y-Werte (je einer pro Pixel), aber nur ein Cb- und ein Cb-Wert gespeichert (4:2:0 genannt). Das macht also 4+1+1 = 6 Byte für 4 Pixel statt 12 Byte im RGB-Format.
Diskrete Cosinustransformation
Die Signalkomponenten werden jeweils in 8x8-Pixel-Blöcke zerlegt, und für jeden Block wird eine Diskrete Cosinustransformation (DCT) durchgeführt. Das Bild wird in seine Frequenzanteile zerlegt, für jeden 8x8-Pixelblock wird eine 8x8-Koeffizientenmatrix berechnet.
Durch die Quantisierung können Pixelmuster entstehen, die im Ausgangsbild nicht vorhanden waren. Bei hoher Komprimierung bleibt im Extremfall für einen 8x8-Pixelblock nur ein Koeffizient übrig. Je stärker die Kompression, umso deutlicher werden Blöcke sichtbar. Diese Bildfehler bezeichnet man als Artefakte.
Motion compensation
Aufeinanderfolgende Frames in einem Film unterscheiden sich von Bild zu Bild zumeist nur wenig. MPEG nutzt diesen Umstand zur Reduktion der Datenmenge.
Ein zur Gänze (ohne Bezugnahme auf vorangegangene oder nachfolgende Bilder) gespeichertes Bild heißt I-Frame (intraframe).
Bei der Motion Estimation oder Motion Prediction wird das vorangegangene Bild in Makroblöcke von 16x16 Pixel zerlegt und dann das aktuelle Bild nach diesen Blöcken durchsucht. Für hundertprozentig passende Blöcke braucht nichts gespeichert werden. Für nahezu passende Blöcke wird ein Verschiebungsfaktor gespeichert, der angibt, wieweit sich der Block verschoben hat. Zusätzlich wird ein Bild mit den Differenzinformationen erstellt. Blöcke, für die keine Entsprechung aus dem vorangegangenen Bild gefunden wird, werden wie I-Frame-Blöcke kodiert.
Ein Bild, das über Verschiebungsvektoren auf das vorangegangene Bild Bezug nimmt, heißt P-Frame (predicted frame). Damit innerhalb des Films an beliebige Stellen gesprungen werden kann, müssen entsprechend viele I-Frames enthalten sein. Zusätzlich sieht MPEG auch sogenannte B-Frames (bidirectional predicted frame) vor. Sie beziehen sich sowohl auf ein vorangegangenes als auch auf ein nachfolgendes Bild (I- oder P-Frame). B-Frames werden selber nie als Referenz verwendet. Da zur Darstellung eines Bildes aus einem B-Frame der Decoder beide Referenzbilder kennen muss, werden die Frames in anderer Reihenfolge gespeichert als sie wiedergegeben werden.