knowledgr.de

Unicode

Neues Wissen!

Unicode ist ein Rechenindustriestandard für die konsequente Verschlüsselung, die Darstellung und das Berühren des in den meisten Schreiben-Systemen in der Welt ausgedrückten Textes. Entwickelt in Verbindung mit dem Universalen Codierungsstandard und veröffentlicht in der Buchform als Der Unicode Standard besteht die letzte Version von Unicode aus einem Repertoire von mehr als 110,000 Charakteren, die 100 Schriften, eine Reihe von Codekarten für die Sehverweisung, eine Verschlüsselungsmethodik und den Satz des Standardcharakters encodings, einer Enumeration von Charakter-Eigenschaften wie Groß- und Kleinschreibung, eine Reihe von Bezugsdatencomputerdateien bedecken, und mehrere zusammenhängende Sachen, wie Charakter-Eigenschaften, herrschen für Normalisierung, Zergliederung, Vergleichung, Übergabe und bidirektionale Anzeigeordnung (für die richtige Anzeige des Textes, der sowohl Schriften des Rechts-zu-link, wie Arabisch als auch Neuhebräisch und zum Recht nach links Schriften enthält). Bezüglich 2012 ist die neuste Version Unicode 6.1.

Der Erfolg von Unicode beim Vereinheitlichen von Codierungen hat zu seinem weit verbreiteten und vorherrschenden Gebrauch in der Internationalisierung und Lokalisierung der Computersoftware geführt. Der Standard ist in vielen neuen Technologien, einschließlich XML, der javanischen Programmiersprache, das Microsoft.NET Fachwerk und moderne Betriebssysteme durchgeführt worden.

Unicode kann durch den verschiedenen Charakter encodings durchgeführt werden. Die meistens verwendeten encodings sind UTF-8, UTF-16 und der jetzt veraltete UCS-2. UTF-8 verwendet ein Byte für irgendwelche ASCII Charaktere, die dieselben Codewerte sowohl in UTF-8 als auch in ASCII-Verschlüsselung, und bis zu vier Bytes für andere Charaktere haben. UCS-2 verwendet zwei Bytes für jeden Charakter, aber kann jeden Charakter im aktuellen Standard von Unicode nicht verschlüsseln. UTF-16 erweitert UCS-2 mit vier Bytes, um jeden der zusätzlichen Charaktere zu behandeln.

Ursprung und Entwicklung

Unicode hat das ausführliche Ziel, die Beschränkungen des traditionellen Charakters encodings, wie diejenigen zu überschreiten, die durch den ISO 8859 Standard definiert sind, die breiten Gebrauch in verschiedenen Ländern der Welt finden, aber bleiben größtenteils unvereinbar mit einander. Viele traditioneller Charakter encodings teilt ein häufiges Problem darin, erlauben sie zweisprachige Computerverarbeitung (gewöhnlich lateinische Charaktere und die lokale Schrift verwendend), aber nicht mehrsprachige Computerverarbeitung (Computerverarbeitung von willkürlichen Schriften, die mit einander gemischt sind).

Unicode, in der Absicht, verschlüsselt die zu Grunde liegenden Charaktere — Grapheme und einem Graphem ähnliche Einheiten — aber nicht die Variante glyphs (Übergabe) für solche Charaktere. Im Fall von chinesischen Charakteren führt das manchmal zu Meinungsverschiedenheiten über das Unterscheiden des zu Grunde liegenden Charakters von seiner Variante glyphs (sieh Vereinigung von Han).

In der Textverarbeitung nimmt Unicode die Rolle, einen einzigartigen Codepunkt — eine Zahl, nicht einen glyph — für jeden Charakter zur Verfügung zu stellen. Mit anderen Worten vertritt Unicode einen Charakter auf eine abstrakte Weise und verlässt die Sehübergabe (Größe, Gestalt, Schriftart oder Stil) zu anderer Software, wie ein WWW-Browser oder Textverarbeitungsprogramm. Dieses einfache Ziel wird kompliziert jedoch wegen Zugeständnisse, die von den Entwerfern von Unicode in der Hoffnung darauf gemacht sind, eine schnellere Adoption von Unicode zu fördern.

Die ersten 256 Codeargumente wurden identisch zum Inhalt von ISO 8859-1 angebracht, um es trivial zu machen, um vorhandenen Westtext umzuwandeln. Viele im Wesentlichen identische Charaktere wurden mehrmals an verschiedenen Codepunkten verschlüsselt, um Unterscheidungen zu bewahren, die durch das Vermächtnis encodings und deshalb verwendet sind, Konvertierung von jenen encodings bis Unicode (und zurück) zu erlauben, ohne jede Information zu verlieren. Zum Beispiel "fullwidth Formen" umfasst die Abteilung von Codepunkten ein volles lateinisches Alphabet, das von der lateinischen Hauptalphabet-Abteilung getrennt ist. In Chinesisch, Japanisch und Koreanisch (CJK) Schriftarten, werden diese Charaktere an derselben Breite wie CJK Begriffszeichen, aber nicht an der Hälfte der Breite gemacht. Für andere Beispiele, sieh Doppelcharaktere in Unicode.

Geschichte

Die Ursprünge von Unicode gehen bis 1987 zurück, als Joe Becker von Xerox und Lee Collins und Mark Davis vom Apfel angefangen haben, die Nützlichkeit zu untersuchen, eine universale Codierung zu schaffen. Im August 1988 hat Joe Becker einen Draftvorschlag für ein "internationales/mehrsprachiges Textcharakter-Verschlüsselungssystem, versuchsweise genannter Unicode" veröffentlicht. Obwohl der Begriff "Unicode" vorher zu anderen Zwecken wie der Name einer Programmiersprache gebraucht worden war, die für den UNIVAC gegen Ende der 1950er Jahre und am meisten namentlich eines universalen telegrafischen idiomatischen Wörterbuches entwickelt ist, das zuerst 1889 veröffentlicht wurde, kann Becker nicht dieses früheren Gebrauchs bewusst gewesen sein, und er hat erklärt, dass" [t] er 'Unicode' nennt, ist beabsichtigt, um eine einzigartige, vereinigte, universale Verschlüsselung anzudeuten".

In diesem Dokument, betitelter Unicode 88, hat Becker ein 16-Bit-Charakter-Modell entworfen:

Unicode ist beabsichtigt, um das Bedürfnis nach einer bearbeitungsfähigen, zuverlässigen Welttextverschlüsselung zu richten. Unicode konnte als "breiter Körper ASCII" grob beschrieben werden, der zu 16 Bit gestreckt worden ist, um die Charaktere aller lebenden Sprachen in der Welt zu umfassen. In einem richtig konstruierten Design sind 16 Bit pro Charakter für diesen Zweck mehr als genügend.

Sein ursprüngliches 16-Bit-Design hat basiert in der Annahme, dass nur jene Schriften und Charaktere im modernen Gebrauch würden verschlüsselt werden müssen:

Unicode gibt höheren Vorrang dem Sicherstellen des Dienstprogrammes für die Zukunft als zur Bewahrung voriger Altertümlichkeiten. Unicode zielt vor allem nach den im modernen Text veröffentlichten Charakteren (z.B in der Vereinigung aller Zeitungen und Zeitschriften, die in der Welt 1988 gedruckt sind), wessen Zahl zweifellos unten 2 = 16,384 weit ist. Außer jenen Charakteren des modernen Gebrauches alles können andere definiert werden, um veraltet oder selten zu sein; das sind bessere Kandidaten für die Registrierung des privaten Gebrauches als, für die öffentliche Liste von allgemein nützlichem Unicodes zusammenzudrängen.

Anfang 1989 hat sich die Arbeitsgruppe von Unicode ausgebreitet, um Ken Whistler und Mike Kernaghan von Metapher, Karen Smith-Yoshimura und Joan Aliprand von RLG und Glenn Wright von Sonne-Mikrosystemen einzuschließen, und 1990 haben sich Michel Suignard und Asmus Freytag von Microsoft und Rick McGowan von NeXT der Gruppe angeschlossen. Am Ende von 1990 war der grösste Teil der Arbeit daran, vorhandene Charakter-Verschlüsselungsstandards kartografisch darzustellen, vollendet worden, und ein Endrezensionsentwurf von Unicode war bereit. Das Unicode Konsortium wurde am 3. Januar 1991, in Kalifornien, und im Oktober 1991 vereinigt, das erste Volumen des Standards von Unicode wurde veröffentlicht. Das zweite Volumen, Begriffszeichen von Han bedeckend, wurde im Juni 1992 veröffentlicht.

1996 wurde ein Stellvertreter-Charakter-Mechanismus in Unicode 2.0 durchgeführt, so dass Unicode auf 16 Bit nicht mehr eingeschränkt wurde. Das hat Unicode codespace zu mehr als einer Million Codepunkten vergrößert, die die Verschlüsselung von vielen historischen Schriften (z.B ägyptische Hieroglyphen) und Tausende von selten verwendeten oder veralteten Charakteren berücksichtigt haben, die als brauchend Verschlüsselung nicht vorausgesehen worden waren.

Architektur und Fachsprache

Codepunkt-Flugzeuge und Blöcke

Unicode codespace wird in siebzehn Flugzeuge, numeriert 0 bis 16 geteilt:

Auf alle Codepunkte im BMP wird als eine einzelne Codeeinheit in der UTF-16-Verschlüsselung zugegriffen und kann in ein, zwei oder drei Bytes in UTF-8 verschlüsselt werden. Auf Codepunkte in Flugzeugen 1 bis 16 (ergänzende Flugzeuge, oder, informell, Astralflugzeuge) wird als Stellvertreter-Paare in UTF-16 zugegriffen und in vier Bytes in UTF-8 verschlüsselt.

Innerhalb jedes Flugzeugs werden Charaktere innerhalb von genannten Blöcken von zusammenhängenden Charakteren zugeteilt. Obwohl Blöcke eine willkürliche Größe sind, sind sie immer ein Vielfache von 16 Codepunkten, und häufig ein Vielfache von 128 Codepunkten. Für eine gegebene Schrift erforderliche Charaktere können über mehrere verschiedene Blöcke ausgedehnt werden.

Charakter allgemeine Kategorie

Jeder Codepunkt hat ein einzelnes Allgemeines Kategorie-Eigentum. Die Hauptkategorien sind: Brief, Zeichen, Zahl, Zeichensetzung, Symbol, Separator und Anderer. Innerhalb dieser Kategorien gibt es Unterteilungen. Die Allgemeine Kategorie ist für jeden Gebrauch nicht nützlich, seitdem Vermächtnis encodings vielfache Eigenschaften pro einzelnen Codepunkt verwendet hat. Z.B in ASCII ist sowohl eine Kontrolle als auch ein Formatierungsseparator; in Unicode ist die Allgemeine Kategorie "Anderer, Kontrolle". Häufig müssen andere Eigenschaften verwendet werden, um die Eigenschaften und das Verhalten eines Codepunkts anzugeben. Die möglichen Allgemeinen Kategorien sind:

Code spitzt in der Reihe U+D800 an.. U+DBFF (1,024 Codepunkte) sind als Codepunkte des hohen Stellvertreters bekannt, und codieren Punkte in der Reihe U+DC00.. U+DFFF (1,024 Codepunkte) sind als Codepunkte des niedrigen Stellvertreters bekannt. Ein Codepunkt des hohen Stellvertreters (auch bekannt als ein Hauptstellvertreter) gefolgt von einem Codepunkt des niedrigen Stellvertreters (auch bekannt als ein schleifender Stellvertreter) bildet zusammen ein in UTF-16 verwendetes Stellvertreter-Paar, um 1,048,576 Codepunkte außerhalb BMP zu vertreten. Hohe und niedrige Stellvertreter-Codepunkte sind durch sich nicht gültig. So ist die Reihe von Codepunkten, die für den Gebrauch als Charaktere verfügbar sind, U+0000.. U+D7FF und U+E000.. U+10FFFF (1,112,064 Codepunkte). Der Wert dieser Codepunkte (d. h. Stellvertreter ausschließend), wird manchmal den Skalarwert des Charakters genannt.

Wie man

versichert, werden bestimmte Nichtcharakter-Codepunkte nie verwendet, um Charaktere zu verschlüsseln, obwohl Anwendungen von diesen Codepunkten innerlich Gebrauch machen können, wenn sie wünschen. Es gibt sechsundsechzig Nichtcharaktere: U+FDD0.. U+FDEF und jeder Codepunkt, der im Wert FFFE oder FFFF endet (d. h. U+FFFE, U+FFFF, U+1FFFE, U+1FFFF... U+10FFFE, U+10FFFF). Der Satz von Nichtcharakteren ist stabil, und keine neuen Nichtcharaktere werden jemals definiert.

Vorbestellte Codepunkte sind jene Codepunkte, die für den Gebrauch als verschlüsselte Charaktere verfügbar sind, aber als Charaktere von Unicode noch nicht definiert werden.

Wie man

betrachtet, sind Codepunkte des privaten Gebrauches zugeteilte Charaktere, aber sie haben keine durch den Standard von Unicode angegebene Interpretation, so verlangt jeder Austausch solcher Charaktere eine Abmachung zwischen Absender und Empfänger auf ihrer Interpretation. Es gibt drei Gebiete des privaten Gebrauches in Unicode codespace:

Privates Gebrauch-Gebiet: U+E000.. U+F8FF (6,400 Charaktere)
Ergänzendes Privates Gebrauch-Bereichs-A: U+F0000.. U+FFFFD (65,534 Charaktere)
Ergänzendes Privates Gebrauch-Bereichs-B: U+100000.. U+10FFFD (65,534 Charaktere).

Schriftzeichen sind von Unicode definierte Charaktere, um eine Einzelheit semantisch zu haben, und entweder eine sichtbare Glyph-Gestalt zu haben oder einen sichtbaren Raum zu vertreten. Bezüglich Unicode 6.1 gibt es 109,975 Schriftzeichen.

Format-Charaktere sind Charaktere, die kein sichtbares Äußeres haben, aber eine Wirkung auf das Äußere oder Verhalten von benachbarten Charakteren haben können. Zum Beispiel können U+200C NULLBREITE-NICHTTISCHLER und U+200D NULLBREITE-TISCHLER verwendet werden, um das Verzug-Formen-Verhalten von angrenzenden Charakteren (z.B zu ändern, um Binden oder Bitte-Binde-Bildung zu hemmen). Es gibt 141 Format-Charaktere in Unicode 6.1.

Fünfundsechzig Codepunkte (U+0000.. U+001F und U+007F.. U+009F) werden vorbestellt, weil Kontrolle codiert, und entsprechen Sie den C0- und C1-Kontrollcodes, die in ISO/IEC 6429 definiert sind. Dieser werden U+0009 (Etikett), U+000A (Linienfutter), und U+000D (Wagen-Rückkehr) in Unicode-verschlüsselten Texten weit verwendet.

Schriftzeichen, Format-Charaktere, Kontrollcodecharaktere und private Gebrauch-Charaktere sind insgesamt als zugeteilte Charaktere bekannt.

Abstrakte Charaktere

Der Satz von grafischen und von Unicode definierten Format-Charakteren entspricht direkt zum Repertoire von abstrakten Charakteren nicht, das unter Unicode wiederpräsentabel ist. Unicode verschlüsselt Charaktere durch das Verbinden eines abstrakten Charakters mit einem besonderen Codepunkt. Jedoch werden nicht alle abstrakten Charaktere als ein einzelner Charakter von Unicode verschlüsselt, und einige abstrakte Charaktere können in Unicode durch eine Folge von zwei oder mehr Charakteren vertreten werden. Zum Beispiel wird ein lateinischer kleiner Brief "i" mit einem ogonek, einem Punkt oben, und ein Akut, der in Litauisch erforderlich ist, durch die Charakter-Folge U+012F, U+0307, U+0301 vertreten. Unicode erhält eine Liste einzigartig genannter Charakter-Folgen für abstrakte Charaktere aufrecht, die in Unicode nicht direkt verschlüsselt werden.

Die ganze Grafik, Format und private Gebrauch-Charaktere haben einen einzigartigen und unveränderlichen Namen, durch den sie identifiziert werden können. Diese Unveränderlichkeit ist seit der Version 2.0 von Unicode durch die Namenstabilitätspolitik versichert worden. In Fällen, wo der Name ernstlich fehlerhaft und irreführend ist, oder einen ernsten Druckfehler hat, kann ein formeller Deckname definiert werden, und Anwendungen werden dazu ermuntert, den formellen Decknamen im Platz des offiziellen Charakter-Namens zu verwenden. Zum Beispiel, hat den formellen Decknamen, und hat den formellen Decknamen.

Standard

Das Unicode Konsortium, das in Kalifornien gestützt ist, ist eine gemeinnützige Organisation, die die Entwicklung von Unicode koordiniert.

Es gibt verschiedene Niveaus der Mitgliedschaft, und jede Gesellschaft oder Person, die bereit ist, die Mitgliedschaft dues zu bezahlen, können sich dieser Organisation anschließen. Volle Mitglieder schließen den grössten Teil der Hauptcomputersoftware und Hardware-Gesellschaften mit jedem Interesse an textbearbeitenden Standards, einschließlich Adobe Systems, Apfels, Google, IBM, Microsofts, Oracle Corporation, Sonne-Mikrosysteme und Yahoo ein!.

Das Konsortium hat die ehrgeizige Absicht, schließlich vorhandene Charakter-Verschlüsselungsschemas durch Unicode und seine Standardschemas von Unicode Transformation Format (UTF) zu ersetzen, weil viele der vorhandenen Schemas in der Größe und dem Spielraum beschränkt werden und mit mehrsprachigen Umgebungen unvereinbar sind.

Versionen

Unicode wird in Verbindung mit der Internationalen Organisation für die Standardisierung entwickelt und teilt das Charakter-Repertoire mit ISO/IEC 10646: die Universale Codierung. Unicode und ISO/IEC enthält 10646 Funktion gleichwertig als Charakter encodings, aber Der Unicode Standard viel mehr Information für implementers — eingehend — Themen wie Bitwise-Verschlüsselung, Vergleichung und Übergabe bedeckend. Der Unicode Standard zählt eine Menge von Charakter-Eigenschaften, einschließlich derjenigen auf, die erforderlich sind, um bidirektionalen Text zu unterstützen. Die zwei Standards verwenden wirklich ein bisschen verschiedene Fachsprache.

Das Konsortium hat zuerst Den Unicode Standard (internationale Standardbuchnummer 0-321-18578-1) 1991 veröffentlicht und setzt fort, auf dieser ursprünglichen Arbeit gestützte Standards zu entwickeln. Die letzte Hauptversion des Standards, Unicode 6.1 wurde 2012 veröffentlicht, und ist von der Website des Konsortiums verfügbar. Die letzte in der Buchform zu veröffentlichende Version war Unicode 5.0 (internationale Standardbuchnummer 0-321-48091-0), aber seit Unicode 6.0 ist der Standard in der Buchform nicht mehr veröffentlicht worden.

So weit sind die folgenden größeren und geringen Versionen des Standards von Unicode veröffentlicht worden. Aktualisierungsversionen, die keine Änderungen zum Charakter-Repertoire einschließen, werden durch die dritte Zahl (z.B "Version 4.0.1") bedeutet, und werden im Tisch unten weggelassen.

Schriften bedeckt

Unicode bedeckt fast alle Schriften (Systeme schreibend), im aktuellen Gebrauch heute.

Obwohl 100 Schriften in Unicode in die letzte Version von Unicode eingeschlossen werden (Bedeckung von Alphabeten, abugidas und Silbenschriften), gibt es noch viele Schriften noch, um, besonders diejenigen verschlüsselt zu werden, die in historischen, liturgischen und akademischen Zusammenhängen hauptsächlich verwendet werden. Weitere Hinzufügungen von Charakteren zu den bereits verschlüsselten Schriften, sowie Symbole, insbesondere für die Mathematik und Musik (in der Form von Zeichen und rhythmischen Symbolen), kommen auch vor. Das Unicode Fahrplan-Komitee (Michael Everson, Rick McGowan und Ken Whistler) erhält die Liste von Schriften aufrecht, die Kandidaten oder potenzielle Kandidaten für die Verschlüsselung und ihre versuchsweisen Codeblock-Anweisungen auf der Unicode Fahrplan-Seite der Unicode Konsortium-Website sind. Für einige Schriften auf dem Fahrplan, wie Jurchen, Nü Shu, Tangut und Geradliniger A, sind verschlüsselnde Vorschläge gemacht worden, und sie arbeiten ihr Weg durch den Billigungsprozess. Für andere sind Schriften, wie Maya und Rongorongo, kein Vorschlag noch gemacht worden, und sie erwarten Konsens über das Charakter-Repertoire und die anderen Details von den beteiligten Benutzergemeinschaften.

Einige moderne erfundene Schriften, die in Unicode (z.B, Tengwar) noch nicht eingeschlossen worden sind, oder die sich für die Einschließung in Unicode nicht qualifizieren, der erwartet ist, vom wirklichen Gebrauch zu fehlen (z.B, Klingon) werden im Einberufenen Unicode Registry zusammen mit inoffiziellen, aber weit verwendeten Privaten Gebrauch-Vorwahl-Anweisungen verzeichnet.

Die Schrift, die Initiative, ein Projekt Verschlüsselt, das von Dr Deborah Anderson an der Universität Kaliforniens geführt ist, Berkeley wurde 2002 mit der Absicht gegründet, Vorschläge für im Standard noch nicht verschlüsselte Schriften finanziell zu unterstützen. Das Projekt ist eine Hauptquelle von vorgeschlagenen Hinzufügungen zum Standard in den letzten Jahren geworden.

Kartografisch darstellend und encodings

Mehrere Mechanismen sind angegeben worden, für Unicode durchzuführen; welchen implementers wählen, hängt von verfügbarem Abstellraum, Quellcodevereinbarkeit und Zwischenfunktionsfähigkeit mit anderen Systemen ab.

Unicode Transformationsformat und universale Codierung

Unicode definiert zwei kartografisch darstellende Methoden: Unicode Transformation Format (UTF) encodings und Universal Character Set (UCS) encodings. Eine Verschlüsselung stellt kartografisch dar (vielleicht eine Teilmenge) die Reihe des Codes von Unicode weist zu Folgen von Werten in einer Reihe der festen Größe, genannten Codewerten hin. Die Zahlen in den Namen des encodings zeigen die Zahl von Bit in einem Codewert (für UTF encodings) oder die Zahl von Bytes pro Codewert (für UCS) encodings an. UTF-8 und UTF-16 sind wahrscheinlich der meistens verwendete encodings. UCS-2 ist eine veraltete Teilmenge von UTF-16; UCS-4 und UTF-32 sind funktionell gleichwertig.

UTF encodings schließen ein:

UTF-1 - ein pensionierter Vorgänger von UTF-8, maximiert Vereinbarkeit mit ISO 2022, nicht mehr ein Teil Des Unicode Standards
UTF-7 - 7 Bit, die manchmal verwendet in der E-Mail verschlüsseln, haben häufig als veraltet (nicht ein Teil Des Unicode Standards, aber eher ein RFC) betrachtet
UTF-8 - eine 8-Bit-Verschlüsselung der variablen Breite, die Vereinbarkeit mit ASCII maximiert.
UTF-EBCDIC - eine 8-Bit-variable Breite, die ähnlich UTF-8, aber entworfen für die Vereinbarkeit mit EBCDIC verschlüsselt. (nicht ein Teil Des Unicode Standards)
UTF-16 - 16 Bit, variable Breite, die verschlüsselt
UTF-32 - 32 Bit, feste Breite, die verschlüsselt

UTF-8 verwendet Punkt von einem bis vier Bytes pro Code und, für lateinische Schriften und ASCII-vereinbar kompakt seiend, stellt die De-Facto-Standardverschlüsselung für den Austausch des Textes von Unicode zur Verfügung. Es wird auch durch den grössten Teil neuen Vertriebs von Linux als ein direkter Ersatz für das Vermächtnis encodings im allgemeinen Textberühren verwendet.

Der UCS-2 und UTF-16 encodings geben Unicode Byte Order Mark (BOM) für den Gebrauch an den Anfängen von Textdateien an, die für die Byte-Einrichtungsentdeckung (oder Byte endianness Entdeckung) verwendet werden können. Einige Softwareentwickler haben es für anderen encodings einschließlich UTF-8 angenommen, so kann Software UTF-8 von lokalen 8-Bit-Codeseiten unterscheiden. In diesem Fall versucht es, die Datei zu kennzeichnen, als Text von Unicode zu enthalten. Der BOM Codepunkt hat U+FEFF das wichtige Eigentum der Unzweideutigkeit auf der Byte-Wiederordnung unabhängig von der verwendeten Verschlüsselung von Unicode; U+FFFE (das Ergebnis des Tauschens des Bytes U+FEFF) entspricht zu einem gesetzlichen Charakter nicht, und U+FEFF in anderen Plätzen, außer dem Anfang des Textes, befördert der Nullbreite Raum ohne Brechungen (ein Charakter ohne Äußeres und keine Wirkung außer dem Verhindern der Bildung von Binden). Außerdem erscheinen die Einheiten und nie in UTF-8. Derselbe zu UTF-8 umgewandelte Charakter wird die Byte-Folge.

In UTF-32 und UCS-4 dient ein 32-Bit-Codewert als eine ziemlich direkte Darstellung des Codepunkts jedes Charakters (obwohl der endianness, der sich über verschiedene Plattformen ändert, betrifft, wie der Codewert als eine Oktett-Folge erscheint). In den anderen Fällen kann jeder Codepunkt durch eine variable Zahl von Codewerten vertreten werden. UTF-32 wird als innere Darstellung des Textes in Programmen weit verwendet (im Vergleich mit dem versorgten oder übersandten Text), seit jedem Unix verwendet Betriebssystem, das die gcc Bearbeiter verwendet, um Software zu erzeugen, es als der breite "Standardcharakter" Verschlüsselung. Neue Versionen der Pythonschlange-Programmiersprache (mit 2.2 beginnend), können auch konfiguriert werden, um UTF-32 als die Darstellung für Schnuren von Unicode zu verwenden, effektiv solche Verschlüsselung in der codierten Software auf höchster Ebene verbreitend.

Punycode, eine andere Verschlüsselungsform, ermöglicht die Verschlüsselung von Schnuren von Unicode in die beschränkte durch das ASCII-basierte Domainname-System unterstützte Codierung. Die Verschlüsselung wird als ein Teil von IDNA verwendet, der ein System ist, das den Gebrauch von Internationalisierten Domainnamen in allen Schriften ermöglicht, die von Unicode unterstützt werden. Früher und jetzt schließen historische Vorschläge ein.

GB18030 ist eine andere Verschlüsselungsform für Unicode von der Standardisierungsregierung Chinas. Es ist die offizielle Codierung der Volksrepublik Chinas (PRC). BOCU-1 und SCSU sind Kompressionsschemas von Unicode. Der Tag der Aprilnarren, den RFC von 2005 zwei angegeben hat, parodiert UTF encodings, UTF-9 und UTF-18.

Gebrauchsfertig gegen zerlegbare Charaktere

Unicode schließt einen Mechanismus ein, um Charakter-Gestalt zu modifizieren, die außerordentlich das unterstützte glyph Repertoire erweitert. Das bedeckt den Gebrauch, diakritische Zeichen zu verbinden. Sie werden nach dem Hauptcharakter eingefügt (kann man mehrere sich verbindende diakritische Zeichen über denselben Charakter aufschobern). Unicode enthält auch vorzusammengesetzte Versionen von den meisten Brief-Kombinationen / diakritischen Kombinationen im normalen Gebrauch. Diese machen Konvertierung zu und vom Vermächtnis encodings einfacher, und erlauben Anwendungen, Unicode als ein inneres Textformat zu verwenden, ohne sich verbindende Charaktere durchführen zu müssen. Zum Beispiel kann é in Unicode als U+0065 (LATEINISCHER KLEINER BRIEF E) gefolgt von U+0301 vertreten werden (AKUT VERBINDEND), aber es kann auch als der vorgelassene Charakter U+00E9 (LATEINISCHER KLEINER BRIEF E MIT DEM AKUTEN) vertreten werden. So in vielen Fällen haben Benutzer viele Weisen, denselben Charakter zu verschlüsseln. Um sich damit zu befassen, stellt Unicode den Mechanismus der kanonischen Gleichwertigkeit zur Verfügung.

Ein Beispiel davon entsteht mit Hangul, dem koreanischen Alphabet. Unicode stellt den Mechanismus zur Verfügung, für Silben von Hangul mit ihren individuellen Teilelementen, bekannt als Hangul Jamo zusammenzusetzen. Jedoch stellt es auch alle 11,172 Kombinationen von vorgelassenen Silben von Hangul zur Verfügung.

Die CJK Begriffszeichen haben zurzeit Codes nur für ihre vorgelassene Form. Und doch, die meisten jener Begriffszeichen umfassen einfachere Elemente (häufig genannt Radikale in Englisch) also im Prinzip, Unicode könnte sie zersetzt haben, wie mit Hangul geschehen ist. Das hätte die Anzahl von erforderlichen Codepunkten außerordentlich vermindert, während es die Anzeige eigentlich jedes denkbaren Begriffszeichens erlaubt (der einige der Probleme beseitigen könnte, die durch die Vereinigung von Han verursacht sind). Eine ähnliche Idee bedeckt einige Eingangsmethoden, wie Cangjie und Wubi. Jedoch Versuche zu tun ist das für die Charakter-Verschlüsselung über die Tatsache gestrauchelt, dass sich Begriffszeichen als einfach oder so regelmäßig nicht zersetzen, wie es scheint, dass sie sollten.

Eine Reihe von Radikalen wurde in Unicode 3.0 (CJK Radikale zwischen U+2E80 und U+2EFF, Radikale von KangXi in U+2F00 zu U+2FDF und ideographic Beschreibungscharaktere von U+2FF0 bis U+2FFB), aber der Standard von Unicode zur Verfügung gestellt (ch. 12.2 von Unicode 5.2) warnt vor dem Verwenden ideographic Beschreibungsfolgen als eine abwechselnde Darstellung für vorher verschlüsselte Charaktere:

Binden

Viele Schriften, einschließlich Arabisch und Devanagari, haben spezielle orthografische Regeln, die verlangen, dass bestimmte Kombinationen von letterforms in spezielle Binde-Formen verbunden werden. Die Regeln, Binde-Bildung regelnd, können ziemlich kompliziert sein, spezielle Schrift gestaltende Technologien wie ASS verlangend (arabischer Kalligrafischer Motor durch DecoType in den 1980er Jahren und verwendet, um alle arabischen Beispiele in den gedruckten Ausgaben des Unicode Standards zu erzeugen), der der Beweis des Konzepts für OpenType (durch Adobe und Microsoft), Grafit (durch SIL International), oder AAT (durch den Apfel) geworden ist. Instruktionen werden auch in Schriftarten eingebettet, um das Betriebssystem wie richtig der Produktion verschiedene Charakter-Folgen zu erzählen. Eine einfache Lösung des Stellens, Zeichen oder diakritische Zeichen zu verbinden, teilt die Zeichen eine Breite der Null zu und legt den glyph selbst nach links oder das Recht auf den linken sidebearing (je nachdem die Richtung der Schrift sie beabsichtigt sind, um mit verwendet zu werden). Ein Zeichen hat behandelt dieser Weg wird über beliebigen Charakter erscheinen geht ihm voran, aber wird seine Position hinsichtlich der Breite oder Höhe der Basis glyph nicht anpassen; es kann visuell ungeschickt sein, und es kann auf einen glyphs übergreifen. Das echte Stapeln ist unmöglich, aber kann in beschränkten Fällen näher gekommen werden (zum Beispiel, thailändische spitzenverbindende Vokale und Ton-Zeichen können gerade an verschiedenen Höhen sein, um mit anzufangen). Allgemein ist diese Annäherung nur in Schriftarten unter monodrogeneinfluss wirksam, aber kann als eine Rückgriff-Übergabe-Methode verwendet werden, wenn kompliziertere Methoden scheitern.

Standardisierte Teilmengen

Mehrere Teilmengen von Unicode werden standardisiert: Windows von Microsoft seit Windows NT 4.0 Unterstützungen WGL-4 mit 652 Charakteren, der, wie man betrachtet, alle zeitgenössischen europäischen Sprachen mit dem Latein, dem Griechisch oder der Kyrillischen Schrift unterstützt. Andere standardisierte Teilmengen von Unicode schließen die Mehrsprachigen europäischen Teilmengen ein:

MES-1 (lateinische Schriften nur, 335 Charaktere), MES-2 (lateinische, griechische und Kyrillische 1062 Charaktere) und MES-3A & MES-3B (zwei größere Teilmengen, nicht gezeigt hier). Bemerken Sie, dass MES-2 jeden Charakter in MES-1 und WGL-4 einschließt.

Übergabe der Software, die keinen Charakter von Unicode passend häufig bearbeiten kann, zeigt ihn als ein offenes Rechteck oder Unicode "Ersetzungszeichen" (U+FFFD), um die Position des unerkannten Charakters anzuzeigen. Einige Systeme haben Versuche gemacht, mehr Auskunft über solche Charaktere zu geben. Die Schriftart der Apple LastResort wird einen Ersatz glyph das Anzeigen der Reihe von Unicode des Charakters zeigen, und der SIL Unicode Rückgriff-Schriftart wird einen Kasten zeigen, den hexadecimal Skalarwert des Charakters zeigend.

Unicode im Gebrauch

Betriebssysteme

Unicode ist das dominierende Schema für die innere Verarbeitung und Lagerung des Textes geworden (obwohl sehr viel Text noch im Vermächtnis encodings versorgt wird, wird Unicode fast exklusiv verwendet, um neue Informationsverarbeitungssysteme zu bauen). Frühe Adoptierende haben dazu geneigt, UCS-2 und später bewegt zu UTF-16 zu verwenden (weil das die am wenigsten störende Weise war, Unterstützung für non-BMP Charaktere hinzuzufügen). Das am besten bekannte solches System ist Windows NT (und seine Nachkommen, Windows 2000, Windows XP, Windows-Aussicht und Windows 7), der UTF-16 als die alleinige innere Charakter-Verschlüsselung verwendet. Java und.NET bytecode Umgebungen, Mac OS X und KDE verwenden es auch für die innere Darstellung. Unicode ist auf Windows 95 (und seine Nachkommen, Windows 98 und Windows ME) durch Microsoft Layer für Unicode verfügbar.

UTF-8 (ursprünglich entwickelt für den Plan 9) ist die Hauptlagerungsverschlüsselung auf den meisten Unix ähnlichen Betriebssystemen geworden (obwohl andere auch von einigen Bibliotheken verwendet werden), weil es ein relativ leichter Ersatz für traditionelle erweiterte ASCII Codierungen ist. UTF-8 ist auch die allgemeinste Verschlüsselung von Unicode, die in HTML-Dokumenten auf dem World Wide Web verwendet ist.

Mehrsprachige textmachende Motoren, die Unicode verwenden, schließen Uniscribe und DirectWrite für Windows von Microsoft, ATSUI und Kerntext für Mac OS X und Pango für GTK + und die ZWERG-Arbeitsfläche ein.

Eingangsmethoden

Weil Tastatur-Lay-Outs einfache Schlüsselkombinationen für alle Charaktere nicht haben können, stellen mehrere Betriebssysteme alternative Eingangsmethoden zur Verfügung, die Zugang zum kompletten Repertoire erlauben.

ISO 14755, der Methoden standardisiert, für in Charaktere von Unicode von ihrem codepoints einzugehen, gibt mehrere Methoden an. Es gibt die Grundlegende Methode, wo einer beginnenden Folge von der hexadecimal Darstellung des codepoint und der endenden Folge gefolgt wird. Es gibt auch eine angegebene Zugang-Methode der Schirm-Auswahl, wo die Charaktere in einem Tisch in einem Schirm, solcher als mit einem Charakter-Karte-Programm verzeichnet werden.

E-Mail

PANTOMIME definiert zwei verschiedene Mechanismen, um non-ASCII Charaktere in der E-Mail je nachdem zu verschlüsseln, ob die Charaktere in E-Mail-Kopfbällen sind (wie das "Thema:"), oder im Textkörper der Nachricht; in beiden Fällen wird die ursprüngliche Codierung sowie eine Übertragungsverschlüsselung identifiziert. Für die E-Mail-Übertragung von Unicode die UTF-8 Codierung und der Base64 oder das Angesetzte - wird druckfähige Übertragungsverschlüsselung je nachdem empfohlen, ob viel von der Nachricht aus ASCII-Charakteren besteht. Die Details der zwei verschiedenen Mechanismen werden in den PANTOMIME-Standards angegeben und werden allgemein vor Benutzern der E-Mail-Software verborgen.

Die Adoption von Unicode in der E-Mail ist sehr langsam gewesen. Ein ostasiatischer Text wird noch in encodings wie ISO-2022 verschlüsselt, und einige Geräte, wie Zelle Telefone, können noch Daten von Unicode richtig nicht behandeln. Unterstützung hat sich jedoch verbessert. Viele freie Hauptpostversorger wie Yahoo, Google (Gmail) und Microsoft (Hotmail) unterstützen es.

Web

Alle W3C Empfehlungen haben Unicode als ihre Dokumentencodierung seit dem HTML 4.0 verwendet. WWW-Browser haben Unicode, besonders UTF-8 viele Jahre lang unterstützt. Anzeigeproblem-Ergebnis in erster Linie aus der Schriftart hat Probleme verbunden; insbesondere Versionen des Microsoft Internet Explorers machen viele Codepunkte, wenn ausführlich nicht erzählt, nicht, um eine Schriftart zu verwenden, die sie enthält.

Obwohl Syntax-Regeln die Ordnung betreffen können, in der Charakteren erlaubt wird, sowohl HTML 4 als auch XML (einschließlich XHTML) Dokumente zu erscheinen, definitionsgemäß Charaktere von den meisten Codepunkten von Unicode zu umfassen, mit Ausnahme von:

der grösste Teil der C0- und C1-Kontrolle codiert
der dauerhaft unbestimmte Code spitzt D800-DFFF an
jeder Codepunkt, der in FFFE oder FFFF endet

HTML-Charaktere erscheinen entweder direkt als Bytes gemäß der Verschlüsselung des Dokumentes, wenn die Verschlüsselung sie unterstützt, oder Benutzer können ihnen als numerische auf dem Codepunkt von Unicode des Charakters gestützte Charakter-Verweisungen schreiben. Zum Beispiel sollten die Verweisungen, und (oder dieselben numerischen Werte, die in hexadecimal, mit als das Präfix ausgedrückt sind), auf allen Browsern als Δ, Й, , , , , , und zeigen.

Wenn

man URIs, zum Beispiel weil angibt, müssen URL-ADRESSEN in HTTP-Bitten, non-ASCII Charaktere Prozent-verschlüsselt werden.

Schriftarten

Freie und auf Unicode gestützte Einzelschriftarten sind weit verfügbar, da TrueType und OpenType Unicode unterstützen. Diese Schriftart-Formate stellen Codepunkte von Unicode zu glyphs kartografisch dar.

Tausende von Schriftarten bestehen auf dem Markt, aber weniger als ein Dutzend Schriftarten — manchmal beschrieben als "Pan-Unicode"-Schriftarten — versuchen, die Mehrheit des Charakter-Repertoires von Unicode zu unterstützen. Statt dessen konzentrieren sich mit Sitz in Unicode Schriftarten normalerweise darauf, nur grundlegenden ASCII und besondere Schriften oder Sätze von Charakteren oder Symbolen zu unterstützen. Mehrere Gründe rechtfertigen diese Annäherung: Anwendungen und Dokumente müssen selten Charaktere von mehr als einem oder zwei Schreiben-Systemen machen; Schriftarten neigen dazu, Mittel in Rechenumgebungen zu fordern; und Betriebssystem- und Anwendungsshow-Erhöhungsintelligenz hinsichtlich des Erreichens glyph Information von getrennten Schriftart-Dateien, wie erforderlich, d. h. Schriftart-Ersatz. Außerdem setzt das Entwerfen einer konsistenten Menge, Instruktionen für Zehntausende von glyphs zu machen, eine kolossale Aufgabe ein; solch ein Wagnis passiert den Punkt des abnehmenden Ertrags für die meisten Schriftbilder.

Neue Linien

Unicode richtet teilweise das neue Linienproblem, das vorkommt, wenn es versucht, eine Textdatei auf verschiedenen Plattformen zu lesen. Unicode definiert eine Vielzahl von Charakteren, die übereinstimmende Anwendungen als Linie terminators anerkennen sollten.

In Bezug auf die neue Linie hat Unicode wirklich eingeführt und. Das war ein Versuch, eine Lösung von Unicode der Verschlüsselung von Paragrafen und Linien semantisch zur Verfügung zu stellen, potenziell alle verschiedenen Plattform-Lösungen ersetzend. Dabei stellt Unicode wirklich einen Weg um die historischen Plattform-Abhängiger-Lösungen zur Verfügung. Dennoch, wenige, wenn irgendwelche Lösungen von Unicode diese Unicode Linie und Paragraf-Separatoren als die alleinigen kanonischen Linienende-Charaktere angenommen haben. Jedoch ist eine einheitliche Methode zum Lösen dieses Problems durch die neue Liniennormalisierung. Das wird mit dem Kakao-Textsystem in Mac OS X und auch mit W3C XML und HTML-Empfehlungen erreicht. In dieser Annäherung wird jeder mögliche neue Liniencharakter innerlich zu einer allgemeinen neuen Linie umgewandelt (welcher nicht wirklich von Bedeutung ist, da es eine innere Operation gerade ist wegen zu machen). Mit anderen Worten kann das Textsystem den Charakter als eine neue Linie unabhängig von der wirklichen Verschlüsselung des Eingangs richtig behandeln.

Probleme

Philosophisch und Vollständigkeitskritiken

Vereinigung von Han (die Identifizierung von Formen auf den ostasiatischen Sprachen, die als stilistische Schwankungen desselben historischen Charakters behandeln kann) ist einer der am meisten umstrittenen Aspekte von Unicode trotz der Anwesenheit einer Mehrheit von Experten von allen drei Gebieten in Ideographic Rapporteur Group (IRG) geworden, die das Konsortium und ISO auf Hinzufügungen zum Repertoire und auf der Vereinigung von Han empfiehlt.

Unicode ist dafür kritisiert worden zu scheitern, ältere und alternative Formen von kanji zu berücksichtigen, der, Kritiker streiten, die Verarbeitung von alten japanischen und ungewöhnlichen japanischen Namen kompliziert. Das ist häufig auf Grund dessen, dass Unicode Charaktere aber nicht glyphs verschlüsselt (die Sehdarstellungen des grundlegenden Charakters, die sich häufig aus einer Sprache in die andere ändern). Das führt zur Wahrnehmung, dass die Sprachen selbst, nicht nur die grundlegende Charakter-Darstellung, verschmolzen werden. Es hat mehrere Versuche gegeben, Alternative encodings zu schaffen, die die stilistischen Unterschiede zwischen Chinesisch, Japanisch und koreanischen Charakteren entgegen der Politik von Unicode der Vereinigung von Han bewahren. Unter ihnen sind TRON (obwohl er in Japan nicht weit angenommen wird, gibt es einige Benutzer, die historischen japanischen Text behandeln und ihn bevorzugen müssen), und UTF-2000.

Obwohl das Repertoire von weniger als 21,000 Charakteren von Han in der frühsten Version von Unicode auf Charaktere im allgemeinen modernen Gebrauch größtenteils beschränkt wurde, schließt Unicode jetzt mehr als 70,000 Charaktere von Han ein, und Arbeit setzt fort, Tausende mehr historische und mundartliche Charaktere hinzuzufügen, die in China, Japan, Korea, Taiwan und Vietnam verwendet sind.

Moderne Schriftart-Technologie stellt ein Mittel zur Verfügung, das praktische Problem des Müssens zu richten, einen vereinigten Charakter von Han in Bezug auf eine Sammlung der Alternative glyph Darstellungen zeichnen. Zum Beispiel erlauben die Fortgeschrittenen Drucktechnischen Tische von OpenType einem von mehreren Alternative glyph Darstellungen, ausgewählt zu werden, wenn sie den Charakter für glyph durchführen, der Prozess kartografisch darstellt. In diesem Fall würde Information musste außerhalb des Klartext-Formats zur Verfügung gestellt werden, um der Alternative zu benennen, auszuwählen.

Zu Vermächtnis-Codierungen kartografisch darstellend

Injective mappings muss zwischen Charakteren in vorhandenen Vermächtnis-Codierungen und Charakteren in Unicode zur Verfügung gestellt werden, um Konvertierung zu Unicode zu erleichtern und Zwischenfunktionsfähigkeit mit der Vermächtnis-Software zu erlauben. Fehlen Sie der Konsistenz in verschiedenem mappings zwischen früherem japanischem encodings wie Shift-JIS oder EUC-JP, und Unicode hat zu Umwandlungsfehlanpassungen des Formats der Hin- und Rückfahrt geführt, besonders des Charakters JIS X 201 '～' (1-33, WELLE-SPUR), schwer verwendet in Vermächtnis-Datenbankdaten, zu irgendeinem '～' U+FF5E FULLWIDTH TILDE (in Windows von Microsoft) oder '' U+301C WELLE-SPUR (andere Verkäufer) kartografisch darzustellen.

Einige japanische Computerprogrammierer haben gegen Unicode protestiert, weil er verlangt, dass sie den Gebrauch '\' U+005C RÜCKSCHRÄGSTRICH (umgekehrter Schrägstrich) und '¥' U+00A5 YEN-ZEICHEN trennen, das zu 0x5C in JIS X 0201 kartografisch dargestellt wurde, und viel Vermächtnis-Code mit diesem Gebrauch besteht. (Diese Verschlüsselung ersetzt auch Tilde '~' 0x7E mit dem Überstrich '¯', jetzt 0xAF.) Die Trennung dieser Charaktere besteht in ISO 8859-1, von lange vor Unicode.

Schriften von Indic

Thailändische Alphabet-Unterstützung ist für seine Einrichtung von thailändischen Charakteren kritisiert worden. Die Vokale , , , , , die links vom vorhergehenden Konsonanten geschrieben werden, sind in der Sehordnung statt der fonetischen Ordnung verschieden von den Darstellungen von Unicode anderer Schriften von Indic. Diese Komplikation ist wegen Unicode, der die thailändischen Industriellen Normalen 620 erbt, die ebenso gearbeitet haben, und der Weg waren, auf den Thai immer über Tastaturen geschrieben worden war. Dieses Einrichtungsproblem kompliziert den Vergleichungsprozess von Unicode ein bisschen, Tisch lookups verlangend, thailändische Charaktere für die Vergleichung wiederzubestellen. Selbst wenn Unicode Verschlüsselung gemäß der gesprochenen Ordnung angenommen hatte, würde es noch problematisch sein, um Wörter in der Wörterbuch-Ordnung zu kollationieren. Z.B. das Wort "führt" Anfänge mit einer Konsonantengruppe "" "durch" (mit einem innewohnenden Vokal für den Konsonanten ""), der Vokal - in der gesprochenen Ordnung würde nach dem kommen, aber in einem Wörterbuch wird das Wort kollationiert, wie es mit dem Vokal im Anschluss an den geschrieben wird.

Schriften von Indic wie Tamilisch und Devanagari werden jeder nur 128 Codepunkte zugeteilt, den ISCII Standard vergleichend. Die richtige Übergabe des Textes von Unicode Indic verlangt das Umwandeln der versorgten logischen Ordnungscharaktere in die Sehordnung und das Formen von Binden aus Bestandteilen. Einige lokale Gelehrte haben für Anweisungen von Unicode codepoints zu diesen Binden gestritten, gegen die Praxis für andere Schreiben-Systeme gehend, obwohl Unicode ein Arabisch und andere Binden zu rückwärts gerichteten Vereinbarkeitszwecken nur enthält. Die Verschlüsselung irgendwelcher neuen Binden in Unicode wird teilweise nicht geschehen, weil der Satz von Binden von der Schriftart abhängig ist, und Unicode eine von Schriftart-Schwankungen unabhängige Verschlüsselung ist. Dieselbe Art des Problems ist für die tibetanische Schrift entstanden (die chinesische Nationale Standardorganisation hat gescheitert, eine ähnliche Änderung zu erreichen).

Das Kombinieren von Charakteren

Charaktere mit diakritischen Zeichen können allgemein entweder als ein einzelner vorgelassener Charakter oder als eine zersetzte Folge eines Grundbriefs plus ein oder mehr Nichtabstand-Zeichen vertreten werden. Zum Beispiel, (hat e mit dem Längestrich und akut oben vorzusammengesetzt), und (e gefolgt vom sich verbindenden Längestrich oben und Kombinieren akut oben) sollte identisch gemacht werden, sowohl als ein e mit einem Längestrich als auch Akut erscheinend, aber in der Praxis kann sich ihr Äußeres abhängig davon ändern, was die Übergabe des Motors und der Schriftarten verwendet wird, um die Charaktere zu zeigen. Ähnlich wird underdots, wie erforderlich, im romanization von Indic, häufig falsch gelegt. Charaktere von Unicode, die zu vorgelassenem glyphs kartografisch darstellen, können in vielen Fällen verwendet werden, so das Problem vermeidend, aber wo kein vorgelassener Charakter verschlüsselt worden ist, kann das Problem häufig durch das Verwenden einer Schriftart des Fachmannes Unicode wie Charis SIL behoben werden, der Grafit, OpenType oder AAT Technologien für fortgeschrittene Übergabe-Eigenschaften verwendet.

Siehe auch

Unicode geben ein
Vergleich von Unicode encodings
Offene Quelle Unicode Schriftbilder
Liste von binären Codes
Liste von Charakteren von Unicode
Liste von XML und HTML-Charakter-Entitätsverweisungen
Standards haben sich auf Unicode bezogen
Symbole von Unicode
Kulturelle, politische und religiöse Symbole in Unicode

Referenzen

Das Ganze Handbuch der Typografie, James Felicis, Adobe Press; 1. Ausgabe, 2002. Internationale Standardbuchnummer 0-321-12730-7
Der Unicode Standard, die Version 4.0, Das Unicode Konsortium, Addison-Wesley Professional, am 27. August 2003. Internationale Standardbuchnummer 0-321-18578-1
Der Unicode Standard, die Version 5.0, die Fünfte Ausgabe, Das Unicode Konsortium, Addison-Wesley Professional, am 27. Oktober 2006. Internationale Standardbuchnummer 0-321-48091-0
Unicode: Eine Zündvorrichtung, Tony Graham, M&T Bücher, 2000. Internationale Standardbuchnummer 0-7645-4625-2.
Unicode Demystified: Ein Handbuch eines Praktischen Programmierers zum Verschlüsselungsstandard, Richard Gillam, Addison-Wesley Professional; 1. Ausgabe, 2002. Internationale Standardbuchnummer 0-201-70052-2
Unicode Erklärt, Jukka K. Korpela, O'Reilly; 1. Ausgabe, 2006. Internationale Standardbuchnummer 0 596 10121 X

Links

Das Unicode Konsortium
Unicode 6.1.0, der ganze Standard von Unicode
Charakter-Codekarten Durch die Schrift für Unicode 6.1
Die Unicode Mittel von Alan Wood Enthalten Listen von Textverarbeitungsprogrammen mit der Fähigkeit von Unicode; Schriftarten und Charaktere werden durch den Typ gruppiert; Charaktere werden in Listen, nicht Bratrost präsentiert.
Die Charaktere von Tim Bray gegen Bytes erklären, wie die verschiedenen encodings arbeiten.
decodeunicode.org Images aller 98,884 Schriftzeichen, die in Unicode 5.0 (deutsche/englische, volle Textsuche) definiert sind
libUniCode-plus (Entwicklung und Manipulation von Tischen von Unicode)
Tisch von Charakteren von Unicode von 1 bis 65535 (alternative Tische: 64 Symbole pro Seite und 100 Symbole pro Seite)
Unicode Character Search (suchen nach Charakteren durch ihre Namen von Unicode)
UniView Ein XHTML-basierter Unicode Charakter schlagen Anwendung nach
YChartUnicode Yoix Karte aller Codepunkte im Grundlegenden Mehrsprachigen Flugzeug
Die Unicode Spracherklärung von Bill Poser und eine Liste von Flucht-Formaten
Joel Spolsky das absolute Minimum jeder Softwareentwickler muss über Unicode und Codierungen wissen
Shapecatcher Ein HTML5 Werkzeug, um Charaktere von Unicode durch die Zeichnung von ihnen (10877 Charaktere mit einem Inhaltsverzeichnis versehen) zu finden.
Was jeden Programmierer absolut, positiv über encodings und Codierungen wissen muss, um mit dem Text zu arbeiten.

Ursprung und Entwicklung
Geschichte
Architektur und Fachsprache
Codepunkt-Flugzeuge und Blöcke
Charakter allgemeine Kategorie
Abstrakte Charaktere
Standard
Versionen
Schriften bedeckt
Kartografisch darstellend und encodings
Unicode Transformationsformat und universale Codierung
Gebrauchsfertig gegen zerlegbare Charaktere
Binden
Standardisierte Teilmengen
Unicode im Gebrauch
Betriebssysteme
Eingangsmethoden
E-Mail
Web
Schriftarten
Neue Linien
Probleme
Philosophisch und Vollständigkeitskritiken
Zu Vermächtnis-Codierungen kartografisch darstellend
Schriften von Indic
Das Kombinieren von Charakteren
Siehe auch
Referenzen
Links

Siehe auch:
Abugida
Ada (Programmiersprache)
ALGOL
Alphabet von Deseret
APL (Programmiersprache)
Arabische Ziffern
Arabisches Alphabet
Bidirektionaler Text
Binär codierte Dezimalzahl
Blindenschrift
Blissymbols
C (Programmiersprache)
Charakter-Verschlüsselung
Charakter encodings im HTML
Chinesische Eingangsmethoden für Computer
COBOL
Code
Cygwin
Diakritisch
Diameter
Digital Equipment Corporation
Domainname-System
Dominos
Duodezimal
E-Mail
EBCDIC
Emoticon
Epsilon
Kontrollcharakter
Kyrillische Schrift
Leerer Satz
Mona
Rad
Seien Sie OS
Vergleichung
Waliser

Arbeitslosigkeit / Uran Impressum & Datenschutz