Vereinigung von Han

Vereinigung von Han ist eine Anstrengung durch die Autoren von Unicode und der Universalen Codierung, um vielfache Codierungen der so genannten CJK Sprachen in einen einzelnen Satz von vereinigten Charakteren kartografisch darzustellen. Charaktere von Han sind ein gemeinsames Merkmal von schriftlichen Chinesen (hanzi), Japanern (kanji), Koreaner (hanja), und — mindestens historisch — andere asiatische und Ostsüdostsprachen. (Sieh vietnamesischen Hán T  und Ch  Nôm.)

Moderne chinesische, japanische und koreanische Schriftbilder verwenden normalerweise regionale oder historische Varianten eines gegebenen Charakters von Han. In der Formulierung von Unicode wurde ein Versuch gemacht, diese Varianten durch das Betrachten von ihnen als verschiedenen glyphs das Darstellen desselben "Graphems" oder orthografischer Einheit, folglich, "Vereinigung von Han", mit dem resultierenden zu Unihan manchmal zusammengezogenen Charakter-Repertoire zu vereinigen.

Unihan kann sich auch auf die Unihan Datenbank beziehen, die vom Unicode Konsortium aufrechterhalten ist, das Auskunft über alle vereinigten Charaktere von Han gibt, die im Standard von Unicode einschließlich mappings dem verschiedenen Staatsangehörigen verschlüsselt sind, und Industriestandards, Indizes in Standardwörterbücher, Varianten, Artikulationen auf verschiedenen Sprachen und eine englische Definition verschlüsselt haben. Die Datenbank ist für das Publikum als Textdateien und über eine interaktive Website verfügbar. Der Letztere schließt auch vertretenden glyphs und Definitionen für Wortzusammensetzungen ein, die von der freien japanischen VERORDNUNG und den chinesischen CEDICT Wörterbuch-Projekten gezogen sind (die für die Bequemlichkeit zur Verfügung gestellt werden und nicht ein formeller Teil des Standards von Unicode sind).

Grundprinzip und Meinungsverschiedenheit

Regeln für die Vereinigung von Han werden im ostasiatischen Schrift-Kapitel der verschiedenen Versionen des Unicode Standards (Kapitel 12 in Unicode 6.0) gegeben. Ideographic Rapporteur Group (IRG), die aus Experten aus den chinesisch sprechenden Ländern, Nordkorea und Südkorea, Japan, Vietnam, und anderen Ländern zusammengesetzt ist, ist für den Prozess verantwortlich.

Ein mögliches Grundprinzip ist der Wunsch, die Größe der vollen Codierung von Unicode zu beschränken, wo sich CJK Charaktere, wie vertreten, durch getrennte Begriffszeichen nähern oder 100,000 zu weit gehen können (während diejenigen, die für die gewöhnliche Lese- und Schreibkundigkeit auf jeder Sprache erforderlich sind, wahrscheinlich unter 3,000 sind). Die Version 1 von Unicode wurde entworfen, um 16 Bit einzubauen, und nur 20,940 Charaktere (32 %) aus den möglichen 65,536 wurden für diese CJK Vereinigte Begriffszeichen vorbestellt. Später ist Unicode zu 21 Bit erweitert worden, die noch viele CJK Charaktere erlauben (75,960, werden mit dem Zimmer für mehr zugeteilt).

Das heimliche Leben des auf IBM DeveloperWorks gelegenen Artikels Unicode versucht, einen Teil der Motivation für die Vereinigung von Han zu illustrieren:

Tatsächlich die drei Begriffszeichen für wird "eines" getrennt in Unicode verschlüsselt, weil sie als nationale Varianten nicht betrachtet werden. Das erste und zweite werden auf Finanzinstrumenten verwendet, um zu verhindern, herumzubasteln (sie können als Varianten betrachtet werden), während das dritte die Standardform in allen drei Ländern ist.

Jedoch hat Vereinigung von Han auch beträchtliche Meinungsverschiedenheit besonders unter dem japanischen Publikum verursacht, die, mit den Literaten der Nation, eine Geschichte haben, gegen das Auswählen historisch und kulturell bedeutende Varianten zu protestieren. (Sieh Kanji#Orthographic Reform und Listen von kanji. Heute setzt die Liste von Charakteren, die offiziell für den Gebrauch in Eigennamen anerkannt sind, fort, sich mit einem bescheidenen Schritt auszubreiten.)

Grapheme gegen glyphs

Ein Graphem ist die kleinste abstrakte Einheit der Bedeutung in einem Schreiben-System. Jedes Graphem hat viele mögliche glyph Ausdrücke, aber alle werden als dasselbe Graphem von denjenigen mit dem Lesen und Schreiben von Kenntnissen eines besonderen Schreiben-Systems anerkannt. Während Unicode normalerweise Charaktere damit beauftragt, Punkte zu codieren, um die Grapheme innerhalb eines Systems des Schreibens auszudrücken, warnt der Standard von Unicode (Abschnitt 3.4 D7) wirklich:

Ein abstrakter Charakter entspricht nicht notwendigerweise, woran ein Benutzer als ein "Charakter" denkt und mit einem Graphem nicht verwirrt sein sollte.

Jedoch bezieht sich das auf die Tatsache, dass einige Grapheme aus mehreren Charakteren zusammengesetzt werden. Also, zum Beispiel könnte der Charakter "a" (U+0061) verbunden mit einem Kreis über (U+030A) (d. h. å) von einem Benutzer als ein einzelnes Graphem verstanden werden, während man aus vielfachen Auszug-Charakteren von Unicode zusammengesetzt worden ist. Außerdem teilt Unicode auch einige Codepunkte einer kleinen Zahl (anders zu als aus Vereinbarkeitsgründen), Charaktere, whitespace Charaktere und andere abstrakte Charaktere zu formatieren, die nicht Grapheme, aber stattdessen verwendet sind, um die Brechungen zwischen Linien, Wörtern, Graphemen und Graphem-Trauben zu kontrollieren. Mit den vereinigten Begriffszeichen von Han macht der Standard von Unicode eine Abfahrt von vorherigen Methoden im Zuweisen abstrakter Charaktere nicht als Grapheme, aber gemäß der zu Grunde liegenden Bedeutung des Graphems: Was Linguisten manchmal sememes nennen. Diese Abfahrt wird deshalb durch die oft angesetzte Unterscheidung zwischen einem abstrakten Charakter und einem glyph nicht einfach erklärt, aber wird im Unterschied zwischen einem abstrakten Charakter mehr eingewurzelt, der als ein Graphem und einem abstrakten als ein sememe zugeteilten Charakter zugeteilt ist. Denken Sie im Gegensatz die Vereinigung von ASCII der Zeichensetzung und diakritischen Zeichen, wo Grapheme mit weit verschiedenen Bedeutungen (zum Beispiel, ein Apostroph und ein einzelnes Anführungszeichen) vereinigt werden, weil die Grapheme dasselbe sind. Für Unihan werden die Charaktere durch ihr Äußeres, aber durch ihre Definition oder Bedeutung nicht vereinigt.

Für ein durch verschiedenen glyphs zu vertretendes Graphem bedeutet, dass das Graphem glyph Schwankungen hat, die gewöhnlich durch das Auswählen einer Schriftart bestimmt werden oder ein anderer oder das Verwenden glyph Ersatz-Eigenschaften, wo vielfach, glyphs in eine einzelne Schriftart eingeschlossen werden. Solche glyph Schwankungen werden von Unicode als eine Eigenschaft von reichen Textprotokollen betrachtet und nicht richtig durch die Klartext-Absichten von Unicode behandelt. Jedoch, wenn die Änderung von einem glyph bis einen anderen eine Änderung von einem Graphem bis einen anderen einsetzt — wo ein glyph vielleicht noch zum Beispiel dasselbe Graphem verstanden wie der kleine Brief "a" nicht bedeuten kann — trennt Unicode diejenigen in getrennte Codepunkte. Für Unihan wird dieselbe Sache gemacht, wann auch immer sich die abstrakte Bedeutung jedoch ändert, anstatt von der Auszug-Bedeutung eines Graphems zu sprechen (der Brief), teilt die Vereinigung von Begriffszeichen von Han einen neuen Codepunkt für jede verschiedene Bedeutung zu — selbst wenn diese Bedeutung durch verschiedene Grapheme auf verschiedenen Sprachen ausgedrückt wird. Während ein Graphem wie "ö" etwas anderes in Englisch bedeuten könnte (wie verwendet, im Wort "coördinated"), als es in Deutsch tut, ist es noch dasselbe Graphem und kann leicht vereinigt werden, so dass Englisch und Deutsch ein allgemeines abstraktes lateinisches Schreiben-System (zusammen mit Latein selbst) teilen können.

Um sich mit dem Gebrauch von verschiedenen Graphemen für denselben Unihan sememe zu befassen, hat sich Unicode auf mehrere Mechanismen verlassen, sich mit dem Problem zu befassen: Besonders wenn es sich auf die Übergabe des Textes bezieht. Man hat es als einfach ein Schriftart-Problem behandeln sollen, so dass verschiedene Schriftarten verwendet werden könnten, um Chinesisch, Japanisch oder Koreanisch zu machen. Auch Schriftart-Formate wie OpenType berücksichtigen von abwechselndem glyphs gemäß der Sprache kartografisch darzustellen, so dass ein Textübergabe-System auf die Umwelteinstellungen des Benutzers achten kann, um der glyph zu bestimmen, zu verwenden. Das Problem mit diesen Annäherungen besteht darin, dass sie scheitern, die Absichten von Unicode zu entsprechen, mehrsprachigen Text innerhalb desselben Dokumentes zu unterstützen.

So aber nicht Vergnügen das Problem als ein reiches Textproblem von Glyph-Stellvertretern, Unicode hat das Konzept von Schwankungsauswählenden hinzugefügt, die zuerst in der Version 3.2 vorgestellt sind, und hat in der Version 4.0 ergänzt. Während Schwankungsauswählende als sich verbindende Charaktere behandelt werden, haben sie kein verbundenes diakritisches Zeichen oder Zeichen. Statt dessen, indem sie sich mit einem Grundcharakter verbinden, geben sie Zeichen, dass die zwei Charakter-Folge eine Schwankung (normalerweise in Bezug auf das Graphem auswählt, sondern auch in Bezug auf Bedeutung als im Fall von einem Positionsnamen oder anderem Eigennamen zu unterliegen), des Grundcharakters. Das ist dann nicht eine Auswahl an einem abwechselnden glyph, aber die Auswahl an einer Graphem-Schwankung oder einer Schwankung des abstrakten Grundcharakters. Solch eine Folge-Buchstaben zwei kann jedoch zu einem getrennten einzelnen glyph in modernen Schriftarten leicht kartografisch dargestellt werden. Seitdem Unicode 256 getrennte Schwankungsauswählende zugeteilt hat, ist es dazu fähig, 256 Schwankungen für jedes Begriffszeichen von Han zuzuteilen. Solche Schwankungen können in eine Sprache oder einen anderen spezifisch sein und die Verschlüsselung des Klartextes ermöglichen, der solche Graphem-Schwankungen einschließt.

Unihan "abstrakte Charaktere"

Da der Standard von Unihan "abstrakte Charaktere", nicht "glyphs" verschlüsselt, sind die grafischen von Unicode erzeugten Kunsterzeugnisse als vorläufige technische Hürden, und höchstens, kosmetisch betrachtet worden. Jedoch, wieder, besonders in Japan, teilweise dank des Weges, in dem chinesische Charaktere in japanische Schreiben-Systeme historisch vereinigt wurden, wird die Unfähigkeit, eine besondere Variante anzugeben, als ein bedeutendes Hindernis für den Gebrauch von Unicode in der wissenschaftlichen Arbeit betrachtet. Zum Beispiel bedeutet die Vereinigung "des Grases" (erklärt oben), dass ein historischer Text nicht verschlüsselt werden kann, um seine eigenartige Rechtschreibung zu bewahren. Statt dessen zum Beispiel wäre der Gelehrte erforderlich, den gewünschten glyph in einem spezifischen Schriftbild ausfindig zu machen, um den Text, wie geschrieben, zu befördern, den Zweck einer vereinigten Codierung vereitelnd. Unicode hat auf diese Bedürfnisse durch das Zuweisen von Schwankungsauswählenden geantwortet, so dass Autoren Graphem-Schwankungen von besonderen Begriffszeichen (oder sogar andere Charaktere) auswählen können.

Kleine Unterschiede in der grafischen Darstellung sind auch problematisch, wenn sie Leserlichkeit oder die falsche kulturelle Tradition betreffen. Außer dem Bilden einiger Schriftarten von Unicode, die für Texte unbrauchbar sind, die vielfache "Sprachen von Unihan" einschließen, könnten Namen oder andere orthografisch empfindliche Fachsprache falsch gezeigt werden. (Eigennamen neigen dazu, besonders orthografisch konservativ zu sein — vergleichen das mit dem Ändern der Rechtschreibung von jemandes Namen, um einer Sprachreform in den Vereinigten Staaten oder Vereinigtem Königreich anzupassen.) Während das in erster Linie als eine grafische Darstellung oder Übergabe-Problem betrachtet werden kann, durch geschicktere Schriftarten überwunden zu werden, würde der weit verbreitete Gebrauch von Unicode es schwierig machen, solche Unterscheidungen zu bewahren. Das Problem eines Charakters, der semantisch verschiedene Konzepte vertritt, ist auch im lateinischen Teil von Unicode da. Der Unicode Charakter für einen Apostroph ist dasselbe als der Charakter für ein richtiges einzelnes Zitat ('). Andererseits wird es manchmal dass der lateinische Kapitalbrief darauf hingewiesen nicht vereinigt mit dem griechischen Brief "Α" (Alpha) zu sein. Das ist natürlich aus Gründen der Vereinbarkeit, wünschenswert, und befasst sich mit einer viel kleineren alphabetischen Codierung.

Während der Vereinigungsaspekt von Unicode in einigen Vierteln aus den Gründen umstritten ist, die oben gegeben sind, verschlüsselt Unicode selbst jetzt eine riesengroße Zahl selten verwendeter Charaktere einer mehr oder weniger altertümlichen Natur.

Etwas von der Meinungsverschiedenheit stammt von der Tatsache, dass die wirkliche Entscheidung, Vereinigung von Han durchzuführen, vom Unicode anfänglichen Konsortium getroffen wurde, das zurzeit ein Konsortium von nordamerikanischen Gesellschaften und Organisationen (die meisten von ihnen in Kalifornien) war, aber keine Regierungsvertreter von Ostasien eingeschlossen hat. Die anfängliche Designabsicht war, einen 16-Bit-Standard zu schaffen, und Vereinigung von Han war deshalb ein kritischer Schritt, um Zehntausende von Charakter-Verdoppelungen zu vermeiden. Diese 16-Bit-Voraussetzung wurde später aufgegeben, die Größe der Codierung weniger ein Problem heute machend.

Die Meinungsverschiedenheit hat sich später bis zu den international vertretenden ISO ausgestreckt: Die CJK-JRG anfängliche Gruppe hat einen Vorschlag (DIS 10646) für eine nichtvereinigte Codierung bevorzugt, "der für die Vereinigung mit der vereinigten Codierung des Konsortiums von Unicode durch die Stimmen von amerikanischen und europäischen ISO Mitgliedern" ausgeworfen wurde (wenn auch die japanische Position unklar war). Das Indossieren der Vereinigung von Unicode Han war ein notwendiger Schritt für den erhitzten ISO 10646/Unicode Fusion.

Viel von der Meinungsverschiedenheit, die Vereinigung von Han umgibt, basiert auf der Unterscheidung zwischen glyphs, wie definiert, in Unicode, und der zusammenhängenden, aber verschiedenen Idee von Graphemen. Unicode teilt abstrakte Charaktere (Grapheme) im Vergleich mit glyphs zu, die eine Einzelheit Sehdarstellungen eines Charakters in einem spezifischen Schriftbild sind. Ein Charakter kann durch viele verschiedene glyphs, zum Beispiel ein "g" oder ein "a" vertreten werden, von denen beide eine Schleife oder zwei haben können. Und doch für einen Leser gestützter Sprachen der lateinischen Schrift die zwei Schwankungen "ein" Charakter werden beide als dasselbe Graphem anerkannt. Die Graphem-Gegenwart in nationalen Charakter-Codestandards ist zu Unicode, wie erforderlich, durch die Quelltrennungsregierung von Unicode hinzugefügt worden, sogar dort, wo sie aus bereits verfügbaren Charakteren zusammengesetzt werden können. Die nationalen auf CJK Sprachen vorhandenen Charakter-Codestandards werden beträchtlich mehr beteiligt, die technologischen Beschränkungen gegeben, unter denen sie sich entwickelt haben, und so können die offiziellen CJK Teilnehmer in der Vereinigung von Han gut verantwortlich gewesen sein, um sich zu bessern.

Verschieden von europäischen Versionen, CJK Unicode Schriftarten, wegen der Vereinigung von Han, haben große, aber unregelmäßige Muster des Übergreifens, sprachspezifische Schriftarten verlangend. Leider machen sprachspezifische Schriftarten es auch schwierig zum Zugang zu einer Variante, die, als mit dem "Gras"-Beispiel, zufällig mehr normalerweise in einem anderen Sprachstil erscheint. (Das heißt, würde es schwierig sein, auf "Gras" mit dem Viertaktradikalen zuzugreifen, der für Traditionelle Chinesen in einer japanischen Umgebung typischer ist, welche Schriftarten normalerweise den Dreitaktradikalen zeichnen würden.) neigen Befürworter von Unihan dazu, Preiserhöhungssprachen zu bevorzugen, um Sprachschnuren zu definieren, aber das würde den Gebrauch einer spezifischen Variante im Fall gegeben, nur die sprachspezifische Schriftart nicht sichern, um wahrscheinlicher einen Charakter als diese Variante zu zeichnen. (An diesem Punkt gehen bloß stilistische Unterschiede wirklich darin herein, weil eine Auswahl an japanischen und chinesischen Schriftarten wahrscheinlich nicht visuell vereinbar sein wird.)

Chinesische Benutzer scheinen, weniger Einwände gegen die Vereinigung von Han größtenteils zu haben, weil Unicode nicht versucht hat, Vereinfachte chinesische Charaktere (eine Erfindung der Volksrepublik Chinas, und im Gebrauch unter chinesischen Sprechern im PRC, Singapur und Malaysia), mit Traditionellen chinesischen Charakteren, wie verwendet, in Hongkong, Taiwan (Big5), und mit einigen Unterschieden zu vereinigen, die für koreanische und japanische Benutzer vertrauter sind. Unicode wird als neutral hinsichtlich dieses politisch beladenen Problems gesehen, und hat Vereinfachten und Traditionellen chinesischen glyphs getrennt verschlüsselt (z.B das Begriffszeichen für "den Ausschuss" ist  U+4E1F für Traditionellen chinesischen Big5 #A5E1 und  U+4E22 für das Vereinfachte chinesische GB #2210). Es wird auch bemerkt, dass Traditionelle und Vereinfachte Charaktere getrennt gemäß Vereinigungsregeln von Unicode Han verschlüsselt werden sollten, weil sie im Vorherexistieren von PRC Codierungen bemerkenswert sind. Außerdem, als mit anderen Varianten, die zu Vereinfachten Charakteren traditionell sind, ist nicht ein - zu - eine Beziehung.

Alternativen

Fachmann-Codierungen haben sich entwickelt, um, oder betrachtet von einigen zu richten, als darunter nicht leidend, diese wahrgenommenen Mängel schließen ein:

  • ISO/IEC 2022 (gestützt auf der Folge codiert, um zwischen chinesischen, japanischen, koreanischen Codierungen - folglich ohne Vereinigung umzuschalten)
  • CNS Codierung
  • CCCII Codierung
  • TRON
  • UTF-2000
  • Mojikyo
  • Big5 Erweiterungen
  • GCCS und sein Nachfolger HKSCS

Jedoch ist keiner dieser alternativen Standards so weit angenommen worden wie Unicode, der jetzt die Grundcodierung für viele neue Standards und Protokolle ist, und in die Architektur von Betriebssystemen (Windows von Microsoft, Apple Mac OS X und viele Unix ähnliche Systeme), Programmiersprachen (Perl, Pythonschlange, C#, Java, Allgemeines LISPELN, APL), und Bibliotheken (IBM International Components für Unicode (ICU) zusammen mit Pango, Grafit, Kopisten, Uniscribe, und ATSUI Übergabe von Motoren), Schriftart-Formate (TrueType und OpenType) und so weiter eingebaut wird.

Beispiele von Sprachabhängiger-Charakteren

In jeder Reihe des folgenden Tisches wird derselbe Charakter in allen fünf Säulen wiederholt. Jedoch wird jede Säule (über das HTML-Attribut) als seiend auf einer verschiedenen Sprache gekennzeichnet: Chinesisch (3 Varianten: nicht markierte "chinesische", vereinfachte Charaktere und traditionelle Charaktere), Japanisch oder Koreanisch. Der Browser, sollte für jeden Charakter, ein glyph (von einer Schriftart) passend in die angegebene Sprache auswählen. (Außer der wirklichen Charakter-Schwankung — suchen nach Unterschieden in der Schlag-Ordnung, Zahl oder Richtung — die Schriftbilder können auch verschiedene typografische Stile, als mit der Serife und den Nichtserife-Alphabeten widerspiegeln.) Arbeitet das nur für den Rückgriff glyph Auswahl, wenn Sie CJK auf Ihrem System installierte Schriftarten haben und die Schriftart, die ausgewählt ist, um diesen Artikel zu zeigen, glyphs für diese Charaktere nicht einschließt. Bemerken Sie auch, dass Unicode nichtgrafische Sprachanhängsel-Charaktere in die Reihe U+E0000 - U+E007F für die markierende Klartext-Sprache einschließt.

Beispiele von einigen haben Begriffszeichen von Han nichtvereinigt

Für einen glyphs hat Unicode verschiedene Charaktere verschlüsselt, es unnötig machend, zwischen Schriftarten oder Sprachanhängseln umzuschalten. Im folgenden Tisch enthalten die getrennten Reihen in jeder Gruppe Unicode gleichwertiger Charakter mit verschiedenen Codepunkten. Bemerken Sie, dass für Charaktere wie  (U+5165) die einzige Weise, die zwei Varianten zu zeigen, ist, Schriftart (oder Sprachanhängsel), wie beschrieben, im vorherigen Tisch zu ändern. Jedoch, für  (U+5167), gibt es einen abwechselnden Charakter  (U+5185), wie illustriert, unten. Für einige Charaktere, wie  /  (U+514C/U+5151), kann jede Methode verwendet werden, um den verschiedenen glyphs zu zeigen.

Reihen von Unicode

Von Unicode zugeteilte Charaktere von Ideographic erscheinen in den folgenden Blöcken:

  • CJK vereinigte Begriffszeichen (4E00-9FFF)
  • CJK vereinigte Begriffszeichen-Erweiterung ein (3400-4DBF)
  • CJK vereinigte Begriffszeichen-Erweiterung B (20000-2A6DF)
  • CJK vereinigte Begriffszeichen-Erweiterung C (2A700-2B73F)
  • CJK vereinigte Begriffszeichen-Erweiterung D (2B840-2B81F)
  • CJK Vereinbarkeitsbegriffszeichen (F900-FAFF) (sind die zwölf Charaktere an FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 und FA29 wirklich "vereinigte Begriffszeichen" nicht "Vereinbarkeitsbegriffszeichen")

Unicode schließt Unterstützung von CJKV Radikalen, Schlägen, Zeichensetzung, Zeichen und Symbolen in den folgenden Blöcken ein:

  • CJK Radikaler-Anhang (2E80-2EFF)
  • CJK Symbole und Zeichensetzung (3000-303F)
  • CJK Schläge (31C0-31EF)
  • Ideographic Beschreibungscharaktere (2FF0-2FFF)

Zusätzliche Vereinbarkeit (entmutigter Gebrauch) Charaktere erscheint in diesen Blöcken:

  • Kangxi Radikale (2F00-2FDF)
  • Eingeschlossene CJK Briefe und Monate (3200-32FF)
  • CJK Vereinbarkeit (3300-33FF)
  • CJK Vereinbarkeitsbegriffszeichen (F900-FAFF)
  • CJK Vereinbarkeitsbegriffszeichen (2F800-2FA1F)
  • CJK Vereinbarkeitsformen (FE30-FE4F)

Diese Vereinbarkeitscharaktere (der zwölf vereinigten Begriffszeichen im CJK Vereinbarkeitsbegriffszeichen-Block ausschließend), werden für die Vereinbarkeit mit Vermächtnis-Textberühren-Systemen und anderen Vermächtnis-Codierungen eingeschlossen. Sie schließen Formen von Charakteren für das vertikale Textlay-Out und reichen Textcharakteren ein, die Unicode empfiehlt, durch andere Mittel zu behandeln.

Internationaler Begriffszeichen-Kern

Internationaler Begriffszeichen-Kern (IICore) ist eine Teilmenge von 9810 Begriffszeichen ist auf den CJK Vereinigte Begriffszeichen-Tische, entworfen zurückzuführen gewesen, um in Geräten mit dem beschränkten Gedächtnis, der Fähigkeit des Eingangs/Produktion und/oder den Anwendungen durchgeführt zu werden, wo der Gebrauch von ganzem ISO 10646 Begriffszeichen-Repertoire nicht ausführbar ist. Es gibt 9810 Charaktere im aktuellen Standard.

Datenbankdateien von Unihan

Das Unihan-Projekt hat sich immer angestrengt, um ihren bereitzustellen, bauten Datenbank.

Unihan.zip wird Datei auf unicode.org zur Verfügung gestellt. Es enthält alle Daten, die die Mannschaften von Unihan gesammelt haben.

Das libUnihan Projekt (0.5.3) stellt einen normalisierten SQLite Unihan Datenbank und entsprechende C Bibliothek zur Verfügung. Alle Tische in dieser Datenbank sind in der fünften normalen Form.

libUnihan wird als LGPL veröffentlicht, während seine Datenbank, UnihanDb, als MIT Lizenz veröffentlicht wird.

Siehe auch

  • Chinesischer Charakter, der verschlüsselt
  • GB 18030
  • Sinicization
  • Z-Variante
  • Liste von CJK Schriftarten

Zeichen

Außenverbindungen


Demokratisches Defizit / São Paulo FC
Impressum & Datenschutz