Mojibake

(angezündet. "Charakter-Transformation"), vom japanischen  (moji) "Charakter" + (backen)  "verwandeln sich", ist das Ereignis von falschen, unlesbaren gezeigten Charakteren, wenn Software scheitert, Text richtig gemäß seiner verbundenen Charakter-Verschlüsselung zu machen.

Ursachen

Mojibake wird häufig verursacht, wenn eine Charakter-Verschlüsselung in einem Dokument nicht richtig markiert wird, oder wenn ein Dokument zu einem System mit einer verschiedenen Verzug-Verschlüsselung bewegt wird. Solche falsche Anzeige kommt vor, wenn sie schreibt, dass Systeme oder Charakter encodings mistagged oder "fremd" dem Computersystem des Benutzers sind: Wenn ein Computer nicht erforderlich lässt, dass die Software Charaktere einer Fremdsprache bearbeitet, wird es versuchen, sie in seiner Verzug-Sprachverschlüsselung zu bearbeiten, gewöhnlich auf Kauderwelsch hinauslaufend. Zwischen verschiedenem encodings derselben Sprache übertragene Nachrichten können auch mojibake Probleme haben. Japanische Sprachbenutzer, mit mehreren verschiedenen historisch verwendeten encodings, stoßen auf dieses Problem relativ häufig. Zum Beispiel wird das beabsichtigte Wort "", verschlüsselt in UTF-8, als "æ - ‡ å — åŒ-ã '" in der Software falsch gezeigt, die konfiguriert, um Text in Windows 1252 oder ISO-8859-1 encodings zu erwarten, gewöhnlich Westlich etikettiert wird.

Ein WWW-Browser kann nicht im Stande sein, eine Seite zu unterscheiden, die in EUC-JP und einem anderen in Shift-JIS codiert ist, wenn das Codierschema ausführlich mit HTTP Kopfbällen nicht zugeteilt wird, die zusammen mit den Dokumenten, oder mit den meta Anhängseln des Dokumentes des HTML gesandt sind, die verwendet werden, um auszuwechseln, HTTP Kopfbälle zu verpassen, wenn der Server nicht konfiguriert werden kann, um die richtigen HTTP Kopfbälle zu senden; sieh Charakter encodings im HTML. Heuristik kann angewandt werden, um auf die Codierung zu schätzen, aber diese sind nicht immer erfolgreich.

Mojibake kann auch dazwischen vorkommen, was scheint, derselbe encodings zu sein. Zum Beispiel hat eine Software durch Microsoft und Eudora für Windows angeblich ihre Produktion mit der ISO-8859-1-Verschlüsselung verschlüsselt, während, in Wirklichkeit, verwendetes Windows 1252, das druckfähige Extracharaktere in der C1-Reihe enthält. Diese Charaktere wurden richtig in der Software nicht gezeigt, die den ISO Standard erfüllt; diese besonders betroffene Software, die unter anderen Betriebssystemen (z.B läuft. Unix).

Entschlossenheiten

Anwendungen mit UTF-8 als eine Verzug-Verschlüsselung können einen größeren Grad der Zwischenfunktionsfähigkeit wegen seines weit verbreiteten Gebrauches und umgekehrt Vereinbarkeit mit dem US-ASCII erreichen.

Die Schwierigkeit, ein Beispiel von mojibake aufzulösen, ändert sich abhängig von der Anwendung, innerhalb deren es vorkommt und die Ursachen davon. Zwei der allgemeinsten Anwendungen, in denen mojibake vorkommen kann, sind WWW-Browser und Textverarbeitungsprogramme. Moderne Browser und Textverarbeitungsprogramme unterstützen häufig eine breite Reihe des Charakters encodings. Browser erlauben häufig einem Benutzer, ihre Übergabe-Motorverschlüsselung zu ändern, die im Fluge untergeht, während Textverarbeitungsprogramme dem Benutzer erlauben, die passende Verschlüsselung auszuwählen, wenn sie eine Datei öffnen. Man kann etwas Probe und Fehler für Benutzer brauchen, die richtige Verschlüsselung zu finden.

Das Problem wird mehr kompliziert, wenn es in einer Anwendung vorkommt, die normalerweise keine breite Reihe der Charakter-Verschlüsselung, solcher als in einem non-Unicode Computerspiel unterstützt. In diesem Fall muss der Benutzer die Verschlüsselungseinstellungen des Betriebssystems ändern, um dieses des Spiels zu vergleichen. Jedoch kann das Ändern der weiten Systems Verschlüsselungseinstellungen auch Mojibake in vorher existierenden Anwendungen verursachen. In Windows XP oder später hat ein Benutzer auch die Auswahl, Microsoft AppLocale, eine Anwendung zu verwenden, die das Ändern von Schauplatz-Einstellungen pro Anwendung erlaubt. Trotzdem ist das Ändern der Betriebssystemverschlüsselungseinstellungen auf früheren Betriebssystemen wie Windows 98 nicht möglich; um dieses Problem auf früheren Betriebssystemen aufzulösen, würde ein Benutzer Drittschriftart-Übergabe-Anwendungen verwenden müssen.

Probleme auf spezifischen Sprachen

Kommodore-8-Bit-Computer der Marke haben PETSCII-Verschlüsselung verwendet, die besonders bemerkenswert ist, für die Groß- und Kleinschreibung im Vergleich zu normalem ASCII umzukehren. PETSCII Drucker haben fein an anderen Computern des Zeitalters gearbeitet, aber haben den Fall aller Briefe geschnipst.

In Deutsch ist Buchstabensalat (Brief-Salat) ein verbreiteter Ausdruck für dieses Phänomen.

Eine andere betroffene Sprache ist (sieh unten) arabisch.

Englisch

Mojibake in englischen Texten kommt allgemein in der Zeichensetzung, wie Em-Spuren (-), en Spuren (-), und lockige Notierungen vor (", "), aber selten im Charakter-Text da stimmen die meisten encodings mit ASCII in der Verschlüsselung des englischen Alphabetes überein. Zum Beispiel wird das Pfund-Zeichen "£" als "£" erscheinen, wenn es vom Absender als UTF-8 verschlüsselt, aber vom Empfänger als CP1252 oder ISO 8859-1 interpretiert wurde. Wenn wiederholt, kann das "Ã, £", "ÂÃ, £", usw. führen.

Japanisch

In Japanisch ist das Phänomen, wie erwähnt, mojibake, genannt. Darauf wird häufig von Nichtjapanisch gestoßen, wenn man versucht, für den japanischen Markt geschriebene Software zu führen.

Chinesisch

In Chinesisch wird dasselbe Phänomen  genannt und kann vorkommen, wenn computerisierter Text in einer chinesischer Charakter-Verschlüsselung verschlüsselt wird, aber mit der falschen Verschlüsselung gezeigt wird. Wenn das vorkommt, ist es häufig möglich, das Problem durch die Schaltung der Charakter-Verschlüsselung ohne Verlust von Daten zu befestigen. Die Situation wird kompliziert wegen der Existenz von mehreren chinesischen Charakter-Verschlüsselungssystemen im Gebrauch, die allgemeinsten gemacht zu sein: Unicode, Big5 und Guobiao, dessen Letzterer mehrere Versionen hat.

Ein zusätzliches Problem wird verursacht, wenn einige encodings Charaktere verpassen, gewöhnlich sind diese Charaktere seltene oder veraltete Charaktere, die noch im Persönlichen oder den Ortsnamen verwendet werden. Beispiele davon sind Politiker von Taiwanese Wang Chien-Shien und Yu Shyi-Kun , ex-PRC Premier Zhu Rongji und Sänger von Taiwanese David Tao .

Zeitungen haben sich mit diesem Problem auf verschiedene Weisen, einschließlich des Verwendens der Software befasst, um zwei vorhandene, ähnliche Charaktere zu verbinden; das Verwenden eines Bildes der Persönlichkeit; oder einfach gegen ein Homophon den seltenen Charakter in der Hoffnung auswechselnd, dass der Leser im Stande sein würde, die richtige Schlussfolgerung zu machen. Zum Beispiel: Der Name von Zhu Ronji erscheint häufig als  statt seiner richtigen Form ; wo der Charakter  durch  , in diesem Fall beide Bedeutung dasselbe ersetzt worden ist.

Mitteleuropa

Benutzer von mitteleuropäischen und osteuropäischen Sprachen können auch betroffen werden. Weil die meisten Computer mit keinem Netz während der Mitte - zu den späten 1980er Jahren verbunden wurden, gab es verschiedenen Charakter encodings für jede Sprache mit diakritischen Charakteren.

Russisch und andere Kyrillische Schriften

Mojibake kann krakozyabry (кракозябры) in Russisch umgangssprachlich genannt werden, das war und kompliziert durch mehrere Systeme bleibt, um Kyrillisch zu verschlüsseln. Die Sowjetunion und die frühe Russische Föderation haben KOI encodings entwickelt (Kod Obmena Informatsiey, Код Обмена Информацией, der übersetzt, um für den Informationsaustausch" "zu codieren). Das hat mit Kyrillisch-einzigem 7-Bit-KOI7 begonnen, der auf ASCII, aber mit Latein und einigen anderen durch Kyrillische Briefe ersetzten Charakteren gestützt ist. Dann ist 8-Bit-KOI8 gekommen, der verschlüsselt, der eine ASCII Erweiterung ist, die Kyrillische Briefe nur mit Oktetten des hohen Bohrersatzes entsprechend 7-Bit-Codes von KOI7 verschlüsselt. Deshalb bleibt KOI8 Text, sogar Russisch, teilweise lesbar nach dem Abstreifen des achten Bit, das als ein Hauptvorteil im Alter von 8BITMIME-unbewussten E-Mail-Systemen betrachtet wurde. Schließlich hat KOI8 verschiedene Geschmäcke für den Russen/Bulgaren (KOI8-R), Ukrainer (KOI8-U), Belarusian (KOI8-RU) und sogar Tadschikisch (KOI8-T) gewonnen.

Inzwischen im Westen hat Codeseite 866 Ukrainisch und Belarusian sowie Russen/Bulgaren im MS-DOS unterstützt. Für Windows von Microsoft hat Codeseite 1251 Unterstützung für Serbisch und andere slawische Varianten von Kyrillischen hinzugefügt. Am meisten kürzlich schließt Unicode spezielle Charaktere in Alte nichtslawische und slawische Kirchminderheitssprachen in der Russischen Föderation ein. Jetzt ist Unicode bestrebt, die Verwirrung durch ein System zu ersetzen, wodurch einige der geschriebenen Sprachen in der Welt entweder Anzeigen richtig oder Ihnen erzählt, welche Schriftart Sie jedoch installieren müssen, reagiert Unicode noch durchsichtig zum Vermächtnis KOI und Codeseite encodings nicht.

Vor Unicode war es notwendig, Textverschlüsselung mit einer Schriftart mit demselben Verschlüsselungssystem zu vergleichen. Misserfolg, dieses erzeugte unlesbare Kauderwelsch zu tun, dessen sich spezifisches Äußeres abhängig von der genauen Kombination der Textverschlüsselung und Schriftart-Verschlüsselung geändert hat. Akzentuierte Vokale waren für das Versuchen symptomatisch, jede Kyrillische Verschlüsselung mit einer auf das lateinische Alphabet beschränkten Schriftart anzusehen. Im Allgemeinen war Kyrillisches Kauderwelsch dafür symptomatisch, die falsche Kyrillische Schriftart zu verwenden. Der Text von Unicode in einer Umgebung, die Unicode bloß nicht unterbringt, zeigt Reihen von Fragezeichen.

In Bulgarisch wird mojibake häufig maymunitsa (маймуница) genannt, das Alphabet des Affen bedeutend. In Serbisch wird es (đubre) genannt, Abfall bedeutend. Verschieden von der ehemaligen UDSSR haben Südslawen nie etwas wie KOI8 verwendet, und Codeseite 1251 war die dominierende Kyrillische Verschlüsselung dort vor Unicode. Deshalb haben diese Sprachen weniger Verschlüsselungsinkompatibilitätsschwierigkeiten erfahren als Russisch. In den 1980er Jahren haben bulgarische Computer seine eigene MIK-Verschlüsselung, ein bisschen ähnlich (aber unvereinbar mit) CP866 verwendet, dennoch.

Polnisch

In Polen hat jede Gesellschaft, die frühe DOS-Computer verkauft, seine eigene Verschlüsselung geschaffen, und hat einfach den EPROMs der Videokarten (normalerweise BUCHPRÜFER, EGA, oder Herkules) mit dem erforderlichen glyphs für Polnisch - willkürlich gelegen ohne Berücksichtigung wiederprogrammiert, wohin andere Computerverkäufer sie gelegt hatten. Zusätzlich haben Benutzer von dann populären Hauscomputern (wie Atari ST) ihren eigenen encodings erfunden, der mit internationalen Standards (ISO 8859-2), Verkäufer-Standards (IBM CP852, Windows CP1250) unvereinbar ist, und haben sich lokal über Standards des PCS/MS DOS (Mazovia) geeinigt. Die Situation hat begonnen, sich wenn, nach dem Druck von akademischen und Benutzergruppen, ISO 8859-2 nachgefolgte als der "Internetstandard" mit der beschränkten Unterstützung der Software der dominierenden Verkäufer (heute größtenteils ersetzt von Unicode) zu verbessern. Mit den zahlreichen durch die Vielfalt von encodings verursachten Problemen neigen sogar heute einige Benutzer dazu, sich auf polnische diakritische Charaktere als krzaczki [Ksha-Chkee] ("kleine Sträucher") zu beziehen.

Nordische Sprachen und Deutsch

Unter den nordischen Sprachen ist mojibake ziemlich üblich, aber ist mehr von einem Ärger als ein Problem. Finnischer und schwedischer Gebrauch die Briefe des englischen Alphabetes und der noch drei Charaktere: å ä und ö, und normalerweise sind diese drei die einzigen, die verdorben werden. Die Situation ist für Norwegisch ähnlich, und Däne, außer den drei betroffenen Briefen ist æ, ø und å und Deutsch, wo die betroffenen Briefe ä, ö, ü und ß sind. In schwedischem, norwegischem, dänischem und deutschem werden Vokale selten wiederholt, und es ist gewöhnlich offensichtlich, wenn ein Charakter, wie der zweite Brief in "kà ¤rlek" (kärlek, "Liebe") verdorben wird. Dieser Weg, wenn auch der Leser unter å, ä und ö, fast alle Texte schätzen muss, bleibt vollkommen lesbar. Jedoch hat Finnisch wirklich sich wiederholende Vokale in Wörtern wie hääyö ("Hochzeitsnacht"), der manchmal Text sehr hart machen kann, um zu lesen; dieses Wort kann als "Hà ¤Ã¤yà  ¶" erscheinen. Isländisch ist mit zehn vielleicht verwechselnden Charakteren daran schlechter: á, ð, é, í, ó, ú, ý, þ, æ und ö.

Asiatischer encodings

Ein anderer Typ von mojibake kommt vor, wenn Text in einer Mehrbyte-Verschlüsselung wie einer der ostasiatischen encodings falsch grammatisch analysiert wird. Mit dieser Art von mojibake mehr als ein (normalerweise zwei) werden Charaktere sofort, z.B "klek" (kärlek) in Schwedisch verdorben, wo "är" als "" grammatisch analysiert wird. Im Vergleich zum obengenannten mojibake ist das härter zu lesen, seit Briefen, die zum problematischen å ohne Beziehung sind, werden ä oder ö vermisst, und ist für kurze Wörter besonders problematisch, die mit å, ä oder ö wie "än" anfangen (der "" wird). Da zwei Briefe verbunden werden, scheint der mojibake auch zufälliger (mehr als 50 Varianten im Vergleich zu den normalen drei, die selteneren Kapitale nicht aufzählend). In einigen seltenen Fällen hat eine komplette Textschnur, die zufällig ein Muster von besonderen Wortlängen, wie der Satz "Bush einschließt, die Tatsachen verborgen", kann missdeutet werden.

Länder des ehemaligen Jugoslawiens

Slawische Sprachen des ehemaligen Jugoslawiens (kroatisch, bosnisch, serbisch) fügen zum grundlegenden lateinischen Alphabet die Briefe š, đ, č, ć, ž, und ihre Kapitalkollegen Š, Đ, Č, Ć, Ž hinzu. Alle diese Briefe werden in lateinischen 2 und Windows 1250 definiert, während nur einige (š, Š, ž, Ž, Đ) im üblichen OS-Verzug Westlich bestehen, und dort wegen einiger anderer Sprachen sind.

Obwohl sogar diejenigen, die in verlängertem Westlichem ASCII (Windows 1252) bestehen, zu Fehlern, diejenigen nicht geschützt sind, die nicht tun, sind für Fehler viel anfälliger. So, sogar heutzutage, "wird šđčćž ŠĐČĆŽ" allzu häufig als "š ð èæž Š Ð ÈÆŽ" interpretiert, die Benutzer lassend, sich fragen, wo ð, è, æ, È, Æ verwendet werden.

Wenn beschränkt, auf grundlegenden ASCII (die meisten Benutzernamen, zum Beispiel), ist allgemeiner Ersatz: šs, đdj, čc, ćc, žz (formt sich Kapital analog, mit ĐDj oder ĐDJ abhängig vom Wortfall). Ganzer dieser Ersatz führt Zweideutigkeiten ein, so wird der Wiederaufbau des Originals von solch einer Form gewöhnlich manuell auf Anfrage getan.

Die Wichtigkeit von der Verschlüsselung des Windows 1252 ist hoch, weil englische Versionen von Betriebssystemen, nicht die lokalisierten am weit verbreitetsten sind. Die Gründe dafür sind

  • Relativ kleiner und gebrochener Markt, Preis der hohen Qualitätslokalisierung vergrößernd.
  • Hoher Grad der illegalen Softwarevervielfältigung (der Reihe nach verursacht durch den hohen Preis der Software im Vergleich zum Einkommen), so entmutigende Lokalisierungsanstrengungen.
  • Leute bevorzugen englische Version von OS und anderer Software.

Der Laufwerk, Kroatisch von Serbisch zu unterscheiden, das von Kroatisch und Serbisch, und jetzt sogar Montenegrinischer Sprache (ein serbischer Dialekt Bosnier ist, der im ehemaligen Jugoslawien dominierend war) von den anderen drei, schafft viele Probleme. Es gibt viele verschiedene Lokalisierungen, mit verschiedenen Standards, und der verschiedenen Qualität. Es gibt keine allgemeinen Übersetzungen für die riesengroße Computerfachsprache, die in Englisch entsteht. Schließlich verwenden Leute angenommene englische Wörter (Kompjuter-Computer, kompajlirati-kompilieren usw.), und wenn sie zu den übersetzten Begriffen ungewohnt sind, kann nicht verstehen, was eine Auswahl in einem Menü gestützt auf dem übersetzten Ausdruck tun soll. Deshalb die Leute, die Englisch verstehen, sowie wählen diejenigen, die an die englische Fachsprache gewöhnt werden (die am meisten sind, weil englische Fachsprache auch größtenteils in Schulen wegen dieser Probleme unterrichtet wird) regelmäßig die ursprünglichen englischen Versionen der Nichtfachmann-Software.

Wenn Kyrillische Schrift verwendet wird (für Makedonisch und teilweise serbische Sprache), ist das Problem tatsächlich anderen Kyrillischen Schriften ähnlich.

Neuere Versionen von englischem Windows erlauben ANSI codepage, geändert zu werden (ältere Versionen wie Win95 verlangen spezielle englische Versionen mit dieser Unterstützung), aber diese Einstellung kann und wurde häufig falsch gesetzt (zum Beispiel, Windows 98 / Ich kann auf den grössten Teil von non-RTL SBCS codepages einschließlich 1250 gesetzt werden, aber nur daran installieren Zeit).

Ungarisch

Ungarisch ist eine andere betroffene Sprache, die die 26 grundlegenden englischen Charaktere, plus die akzentuierten Formen á, é, í, ó, ú, ö, ü (die ganze Gegenwart in der lateinischen 1 Codierung), plus die 2 Charaktere ő und ű verwendet, die nicht in lateinischem 1 sind. Diese 2 Charaktere können in lateinischen 2, Windows 1250 und Unicode richtig verschlüsselt werden. Bevor Unicode in E-Mail-Kunden üblich geworden ist, hatten E-Mails, die ungarischen Text häufig enthalten, die Briefe ő und ű verdorben manchmal zum Punkt von unrecognizability. Es ist üblich, auf eine E-Mail gemacht unlesbar durch den Charakter zerfleischend (verwiesen auf als "betűszemét" zu antworten, "Müll-Beschriftung" bedeutend), mit dem Ausdruck "Árvíztűrő tükörfúrógép", ein Quatsch-Ausdruck (wörtlich "Gegen die Überschwemmung widerstandsfähige spiegelbohrende Maschine"), alle akzentuierten in Ungarisch verwendeten Charaktere enthaltend.

Text von Indic

Eine ähnliche Wirkung kann im Text von Indic vorkommen, selbst wenn die verwendete Codierung durch die Anwendung richtig anerkannt wird. Das ist, weil, in vielen Schriften von Indic, den Regeln, durch die individuelle Brief-Symbol-Vereinigung, Symbole für Silben zu schaffen, durch einen Computer nicht richtig verstanden werden darf, der die passende Software verpasst, selbst wenn die glyphs für die individuellen Brief-Formen verfügbar sind.

Ein besonders bemerkenswertes Beispiel davon ist das alte, das versucht, den Charakter zu zeigen, der "w" oder "wi" (der erste Brief oder die Silbe "der Wikipedia") auf jedem von vielen Rätsel-Stücken analog ist. Statt dessen hat das Rätsel-Stück bedeutet zu tragen der Charakter von Devanagari für "wi" hat gepflegt, ein etwas sinnloses Gekritzel mit einer baumelnden Linie am Ende, leicht erkennbar als mojibake erzeugt durch einen Computer zu zeigen, der nicht konfiguriert ist, um Text von Indic zu zeigen. Dass das im ehrwürdigen Titelseite-Firmenzeichen vorgekommen ist und im Laufe vieler Jahre nie korrigiert worden war, ist als humorvoll sinnbildlich der angeblichen Genauigkeits- und Zuverlässigkeitsprobleme der Wikipedia gesehen worden. Das kürzlich neu entworfene Firmenzeichen hat diese Fehler befestigt.

Ein Indic und Indic-abgeleitete Schriften, am meisten namentlich Lao, wurden durch Windows XP bis zur Ausgabe der Aussicht nicht offiziell unterstützt. Jedoch haben verschiedene Seiten zum Download freie Schriftarten gemacht.

Spanisch

Spanisch ist eine andere betroffene Sprache. Es ist als deformación (wörtlich Deformierung) bekannt. Seine Probleme mit Mojibake sind nordischen Sprachen ähnlich. Spanischer verwendet alle 26 lateinischen Briefe, ñ, Akute auf den fünf Vokalen (á, é, í, ó, ú), und selten ü. Ñ und die akzentuierten Vokale werden regelmäßig verdorben, da sie in ASCII nicht verfügbar sind.

Beispiel

Links


Ethnische Gruppen in Gabon / Internationale Graphoanalysis Gesellschaft
Impressum & Datenschutz