ASCII

Der amerikanische Standardcode für den Informationsaustausch (ist ASCII) ein Charakter verschlüsselndes auf dem englischen Alphabet ursprünglich gestütztes Schema. ASCII Codes vertreten Text in Computern, Kommunikationsausrüstung und anderen Geräten dieser Gebrauch-Text. Die meisten modernen Charakter verschlüsselnden Schemas basieren auf ASCII, obwohl sie viele zusätzliche Charaktere unterstützen.

ASCII hat sich aus telegrafischen Codes entwickelt. Sein erster kommerzieller Gebrauch war als ein durch Datendienstleistungen von Bell geförderter Sieben-Bit-Fernschreiber-Code. Die Arbeit am ASCII Standard hat am 6. Oktober 1960 mit der ersten Sitzung des X3.2 Unterausschusses von American Standards Association (ASA) begonnen. Die Erstausgabe des Standards wurde während 1963, einer Hauptrevision während 1967 und der neusten Aktualisierung während 1986 veröffentlicht. Im Vergleich zu früheren Telegraf-Codes wurden der vorgeschlagene Code von Bell und ASCII beide für das günstigere Sortieren (d. h., Alphabetisierung) Listen und Komfortmerkmale für Geräte außer Fernschreibern bestellt.

ASCII schließt Definitionen für 128 Charaktere ein: 33 sind nicht bedruckbare Kontrollcharaktere (jetzt größtenteils veraltet), die betreffen, wie Text und Raum bearbeitet werden und 95 druckfähige Charaktere, einschließlich des Raums (der als eine unsichtbare Grafik betrachtet wird).

Der IANA zieht den Namen-US-ASCII es vor, Zweideutigkeit zu vermeiden. ASCII war

die meistens verwendete Charakter-Verschlüsselung im World Wide Web bis Dezember 2007, als es durch UTF-8 übertroffen wurde.

Geschichte

Der amerikanische Standardcode für den Informationsaustausch (ASCII) wurde unter der Schirmherrschaft von einem Komitee der amerikanischen Standardvereinigung, genannt das X3 Komitee, durch seinen X3.2 (später X3L2) Unterausschuss, und später von der X3.2.4 Arbeitsgruppe dieses Unterausschusses entwickelt. Der ASA ist das Standardinstitut der Vereinigten Staaten von Amerika oder USASI und schließlich das amerikanische Nationale Standardinstitut geworden.

Der X3.2 Unterausschuss hat auf früheren Fernschreiber-Verschlüsselungssystemen gestützten ASCII entworfen. Wie anderer Charakter encodings gibt ASCII eine Ähnlichkeit zwischen Digitalbit-Mustern und Charakter-Symbolen (d. h. Grapheme und Kontrollcharaktere) an. Das erlaubt Digitalgeräten, mit einander zu kommunizieren und zeichenweise arbeitende Information wie geschriebene Sprache zu bearbeiten, zu versorgen, und mitzuteilen. Bevor ASCII entwickelt wurde, hat der encodings im Gebrauch 26 alphabetische Charaktere, 10 numerische Ziffern, und von 11 bis 25 speziellen Bildzeichen eingeschlossen.

Um alle diese und Kontrollcharaktere einzuschließen, die mit dem Comité Consultatif Internationalen Standard von Téléphonique und Télégraphique, Fieldata und frühem EBCDIC vereinbar sind, waren mehr als 64 Codes für ASCII erforderlich.

Das Komitee hat die Möglichkeit einer Umschalttaste-Funktion diskutiert (wie der Code von Baudot), der mehr als 64 Codes erlauben würde, durch sechs Bit vertreten zu werden. In einem ausgewechselten Code bestimmen einige Charakter-Codes Wahlen zwischen Optionen für die folgenden Charakter-Codes.

Es erlaubt Kompaktverschlüsselung, aber ist für die Datenübertragung weniger zuverlässig; ein Fehler im Übertragen des Verschiebungscodes macht normalerweise einen langen Teil der Übertragung unlesbar. Das Standardkomitee hat darauf verzichtet sich zu bewegen, und so hat ASCII mindestens einen Sieben-Bit-Code verlangt.

Das Komitee hat einen Acht-Bit-Code gedacht, da acht Bit (Oktette) zwei Vier-Bit-Mustern erlauben würden, zwei Ziffern mit der binären codierten Dezimalzahl effizient zu verschlüsseln. Jedoch würde es verlangen, dass die ganze Datenübertragung acht Bit sendet, als sieben genügen konnte. Das Komitee hat gestimmt, um einen Sieben-Bit-Code zu verwenden, um mit der Datenübertragung vereinigte Kosten zu minimieren. Seitdem perforiertes Band zurzeit acht Bit in einer Position registrieren konnte, hat es auch ein Paritätsbit den Fehler berücksichtigt, der, wenn gewünscht, überprüft. Acht-Bit-Maschinen (mit Oktetten als der heimische Datentyp), der Gleichheit nicht verwendet hat, die normalerweise überprüft, setzen das achte Bit auf 0.

Der Code selbst wurde gestaltet, so dass die meisten Kontrollcodes zusammen waren, und alle grafischen Codes zusammen für die Bequemlichkeit der Identifizierung waren. Die ersten zwei Säulen (32 Positionen) wurden für Kontrollcharaktere vorbestellt. Der "Raum"-Charakter musste vor der Grafik kommen, um das Sortieren leichter zu machen, so ist es Position 20 geworden; aus demselben Grund haben viele spezielle Zeichen allgemein verwendet, wie Separatoren vor Ziffern gelegt wurden. Das Komitee hat entschieden, dass es wichtig war, Großbuchstaben Alphabete-Buchstaben 64 zu unterstützen und beschlossen hat, ASCII zu gestalten, so konnte es leicht auf einen verwendbaren Satz-Buchstaben 64 von grafischen Codes reduziert werden. Briefe der unteren Umschaltung wurden deshalb mit Großbuchstaben nicht durchgeschossen. Um Optionen verfügbar für Briefe der unteren Umschaltung und andere Grafik zu halten, wurden die speziellen und numerischen Codes eingeordnet vor den Briefen, und wurde der Brief "A" in die Position 41 gelegt, um den Entwurf des entsprechenden britischen Standards zu vergleichen. Die Ziffern 0-9 wurden so eingeordnet sie entsprechen Werten in der Dualzahl, die mit 011 vorbefestigt ist, Konvertierung mit der binär codierten Dezimalzahl machend, aufrichtig.

Viele der nichtalphanumerischen Charaktere wurden eingestellt, um ihrer ausgewechselten Position auf Schreibmaschinen zu entsprechen. So # wurden $ und % gelegt, um 3, 4, und 5 in der angrenzenden Säule zu entsprechen. Die Parenthesen konnten 9 und 0, jedoch nicht entsprechen, weil der Platz entsprechend 0 vom Raumcharakter genommen wurde. Seitdem viele europäische Schreibmaschinen die Parenthesen mit 8 und 9 gelegt haben, wurden jene entsprechenden Positionen für die Parenthesen gewählt. Symbol wurde im kontinentalen Europa nicht verwendet, und das Komitee hat erwartet, dass es durch einen akzentuierten À in der französischen Schwankung ersetzt würde, so wurde in die Position 40 neben dem Brief A gelegt.

Die Kontrollcodes gefühlt notwendig für die Datenübertragung waren der Anfang der Nachricht (SOM), das Ende der Adresse (EOA), das Ende der Nachricht (EOM), das Ende der Übertragung (EOT), "wer sind Sie?" (WRU), "sind Sie?" (RU), eine vorbestellte Gerät-Kontrolle (DC0), Synchronisierung (GLEICHZEITIGKEIT), und erkennen (ACK) an. Diese wurden eingestellt, um die Entfernung von Hamming zwischen ihren Bit-Mustern zu maximieren.

Mit den anderen speziellen Charakteren und ausgefüllten Kontrollcodes wurde ASCII veröffentlicht, weil ASA X3.4-1963, 28 Codepositionen ohne jede zugeteilte Bedeutung verlassend, für die zukünftige Standardisierung und einen unbestimmten Kontrollcode vorbestellt hat. Es gab etwas Debatte zurzeit, ob es mehr Kontrollcharaktere aber nicht das Alphabet der unteren Umschaltung geben sollte. Die Unentschlossenheit hat lange nicht gedauert: Während des Mais 1963 hat die CCITT Arbeitsgruppe auf dem Alphabet von New Telegraph vorgehabt, Charaktere der unteren Umschaltung Spalten 6 und 7 und Internationale Organisation für die Standardisierung TC 97 SC 2 gewählte während des Oktobers damit zu beauftragen, die Änderung in seinen Draftstandard zu vereinigen. Die X3.2.4 Aufgabe-Gruppe hat seine Billigung für die Änderung zu ASCII auf seiner Sitzung im Mai 1963 gewählt. Das Auffinden der Kleinbuchstaben in Spalten 6 und 7 hat die Charaktere veranlasst, sich im Bit-Muster von den Großbuchstaben durch ein einzelnes Bit zu unterscheiden, das das gegen den Fall unempfindliche Charakter-Zusammenbringen und den Aufbau von Tastaturen und Druckern vereinfacht hat.

Das X3 Komitee hat andere Änderungen einschließlich anderer neuer Charaktere vorgenommen (die geschweifte Klammer, und vertikale Liniencharaktere), einige Kontrollcharaktere umbenennend (ist SOM Anfang des Kopfballs (SOH) geworden), und das Bewegen, oder das Entfernen von anderen (wurde RU entfernt). ASCII wurde nachher als USASI X3.4-1967, dann USASI X3.4-1968, ANSI X3.4-1977, und schließlich aktualisiert, ANSI X3.4-1986 (sind die ersten zwei gelegentlich retronamed ANSI X3.4-1967, und ANSI X3.4-1968).

Das X3 Komitee hat auch gerichtet, wie ASCII (am wenigsten bedeutendes Bit zuerst) übersandt werden sollte, und wie es auf dem perforierten Band registriert werden sollte. Sie haben einen 9-spurigen Standard für das magnetische Band vorgeschlagen und haben versucht, sich mit einigen Formen von geschlagenen Karte-Formaten zu befassen.

ASCII selbst wurde zuerst gewerblich während 1963 als ein Sieben-Bit-Fernschreiber-Code für das amerikanische Telefon & den TWX des Telegrafen (Austausch von TeletypeWriter) Netz verwendet. TWX hat ursprünglich den früheren Fünf-Bit-Code von Baudot verwendet, der auch durch das konkurrierende Telexfernschreiber-System verwendet wurde. Bob Bemer hat Eigenschaften wie die Flucht-Folge eingeführt. Sein britischer Kollege Hugh McGregor Ross hat geholfen, diese Arbeit — gemäß Bemer zu verbreiten, "so viel, so dass der Code, der ASCII werden sollte, zuerst den Code von Bemer-Ross in Europa genannt wurde". Wegen seiner umfassenden Arbeit an ASCII ist Bemer "den Vater von ASCII genannt worden."

Am 11. März 1968 hat der amerikanische Präsident Lyndon B. Johnson das alle Computer beauftragt, die durch die USA-Bundesregierungsunterstützung ASCII gekauft sind, festsetzend:

Ich habe auch Empfehlungen vom Sekretär des Handels bezüglich Standards genehmigt, für den Standardcode für den Informationsaustausch auf magnetischen Bändern und Lochstreifen zu registrieren, wenn sie in Computeroperationen verwendet werden.

Alle Computer und verwandte Geräteaufbauten, die in den Bundesregierungswarenbestand auf und nach dem 1. Juli 1969 gebracht sind, müssen die Fähigkeit haben, den Standardcode für den Informationsaustausch und die Formate zu verwenden, die durch das magnetische Band und die Lochstreifen-Standards vorgeschrieben sind, wenn diese Medien verwendet werden.

Andere internationale Standardkörper haben Charakter encodings wie ISO/IEC 646 bestätigt, die identisch oder fast zu ASCII, mit Erweiterungen für Charaktere außerhalb des englischen Alphabetes und der Symbole identisch sind, die außerhalb der Vereinigten Staaten, wie das Symbol für Vereinigten Königreichs Pfund (£) verwendet sind. Fast jedes Land hat eine angepasste Version von ASCII gebraucht, seitdem ASCII den Bedürfnissen nach nur den USA und einigen anderen Ländern angepasst hat. Zum Beispiel hatte Kanada seine eigene Version, die französische Charaktere unterstützt hat. Andere angepasste encodings schließen ISCII (Indien), VISCII (Vietnam) und YUSCII (Jugoslawien) ein. Obwohl diese encodings manchmal ASCII genannt werden, wird wahrer ASCII ausschließlich nur durch den ANSI Standard definiert.

ASCII wurde in die Codierung von Unicode als die ersten 128 Symbole vereinigt, so haben die ASCII Charaktere dieselben numerischen Codes in beiden Sätzen. Das erlaubt UTF-8, mit ASCII, einem bedeutenden Vorteil rückwärts kompatibel zu sein.

ASCII kontrollieren Charaktere

ASCII bestellt die ersten 32 Codes (Dezimalzahl Nummer 0-31) für Kontrollcharaktere vor: Codes haben ursprünglich vorgehabt, druckfähige Information nicht zu vertreten, aber eher Geräte zu kontrollieren (wie Drucker), die von ASCII Gebrauch machen, oder Meta-Information über Datenströme wie diejenigen zur Verfügung zu stellen, die auf dem magnetischen Band versorgt sind. Zum Beispiel vertritt Charakter 10 die "" Futter-Linienfunktion (der einen Drucker veranlasst, sein Papier vorzubringen), und Charakter 8 "Rücktaste" vertritt. RFC 2822 bezieht sich, um Charaktere zu kontrollieren, die Wagen-Rückkehr, Linienfutter oder Leerraum als non-whitespace Kontrollcharaktere nicht einschließen. Abgesehen von den Kontrollcharakteren, die elementare linienorientierte Formatierung vorschreiben, definiert ASCII keinen Mechanismus, für die Struktur oder das Äußere des Textes innerhalb eines Dokumentes zu beschreiben. Andere Schemas, wie Preiserhöhungssprachen, richten Seite und Dokumentenlay-Out und Formatierung.

Der ursprüngliche ASCII Standard hat nur kurze beschreibende Ausdrücke für jeden Kontrollcharakter verwendet. Die Zweideutigkeit, die das verursacht hat, war manchmal absichtlich (wo ein Charakter ein bisschen verschieden auf einer Endverbindung verwendet würde als auf einem Datenstrom) und manchmal zufällig (solcher, weil was "löscht", bedeutet).

Wahrscheinlich war das einflussreichste Einzelgerät auf der Interpretation dieser Charaktere das Fernschreiber-Modell 33 ASR, der ein Druckterminal mit einer verfügbaren Lochstreifen-Auswahl des Lesers/Schlags war. Lochstreifen war ein sehr populäres Medium für die langfristige Programm-Lagerung im Laufe der 1980er Jahre, weniger kostspielig und in mancher Hinsicht weniger zerbrechlich als magnetisches Band. Insbesondere die Fernschreiber-Maschinenanweisungen des Modells 33 für Codes 17 (Kontroll-Q, DC1, auch bekannt als XON), 19 (Steuerungen, DC3, auch bekannt als XOFF), und 127 (Löschen) ist De-Facto-Standards geworden. Weil der keytop für den O Schlüssel auch ein Symbol des nach links Pfeils gezeigt hat (von ASCII-1963, der diesen Charakter statt hatte, unterstreichen), ein nichtentgegenkommender Gebrauch des Codes 15 (Kontroll-O, Verschiebung In) interpretiert, weil "vorherigen Charakter löschen", wurde auch durch viele frühe Time-Sharing-Systeme angenommen, aber ist schließlich verwahrlost geworden.

Der Gebrauch von Steuerungen (XOFF, eine Abkürzung dafür übersendet von) als ein "Handshaking"-Signal, das einen Absender ermahnt, Übertragung wegen der drohenden Überschwemmung und Kontroll-Q aufzuhören (XON, "übersenden auf"), um fortzusetzen, zu senden, dauert bis jetzt auf vielen Systemen als eine manuelle Produktionskontrolltechnik an. Auf einigen Systemen behalten Steuerungen seine Bedeutung, aber Kontroll-Q wird um eine Sekunde Steuerungen ersetzt, um Produktion fortzusetzen.

Code 127 wird offiziell genannt "löschen", aber das Fernschreiber-Etikett war "rubout". Seitdem der ursprüngliche Standard ausführlich berichtete Interpretation für die meisten Kontrollcodes, Interpretationen dieses geänderten Codes nicht gegeben hat. Die ursprüngliche Fernschreiber-Bedeutung und die Absicht des Standards, waren, es einen ignorierten Charakter, dasselbe als NUL (der ganze zeroes) zu machen. Das war spezifisch für den Lochstreifen nützlich, weil das Lochen dem Voll-Bit-Muster oben auf einem vorhandenen Zeichen ihn auslöschen würde. Bänder haben vorgehabt, "editierte Hand" zu sein, konnte sogar mit Räumen von zusätzlichem NULs erzeugt werden (leeres Band), so dass ein Block von Charakteren "weggerieben" werden konnte und dann in den leeren Raum gestellter Ersatz.

Da Videoterminals begonnen haben, Druck-zu ersetzen, wurde der Wert des "rubout" Charakters verloren. Systeme im DEZ, zum Beispiel, interpretiert "Löschen", um zu bedeuten, "entfernen den Charakter vor dem Cursor", und diese Interpretation ist auch in Systemen von Unix üblich geworden. Die meisten anderen Systeme haben "Rücktaste" für diese Bedeutung verwendet und haben verwendet "Löschen", um zu bedeuten, "entfernen den Charakter am Cursor". Diese letzte Interpretation ist jetzt am üblichsten.

Noch viele der Kontrollcodes sind von ihren ursprünglichen ziemlich verschiedene Bedeutungen gegeben worden. Der "Flucht"-Charakter (ESC, Code 27) war zum Beispiel ursprünglich beabsichtigt, um zu erlauben, andere Kontrollcharaktere als Druckfehler zu senden, anstatt ihre Bedeutung anzurufen. Das ist dieselbe Bedeutung "der Flucht", die in der URL-ADRESSE encodings, den Schnuren der c Sprache und den anderen Systemen gestoßen ist, wo bestimmte Charaktere eine vorbestellte Bedeutung haben. Mit der Zeit ist diese Bedeutung hinzugewählt worden und ist schließlich geändert worden. Im modernen Gebrauch zeigt ein ESC, der an das Terminal gewöhnlich gesandt ist, den Anfang einer Befehl-Folge, gewöhnlich in der Form eines ANSI so genannten "Flucht-Codes" (oder, richtiger, eine "Kontrollfolge Introducer") an, mit ESC beginnend, der von "" (nach links Klammer) Charakter gefolgt ist. Ein vom Terminal gesandter ESC wird meistenteils verwendet, wie ein Charakter aus dem Band gepflegt hat, eine Operation, als im TECO und den vi Textaufbereitern zu begrenzen. In der grafischen Benutzerschnittstelle (GUI) und den Fenstertechnik-Systemen veranlasst ESC allgemein eine Anwendung, seine aktuelle Operation abzubrechen, oder abzugehen (enden) zusammen.

Die innewohnende Zweideutigkeit von vielen Kontrollcharakteren, die mit ihrem historischen Gebrauch verbunden sind, hat Probleme geschaffen, als sie "Klartext"-Dateien zwischen Systemen übertragen hat. Das beste Beispiel davon ist das newline Problem auf verschiedenen Betriebssystemen. Fernschreiber-Maschinen haben verlangt, dass eine Linie des Textes sowohl mit "Wagen-Rückkehr" als auch mit "Linienfutter" begrenzt wird. Der erste Umsatz der Druckwagen zum Anfang der Linie und der zweiten Fortschritte zur folgenden Linie, ohne den Wagen zu bewegen. Jedoch hat das Verlangen von zwei Charaktere, das Ende einer Linie zu kennzeichnen, unnötige Kompliziertheit und Fragen betreffs eingeführt, wie man jeden Charakter, wenn gestoßen, allein interpretiert. Um Sachen zu vereinfachen, verwenden Klartext-Dateien auf Systemen von Unix und Amiga Linienfutter, das allein ist, um Linien zu trennen. Ähnlich verwenden ältere Systeme von Macintosh, unter anderen, nur Wagen-Umsatz in Klartext-Dateien. Verschiedener IBM Betriebssysteme hat beide Charaktere verwendet, um das Ende einer Linie vielleicht für die Vereinbarkeit mit Fernschreiber-Maschinen zu kennzeichnen.

Dieser De-Facto-Standard wurde ins BEDIENUNGSFELD/M und dann ins MS-DOS und schließlich in Windows von Microsoft kopiert. Die Übertragung des Textes über das Internet, für Protokolle als E-Mail und das World Wide Web, verwendet beide Charaktere.

Einige Betriebssysteme wie der pre-VMS DEZ haben Betriebssysteme, zusammen mit dem BEDIENUNGSFELD/M, Dateilänge nur in Einheiten von Plattenblöcken verfolgt und haben Kontroll-Z (U-BOOT) verwendet, um das Ende des wirklichen Textes in der Datei zu kennzeichnen. Deshalb wurde EOF, oder Ende der Datei, umgangssprachlich und herkömmlich als ein dreistelliges Akronym (TLA) für das Kontroll-Z statt des Ersatzes verwendet. Für eine Vielfalt von Gründen war der Code des Endes des Textes, ETX auch bekannt als Kontroll-C, unpassender und verwendender Z, weil der Kontrollcode, um eine Datei zu beenden, ihm analog ist, das Alphabet, ein sehr günstiges Hilfsmittel beendend. ASCII Schnuren, die mit dem ungültigen Charakter enden, sind als ASCIZ, ASCIIZ oder ungültig begrenzte Schnuren bekannt.

ASCII druckfähige Charaktere

Codes 20 zu 7E, bekannt als die druckfähigen Charaktere, vertreten Briefe, Ziffern, Satzzeichen und einige verschiedene Symbole. Es gibt 95 druckfähige Charaktere insgesamt.

Code 20, der Raumcharakter, zeigt den Raum zwischen Wörtern, wie erzeugt, durch die Leertaste einer Tastatur an. Da der Raumcharakter als eine unsichtbare Grafik (aber nicht ein Kontrollcharakter) betrachtet wird und so nicht normalerweise sichtbar sein würde, wird er hier durch den Charakter von Unicode U+2420 "" vertreten; Charaktere von Unicode U+2422 "" und U+2423 "" sind auch für den Gebrauch verfügbar, wenn eine sichtbare Darstellung eines Raums notwendig ist.

Code 7F entspricht dem nichtdruckfähigen "Löschen" (DEL) Kontrollcharakter, und wird deshalb aus dieser Karte weggelassen; es wird in der Karte der vorherigen Abteilung bedeckt.

Frühere Versionen von ASCII haben den-Pfeil statt des Auslassungszeichens (5E) und den nach links Pfeil statt des Unterstreichens (5F) verwendet.

|

|| }\

Decknamen

Ein Juni 1992 RFC und das Internet Zugeteilte Zahl-Autoritätsregistrierung von Codierungen erkennt die folgenden gegen den Fall unempfindlichen Decknamen für ASCII als passend für den Gebrauch im Internet an:

  • ANSI_X3.4-1968 (kanonischer Name)
  • iso-ir-6
  • ANSI_X3.4-1986
  • ISO_646.irv:1991
  • ASCII (mit ASCII-7 und ASCII-8 Varianten)
  • ISO646-AMERIKANISCHER
  • US-ASCII (bevorzugter PANTOMIME-Name)
  • wir
  • IBM367
  • cp367
  • csASCII

Dieser fördert der IANA Gebrauch des Namens "US-ASCII" für den Internetgebrauch von ASCII. Man findet häufig das im fakultativen "charset" Parameter im Kopfball des Zufriedenen Typs von einigen PANTOMIME-Nachrichten, im gleichwertigen "meta" Element von einigen HTML-Dokumenten, und im Verschlüsselungsbehauptungsteil des Prologs von einigen XML Dokumenten.

Varianten

Da sich Computertechnologie weltweit ausgebreitet hat, haben verschiedene Standardkörper und Vereinigungen viele Schwankungen von ASCII entwickelt, um den Ausdruck von nichtenglischen Sprachen zu erleichtern, die römische Alphabete verwendet haben. Man konnte einige dieser Schwankungen als "ASCII Erweiterungen" klassifizieren, obwohl ein Missbrauch, die nennen, um alle Varianten, einschließlich derjenigen zu vertreten, die die Charakter-Karte von ASCII im 7. anordnen nicht bewahren.

Der PETSCII-Code für ihre 8-Bit-Systeme verwendete Commodore International ist wahrscheinlich unter Codes nach 1970 im Basieren auf ASCII-1963, statt des allgemeineren ASCII-1967, solcher, wie gefunden, auf dem ZX Spektrum-Computer einzigartig. Atari und Computer von Galaksija haben auch ASCII Varianten verwendet.

Inkompatibilität gegen die Zwischenfunktionsfähigkeit

Von früh in seiner Entwicklung war ASCII beabsichtigt, um gerade eine von mehreren nationalen Varianten eines internationalen Charakter-Codestandards, schließlich veröffentlicht als ISO/IEC 646 (1972) zu sein, der die meisten Charaktere gemeinsam teilen, aber andere lokal nützliche Charaktere mehreren für den "nationalen Gebrauch vorbestellten Codepunkten zuteilen würde." Jedoch haben die vier Jahre, die zwischen der Veröffentlichung von ASCII-1963 und der ersten Annahme von ISO einer internationalen Empfehlung während 1967 vergangen haben, die Wahlen von ASCII für die nationalen Gebrauch-Charaktere veranlasst zu scheinen, De-Facto-Standards für die Welt zu sein, Verwirrung und Inkompatibilität verursachend, sobald andere Länder wirklich begonnen haben, ihre eigenen Anweisungen zu diesen Codepunkten zu machen.

ISO/IEC 646, wie ASCII, war eine 7-Bit-Codierung. Es hat keine zusätzlichen Codes bereitgestellt, so haben dieselben Codepunkte verschiedene Charaktere in verschiedenen Ländern verschlüsselt. Flucht-Codes wurden definiert, um anzuzeigen, welche nationale Variante für ein Stück des Textes gegolten hat, aber sie wurden selten verwendet, so war es häufig unmöglich zu wissen, welche Variante, mit, und deshalb zu arbeiten welcher Charakter ein Code vertreten, und in allgemeinen textbearbeitenden Systemen mit nur einer Variante irgendwie fertig werden konnte.

Weil die Klammer und Charaktere der geschweiften Klammer von ASCII dem "nationalen Gebrauch" Codepunkte zugeteilt wurden, die für akzentuierte Briefe in anderen nationalen Varianten von ISO/IEC 646, ein Deutscher, Franzosen, oder schwedisch, usw. Programmierer verwendet wurden, der ihre nationale Variante von ISO/IEC 646, aber nicht ASCII verwendet, schreiben, und so, etwas wie lesen

mussten:

statt

:

C wurden trigraphs geschaffen, um dieses Problem für ANSI C zu beheben, obwohl ihre späte Einführung und inkonsequente Durchführung in Bearbeitern ihren Gebrauch beschränkt haben.

Schließlich, als 8-, 16-, und 32-Bit-Computer hat begonnen, 18- und 36-Bit-Computer als die Norm zu ersetzen, sie ist üblich geworden, um ein 8-Bit-Byte zu verwenden, um jeden Charakter im Gedächtnis zu versorgen, eine Gelegenheit für den verlängerten, 8 Bit, die Verwandten von ASCII mit den 128 zusätzlichen Charakteren zur Verfügung stellend, die Zimmer zur Verfügung stellen, um den grössten Teil der Zweideutigkeit zu vermeiden, die in 7-Bit-Codes notwendig gewesen war.

Zum Beispiel hat IBM 8-Bit-Codeseiten wie Codeseite 437 entwickelt, die die Kontrollcharaktere durch Bildzeichen wie Smiley-Gesichter ersetzt hat, und zusätzliche Schriftzeichen zu den oberen 128 Positionen kartografisch dargestellt hat. Betriebssysteme wie DOS haben diese Codeseiten unterstützt, und Hersteller von IBM PCs haben sie in der Hardware unterstützt. Digital Equipment Corporation hat die Multinationale Codierung (DEZ-MCS) für den Gebrauch im populären VT220 Terminal entwickelt.

Acht-Bit-Standards wie ISO/IEC 8859 (ist auf den DEZ-MCS zurückzuführen gewesen), und als wahre Erweiterungen von ASCII entwickelter Mac OS Roman, den ursprünglichen Charakter kartografisch darstellenden intakt verlassend, aber zusätzliche Charakter-Definitionen nach den ersten 128 (d. h., 7 Bit) Charaktere hinzufügend. Diese ermöglichte Darstellung von Charakteren in einer breiteren Reihe von Sprachen verwendet. Weil es mehrere konkurrierende 8-Bit-Codestandards gab, haben sie fortgesetzt, unter Inkompatibilitäten und Beschränkungen zu leiden. Und doch, ISO-8859-1 (lateinischer 1), sein verschiedenes Windows 1252 (häufig mislabeled als ISO-8859-1), und der ursprüngliche 7-Bit-ASCII bleiben der allgemeinste Charakter encodings im Gebrauch heute.

Unicode

Unicode und der ISO/IEC 10646 Universal Character Set (UCS) hat eine viel breitere Reihe von Charakteren und ihre verschiedenen Verschlüsselungsformen, haben begonnen, ISO/IEC 8859 und ASCII schnell in vielen Umgebungen zu verdrängen. Während ASCII auf 128 Charaktere beschränkt wird, unterstützen Unicode und der UCS mehr Charaktere durch das Trennen der Konzepte der einzigartigen Identifizierung (natürliche Zahlen genannt Codepunkte verwendend) und (zu 8-, 16- oder binäre 32-Bit-Formate, genannt UTF-8, UTF-16 und UTF-32) verschlüsselnd.

Um rückwärts gerichtete Vereinbarkeit, die 128 ASCII und 256 ISO-8859-1 (lateinischer 1) zu erlauben, werden Charaktere Unicode/UCS-Codepunkte zugeteilt, die dasselbe als ihre Codes in den früheren Standards sind. Deshalb kann ASCII als 7 Bit betrachtet werden, die Schema für eine sehr kleine Teilmenge von Unicode/UCS, und, umgekehrt, den UTF-8 verschlüsseln, den verschlüsselnde Formen mit ASCII für Codepunkte unten 128 binär-vereinbar sind, bedeutend, der ganze ASCII ist gültiger UTF-8. Die anderen Verschlüsselungsformen ähneln ASCII darin, wie sie die ersten 128 Charaktere von Unicode vertreten, aber 16 oder 32 Bit pro Charakter verwenden, so verlangen sie Konvertierung für die Vereinbarkeit. (ähnlich ist UCS-2 aufwärts mit UTF-16 vereinbar)

Ordnung

ASCII-Codeordnung wird auch ASCIIbetical-Ordnung genannt. Die Vergleichung von Daten wird manchmal in dieser Ordnung aber nicht "normaler" alphabetischer Reihenfolge (Sortierfolge) getan. Die Hauptabweichungen in der ASCII-Ordnung sind:

  • Die ganze Großschrift kommt vor Kleinbuchstaben, zum Beispiel, "Z" vor "einem"
  • Ziffern und viele Satzzeichen kommen vor Briefen, zum Beispiel, "4" ist vor "einem"

Eine Zwischenordnung, die Bekehrter-Großbuchstaben zum Kleinbuchstaben vor dem Vergleichen von ASCII Werten leicht durchgeführt werden kann.

Siehe auch

  • 3568 ASCII, ein Asteroid genannt nach dem Charakter, der verschlüsselt
  • ASCII Kunst
  • ASCII Zierband-Kampagne
  • Erweiterter ASCII
  • HTML-Dezimalzahl-Charakter, der macht

Weiterführende Literatur

  • (von H.J. Smith dem Jüngeren. F.A. Williams, "Überblick über geschlagene Karte-Codes", Kommunikationen des ACM 3, 639 & 642, Dezember 1960)

Links


Schwarzer Falke-Krieg / Klavier-Quintett
Impressum & Datenschutz