Vergleichung

Vergleichung ist der Zusammenbau der schriftlichen Information in eine Standardordnung. Viele Systeme der Vergleichung basieren auf numerischer Ordnung oder alphabetischer Reihenfolge, oder Erweiterungen und Kombinationen davon. Das Sortieren von Listen von Wörtern oder Namen in die alphabetische Reihenfolge ist die Basis von den meisten Bürofeilstaub-Systemen, Bibliothekskatalogen und Nachschlagewerken.

Vergleichung unterscheidet sich von der Klassifikation in dieser Klassifikation ist mit Ordnen-Information in logische Kategorien beschäftigt, während Vergleichung mit der Einrichtung von Sachen der Information beschäftigt ist, die gewöhnlich auf der Form ihrer Bezeichner gestützt ist.

Ein Vergleichungsalgorithmus wie der Vergleichungsalgorithmus von Unicode unterscheidet sich von einem Sortieren-Algorithmus: Das erste ist ein Prozess, um die Ordnung zu definieren, die dem Prozess entspricht, gerade zwei Werte zu vergleichen, während ein Sortieren-Algorithmus ein Verfahren ist, um eine Liste von Sachen in dieser Ordnung zu stellen.

Vergleichung definiert eine Gesamtvorordnung auf dem Satz von möglichen Sachen, normalerweise durch das Definieren eines Gesamtbezugs auf einem sortkey. Bemerken Sie, dass das rein numerische Sortieren von Schnuren, die Zahlen vertreten, nur eine teilweise Vorordnung auf den Schnuren zur Verfügung stellen kann, weil zum Beispiel 2e3 und 2000 dieselbe Rangordnung, und 2 und 2.0 auch haben. Die durch die Schnuren vertretenen Zahlen werden völlig bestellt.

Der Hauptvorteil der Vergleichung besteht darin, dass sie es schnell und leicht macht, ein Element in der Liste zu finden oder zu bestätigen, dass sie von der Liste fehlt (zum Beispiel einen binären Suchalgorithmus oder Interpolationssuche, entweder automatisch, oder - grob und vielleicht unbewusst - manuell verwendend). Andere Vorteile numerisch sortierter Listen bestehen darin, dass man das erste leicht finden oder n Elemente (z.B die 5 kleinsten Länder oder 3 größten Länder), und die Elemente in einer gegebenen Reihe dauern kann (z.B Länder mit einem Gebiet dazwischen.. und.. Quadrat km).

Geschichte

Der erste wirksame Gebrauch unter Gelehrten kann im alten Alexandria gewesen sein.

Im 1. Jahrhundert v. Chr. hat Varro einige alphabetische Listen von Autoren und Titeln geschrieben.

Im 2. Jahrhundert n.Chr. hat Sextus Pompeius Festus eine enzyklopädische Arbeit mit Einträgen in der alphabetischen Ordnung geschrieben.

Im 3. Jahrhundert hat Harpocration ein Homerisches durch alle Briefe alphabetisiertes Lexikon geschrieben.

Im 10. Jahrhundert hat der Autor von Suda alphabetische Ordnung mit fonetischen Schwankungen verwendet.

Im 14. Jahrhundert hat der Autor der Denkwürdigkeit von Fons universi eine Klassifikation verwendet, aber hat alphabetische Reihenfolge innerhalb von einigen der Bücher verwendet.

1604 musste Robert Cawdrey im Tisch Alphabeticall erklären: Das erste einsprachige englische Wörterbuch "Nowe, wenn das Wort, der thou zu finde begierige Kunst, mit (a) dann looke am Anfang dieses Tisches, aber wenn mit (v) looke zum Ende beginnt."

Obwohl erst 1803 Samuel Taylor Coleridge Enzyklopädien mit "einer durch den Unfall von anfänglichen Briefen bestimmten Einordnung verurteilt hat" basieren viele Listen heute auf diesem Grundsatz.

Systeme

Numerisches Sortieren, das Sortieren von einzelnen Charakteren

Ein Vergleichungssystem ist numerisches Sortieren. Zum Beispiel, die Liste von Zahlen 4 · 17 · 3 ·-5 kollationiert zu-5 · 3 · 4 · 17.

Während das scheinen könnte, nur für Zahlen zu arbeiten, können Computer diese Methode für jede Textinformation verwenden, da Computer innerlich Codierungen verwenden, die einen numerischen Codepunkt jedem Brief oder glyph zuteilen.

Zum Beispiel würde ein Computer mit dem ASCII Code (oder einige seiner Obermengen wie Unicode) und numerisches Sortieren die Liste von Charakteren a kollationieren · b · C · d · $ zum $ · C · a · b · d.

Die numerischen Werte, dass ASCII-Gebrauch der $ = 36, = 97, b = 98, C = 67, und d = 100 ist, hinauslaufend, was "ASCIIbetical Ordnung" genannt wird.

Dieser Stil der Vergleichung wird häufig mit der Verbesserung allgemein verwendet, Großbuchstaben zum Kleinbuchstaben vor dem Vergleichen von ASCII Werten umzuwandeln, da die meisten Menschen nicht annehmen, dass kapitalisierte Wörter der Kopf der Liste springen.

Alphabetische Reihenfolge

Ein Vergleichungssystem für vielfach-Buchstaben Wörter ist alphabetische Reihenfolge, die auf der herkömmlichen Ordnung von Briefen in einem Alphabet gestützt ist (von denen die meisten eine einzelne herkömmliche Ordnung haben).

Jeder n-te Brief ist im Vergleich zum n-ten Brief anderer Wörter in der Liste, am ersten Brief jedes Wortes anfangend und zum zweiten, dritten, vierten und so weiter vorwärts gehend, bis die Ordnung gegründet wird.

Die Ordnung des lateinischen Alphabetes ist

Der Grundsatz hinter dem Verlängern der alphabetischen Reihenfolge zu Wörtern (lexikografische Ordnung) ist, dass alle Wörter in einer Liste, die mit demselben Brief beginnt, zusammen gruppiert werden sollten; innerhalb einer Gruppierung, die mit einem einzelnen Brief anfängt, sollen alle Wörter, die mit denselben zwei Briefen beginnen, zusammen gruppiert werden; und so weiter, die Zahl von allgemeinen anfänglichen Briefen zwischen angrenzenden Wörtern maximierend. Der Einrichtungsgrundsatz wird am Punkt angewandt, wo sich die Briefe unterscheiden. Zum Beispiel, in der Folge:

:Astrolabe

:Astronomy

:Astrophysics

Die Ordnung der Wörter wird gemäß dem ersten Brief der Wörter gegeben, der von anderen (gezeigt im kühnen) verschieden ist. Da n l im Alphabet folgt, aber p vorangeht, kommt Astronomie nach dem Astrolabium, aber vor der Astrophysik.

Es hat etwas Schwankung in der Anwendung dieser Regeln historisch gegeben. Zum Beispiel die Präfixe wurden Mc und M' in irischen und schottischen Nachnamen genommen, um Abkürzungen für Mac zu sein und alphabetisiert, als ob sie als Mac vollständig dargelegt wurden. So könnte man in einem Katalog die Folge finden:

:McKinley

:Mackintosh

mit McKinley, der Mackintosh vorangeht, als ob es "MacKinley" buchstabiert worden war. Seit dem Advent von computersortierten Listen wird auf diesen Typ der Alphabetisierung weniger oft gestoßen, obwohl es noch in britischen Telefonbüchern verwendet wird. Eine Schwankung in alphabetischen Grundsätzen gilt für Namen, die aus zwei Wörtern bestehen. In einigen Fällen werden Namen mit den identischen ersten Wörtern alle zusammen unter dem ersten Wort alphabetisiert, z.B zusammen alle Namen gruppierend, die mit San, alle diejenigen beginnen, die mit Santa und denjenigen beginnen, die mit Santo beginnen:

:San

:San Cristobal

:San Juan

:San Teodoro

:San Tomas

:Santa Barbara

:Santa Clara

:Santa Cruz

:Santo Domingo

Aber in einem anderen System werden die Namen alphabetisiert, als ob sie keine Räume z.B wie folgt hatten:

:San:San Cristobal:San Juan:Santa Barbara:Santa Clara:Santa Cruz:San Teodoro:Santo Domingo:San Tomas

Der Unterschied zwischen computerartigem numerischem Sortieren und wahrem alphabetischem Sortieren wird offensichtlich auf Sprachen mit einem verlängerten lateinischen Alphabet. Zum Beispiel hat das 29-stellige Alphabet von spanischen Vergnügen ñ als ein grundlegender Brief im Anschluss an n, und früher ch und ll als grundlegende Briefe im Anschluss an c und l beziehungsweise behandelt. Ch und ll werden noch als Briefe betrachtet, aber werden jetzt als zweistellige Kombinationen alphabetisiert. (Die neue Alphabetisierungsregel wurde von der Königlichen spanischen Akademie 1994 ausgegeben.) Andererseits folgt der Digraph rr rqu, wie erwartet, sowohl mit als auch ohne die 1994-Alphabetisierungsregel. Eine numerische Sorte kann ñ falsch im Anschluss an z bestellen und ch als c + h, auch falsch behandeln, wenn sie vor1994 Alphabetisierung verwendet.

Ähnliche Unterschiede zwischen dem Computer das numerische Sortieren und alphabetische Sortieren kommen auf Dänisch und Norwegisch vor (aa wird am Ende des Alphabetes bestellt, wenn es wie å, und am Anfang des Alphabetes ausgesprochen wird, wenn es wie a ausgesprochen wird), Deutsch (ß wird als s + s bestellt; ä, ö, werden ü als + e, o + e, u + e in Telefonbüchern bestellt, aber weil o anderswohin, und hinter o in Österreich), isländisch (ð d folgt), Niederländisch (ij wird manchmal als y bestellt; sieh IJ: Vergleichung), Englisch (æ wird als + e bestellt), und viele andere Sprachen.

Sprachen, die eine Silbenschrift oder abugida statt eines Alphabetes verwendet haben (zum Beispiel, Cherokee) können ungefähr dasselbe System verwenden, wenn es eine Satz-Einrichtung für die Symbole gibt.

Das radikale-Und-Takt-Sortieren

Eine andere Form der Vergleichung ist das radikale-Und-Takt-Sortieren, das für nichtalphabetische Schreiben-Systeme wie chinesischer hanzi und japanischer kanji verwendet ist, dessen sich Tausende von Symbolen über Einrichtung durch die Tagung hinwegsetzen. In diesem System werden allgemeine Bestandteile von Charakteren identifiziert; diese werden Radikale in Chinesisch genannt, und logographic Systeme sind auf Chinesisch zurückzuführen gewesen. Charaktere werden dann von ihrem primären Radikalen gruppiert, der dann durch die Zahl von Kugelschreiber-Schlägen innerhalb von Radikalen befohlen ist. Wenn es keinen offensichtlichen Radikalen gibt oder mehr als ein radikal Tagung regiert, der für die Vergleichung verwendet wird. Zum Beispiel wird der chinesische Charakter für "die Mutter" () als ein Sechstaktcharakter unter dem primären Dreitaktradikalen () sortiert.

Das radikale-Und-Takt-System ist im Vergleich zu einem alphabetischen System beschwerlich, in dem es einige Charaktere, alle eindeutig gibt. Dessen Wahl Bestandteile eines logograph getrennte Radikale umfassen, und der radikal primär ist, ist nicht klar. Infolgedessen, logographic Sprachen ergänzen häufig radikale-Und-Takt-Einrichtung mit dem alphabetischen Sortieren einer fonetischen Konvertierung des logographs. Zum Beispiel, das kanji Wort Tōkyō (), kann der japanische Name Tokios sortiert werden, als ob es in den japanischen Charakteren der hiragana Silbenschrift als "to-u-ki - u" () mit der herkömmlichen Sortieren-Ordnung für diese Charaktere dargelegt wurde.

Außerdem, im Größeren China, ist Nachname-Schlag, der bestellt, eine Tagung in einigen offiziellen Dokumenten, wo die Namen von Völkern ohne Hierarchie verzeichnet werden.

Das radikale-Und-Takt-System oder eine ähnliche Muster vergleichende und Schlag aufzählende Methode, war traditionell die einzige praktische Methode, um Wörterbücher zu bauen, die jemand verwenden konnte, um einen logograph nachzuschlagen, dessen Artikulation unbekannt war. Mit dem Advent von Computern sind Wörterbuch-Programme jetzt verfügbar, die erlauben, einen Charakter mit einer Maus oder Kopierstift zu ziehen.

Mehrsprachige Einrichtung

Wenn Listen von Namen oder Wörtern bestellt werden müssen, aber der Zusammenhang definiert keine besondere einzelne Sprache oder Alphabet, stellt der Unicode Vergleichungsalgorithmus eine Weise zur Verfügung, sie in der Folge zu stellen.

Komplikationen

Vereinbarung in der Typografie und im Sortieren von Systemen

In der Typografie und im Schreiben von wissenschaftlichen Sachen usw., solchen Dingen wie Kopfbälle, Abteilungen, Listen, könnten Seiten usw. das alphabetische Numerieren statt des numerischen Numerierens verwenden. Jedoch bedeutet das nicht immer, dass das volle Alphabet einer besonderen Sprache verwendet wird. Häufig verwendet das alphabetische Numerieren — oder Enumeration — nur eine Teilmenge des vollen Alphabetes. Z.B hat das russische Alphabet 33 Briefe, aber normalerweise nur 28 werden in der typografischen Enumeration verwendet (und zum Beispiel zeigen Ukrainisch, Belarusian und bulgarische Kyrillische Enumeration ähnliche Eigenschaften). Zwei russische Briefe, Ъ und Ь, werden nur verwendet, für die vorhergehenden Konsonanten zu modifizieren — sie fallen natürlich aus. Die letzten drei könnten verwendet worden sein, aber sind größtenteils nicht: Ы beginnt nie ein russisches Wort, Й beginnt fast nie ein Wort auch, und er ist vielleicht zu viel И — und auch ein relativ neuer Charakter ähnlich. Ё ist auch relativ neuer und viel diskutierter — manchmal in richtigen alphabetischen Sortieren-Briefen auf Ё werden unter Е verzeichnet. (Diese "Regeln" werden natürlich wieder z.B in Telefonkatalogen gemäßigt, wo ausländische (nichtrussische) Namen oft mit Й oder Ы beginnen können.) Das spielt auf eine einfache Tatsache an: Alphabete sind nicht nur Werkzeuge für das Schreiben. Und Briefe werden häufig in einem Alphabet einer bestimmten Sprache behalten, wenn auch sie schriftlich nicht zuletzt nicht verwendet werden, weil sie in der alphabetischen Enumeration verwendet werden. Zum Beispiel, X, W, werden Z schriftlich die norwegische Sprache nicht verwendet, außer in Lehnwörtern und Namen. Dennoch werden sie im norwegischen Alphabet behalten, und in alphabetischen Listen verwendet. Ebenfalls haben frühere Versionen des russischen Alphabetes Briefe enthalten, die nur zwei Zwecke hatten: Sie waren dafür gut, griechische Wörter zu schreiben und für das griechische zählende System in seiner Kyrillischen Form zu verwenden.

Wortzusammensetzungen und spezielle Charaktere

Eine Komplikation im alphabetischen Sortieren kann wegen Unstimmigkeiten darüber entstehen, wie Gruppen von Wörtern (getrennte Wortzusammensetzungen, Namen, Titel, usw.) befohlen werden sollte. Eine Regel ist, Räume zum Zwecke der Einrichtung zu entfernen, ein anderer soll einen Raum als ein Charakter betrachten, der bestellt wird, vor Zahlen und Briefen (ist diese Methode mit der Einrichtung durch ASCII oder Unicode codepoint im Einklang stehend), und soll ein Drittel einen Raum nach Zahlen und Briefen bestellen. In Anbetracht der folgenden Schnuren, um — "Fang", "Vieh", "Katze-Essen zu alphabetisieren" — erzeugt die erste Regel "Fang" "Katze Essen" "Vieh", das zweite "Katze-Essen" "fangen" "Vieh" und das dritte "Fang" ""Vieh"-Katze-Essen". Die erste Regel wird in vielen (aber nicht alle) Wörterbücher, das zweite in Telefonbüchern verwendet (so dass Wilson, Jim K mit anderen Leuten genannt Wilson, Jim und nicht nach Wilson, Jimbo erscheint). Die dritte Regel wird selten verwendet.

Eine ähnliche Komplikation entsteht, wenn spezielle Charaktere wie Bindestriche oder Apostrophe in Wörtern oder Namen erscheinen. Einige derselben Regeln kann wie oben in diesem Fall ebenso verwendet werden; jedoch entspricht der strenge ASCII, der nicht mehr sortiert, genau zu einigen der Regeln.

Einrichtung des Namens/Nachnamens

Das Telefonbuch-Beispiel wirft Licht auf eine andere Komplikation. In Kulturen, wo Familiennamen nach Vornamen geschrieben werden, wird es gewöhnlich noch zur Sorte durch den Familiennamen zuerst gewünscht. In diesem Fall müssen Namen wiederbefohlen werden, richtig sortiert zu werden. Zum Beispiel sollten Juan Hernandes und Brian O'Leary als "Hernandes, Juan" und "O'Leary, Brian" sortiert werden, selbst wenn sie dieser Weg nicht geschrieben werden. Das Gefangennehmen dieser Regel in einem Computervergleichungsalgorithmus ist schwierig, und einfache Versuche werden notwendigerweise scheitern. Zum Beispiel, wenn der Algorithmus über keine umfassende Liste von Familiennamen verfügt, gibt es keine Weise zu entscheiden, ob "Gillian Lucille van der Waal" "van der Waal, Gillian Lucille", "Waal, Gillian Lucille van der", oder sogar "Lucille van der Waal, Gillian" ist.

Abkürzungen und allgemeine Wörter

Wenn Abkürzungen verwendet werden, wird es manchmal gewünscht, um die Abkürzungen für das Sortieren auszubreiten. In diesem Fall kommt "St. Paul" vor "Schanghai". Offensichtlich, um dieses Verhalten in einem Vergleichungsalgorithmus zu gewinnen, ist eine Liste von Abkürzungen erforderlich. Es kann in einigen Fällen praktischer sein, um zwei Sätze von Schnuren, ein für das Sortieren und ein für die Anzeige zu versorgen. Ein ähnliches Problem entsteht, wenn Briefe durch Zahlen oder spezielle Symbole auf eine unregelmäßige Weise, zum Beispiel 1337 für leet oder den Film Se7en ersetzt werden. In diesem Fall nötigt das richtige Sortieren, zwei Sätze von Schnuren zu behalten.

In bestimmten Zusammenhängen werden sehr allgemeine Wörter (wie Artikel) am Anfang einer Folge von Wörtern für die Einrichtung nicht betrachtet, oder werden zum Ende bewegt. So "wird Das Leuchtende" betrachtet "Scheinend" oder ", Scheinend", wenn man alphabetisiert, und wird deshalb vorher "Sommer von Sam" bestellt. Diese Regel ist ziemlich leicht, in einem Algorithmus zu gewinnen, aber viele Programme verlassen sich stattdessen auf die einfache lexikografische Einrichtung. Eine ziemlich kuriose Ausnahme zu dieser Regel ist das Fliegen der Fahne Der ehemaligen jugoslawischen Republik Mazedonien an den Vereinten Nationen zwischen denjenigen Thailands und Timor Leste.

Das Sortieren von Zahlen

Die aufsteigende Reihenfolge von Zahlen unterscheidet sich von der alphabetischen Reihenfolge, z.B 11 kommt alphabetisch vorher 2. Das kann mit Hauptnullen befestigt werden: 02 kommt alphabetisch vorher 11. Sieh z.B. ISO 8601.

Auch 13 kommt alphabetisch danach 12, obwohl es weniger ist. Mit negativen Zahlen, um aufsteigende Reihenfolge dem alphabetischen Sortieren entsprechen zu lassen, sind drastischere Maßnahmen wie das Hinzufügen einer Konstante zu allen Zahlen erforderlich, um sie alle positiv zu machen.

Numerisches Sortieren von Schnuren

Manchmal wird es gewünscht, um Text mit eingebetteten Zahlen mit der richtigen numerischen Ordnung zu bestellen. Zum Beispiel "geht Abbildung 7b" vor "der Abbildung 11a", wenn auch '7' danach '1' in Unicode kommt. Das kann zu Römischen Ziffern erweitert werden. Dieses Verhalten ist nicht besonders schwierig, so lange zu erzeugen, nur ganze Zahlen sollen sortiert werden, obwohl es das Sortieren bedeutsam verlangsamen kann. Zum Beispiel tut Windows XP das, wenn es Dateinamen sortiert.

Das Sortieren von Dezimalzahlen ist richtig ein bisschen schwieriger, weil verschiedene Schauplätze verschiedene Symbole für einen dezimalen Punkt, und manchmal denselben verwendeten Charakter verwenden, wie ein dezimaler Punkt auch als ein Separator, zum Beispiel "Abschnitt 3.2.5" verwendet wird. Es gibt keine universale Antwort dafür, wie man solche Schnuren sortiert; irgendwelche Regeln sind Anwendungsabhängiger.

Das alphabetische Sortieren von Zahlen

Wenn Zahlen als Namen, aber nicht für ihre numerischen Eigenschaften verwendet werden, ist es üblich, sie alphabetisch zu sortieren, weil sie buchstabiert würden. Zum Beispiel würde der Film 1776 zwischen Seve Ballesteros und Severus Snape sein. Wenn eine Zahl in einem Auslandsbegriff ist, wird sie alphabetisiert, weil sie auf dieser Sprache buchstabiert würde; zum Beispiel würde 24 heures du Mans zwischen der Eigenartigkeit von Vinge und Vinh Flughafen sein, den französischen "vingt-quatre" widerspiegelnd.

Referenzen

Außenverbindungen und Verweisungen

#10

Kanal von Fairchild F / Gesetz der bürgerlichen Rechte
Impressum & Datenschutz