From - Wed Jul 9 14:14:05 1997 Path: grapool30.rz.uni-frankfurt.de!zeus.rbi.informatik.uni-frankfurt.de!uniol!fu-berlin.de!unlisys!krell!not-for-mail From: ud@nitmar.ddt.sub.org (Ulrich Dessauer) Newsgroups: de.newusers.infos,de.newusers.questions Subject: <1991-05-23> Umlaute im Usenet Supersedes: Followup-To: de.newusers.questions Date: 21 Jun 1997 21:09:39 +0200 Organization: Moderation von de.newusers.infos Lines: 145 Sender: amk@krell.snafu.de Approved: de-newusers-infos@krell.snafu.de Expires: 30 Sep 1997 23:59:59 GMT Message-ID: Reply-To: de-newusers-infos@krell.snafu.de NNTP-Posting-Host: krell.snafu.de Mime-Version: 1.0 Content-Type: text/plain; charset=iso-8859-1 Content-Transfer-Encoding: 8bit Xref: grapool30.rz.uni-frankfurt.de de.newusers.infos:51 de.newusers.questions:39468 Archive-name: de-newusers-infos/umlaute Posting-frequency: monthly Umlaute im Usenet Die Diskussion um die Verwendung von Umlauten in deutschsprachigen News- gruppen taucht immer wieder auf, und wird nach einer laengeren Zeit mit meist unzaehligen doppelten und teilweise nutzlosen Beitraegen erfolglos beendet. Um solche Diskussionen zu unterbinden, und ein Ergebnis aller vorausgehenden Diskussion widerzuspiegeln, ist dieser Text gedacht. Sollten dennoch Anmerkungen dazu gemacht werden wollen, bitte ich diese per Mail an mich zu schicken. 1. Umlaute - wo ist das Problem? Der Eine oder Andere mag sich fragen, wo ueberhaupt das konkrete Problem der Umlaute im Usenet liegt. Das Problem ist einerseits der fehlende Standard (es gibt diverse "Standards", von denen sich keiner durchsetzen konnte) und andererseits die mangelnde Unterstuetzung durch die vor- handene Software. Fuer die Darstellung der Umlaute bietet sich eineseits eine DIN- Regelung an, die die Umlaute auf Sonderzeichen in der ASCII-Tabelle abbildet. Dies hat jedoch den Nachteil, dass diese Sonderzeichen nicht mehr dargestellt werden koennen. Da aber gerade diese sehr oft in Programmsegmenten benutzt werden, ist das nicht tragbar. Ein anderer Standard waeren die sogenannten IBM-PC-Umlaute. Hier werden die Umlaute in den Bereich der Acht-Bit-Zeichen gelegt, und ersetzen somit keine anderen wichtigen Zeichen. Jedoch ist das kein echter Standard, fuer die Zukunft zu unsicher und zu wenig durchdacht. Der Zeichensatz ISO 8859/1 ist dagegen ein Standard, der auch die Umlaute (und andere laenderspezifische Zeichen) in Acht-Bit-Zeichen ablegt. ISO 8859/1 beinhaltet neben den deutschen Umlauten auch diverse andere laenderspezifische Sonderzeichen. [TODO: Noch weiter ausfuehren: Latin 1/2, Mapping Klein- auf Grossumlaute] Bei diesen beiden Loesungen gibt es allerdings Probleme mit der am meisten verbreiteten Software, die nur auf Sieben-Bit-Zeichen ausgelegt ist (da sie meist in englischsprachigen Laendern geschrieben wurde, sah man dort wohl nicht das Beduerfnis fuer Umlaute). 2. Alternativen Im Laufe diverser Diskussionen wurden Alternativloesungen fuer das Problem der Umlaute aufgezeigt. Die derzeit einzig durchgaengig praktizierte Methode ist das Benutzen von Ersatzsequenzen fuer Umlaute, und hierbei sind die Ersatzzeichen Ae, Oe, Ue, ae, oe, ue und ss (fuer das scharfe s) die derzeit einzigen echt akzeptierten auf dem Netz. Diese haben aber das Problem, dass eine automatische Rueckwandelung in echte Umlaute nicht ohne grossen Aufwand erlaubt. (Dies trifft auch im Groben auf jede andere Ersatzsequenz zu). Neben dieser Loesung wurden auch Sequenzen, die im Satzsystem TeX gebraeulich sind verwendet (und einige Varianten). Diese sind aber meist noch unleserlicher, auch wenn man sie leichter zurueckwandeln koennte. Eine andere Loesung waere das "Mitschleppen" von Uebersetzungstabellen in allen versendeten Nachrichten. Dies haette aber eine aufwendige Aenderung der Software und eine nicht unerheblich Vergroesserung der Artikel zur Folge. Weitere Loesungen wurden auch besprochen, die aber meist aufwendig zu implemeniteren waeren oder eine sehr unleserliche Darstellung zur Folge haetten. 3. Loesung Nach vielen fruchtlosen Diskussionen konnte man dann doch eine Loesung fuer das Problem erkennen. Sie sorgt dafuer, dass die Software weiterhin kompatibel bleibt, sie ermoeglicht eine schrittweise Umstellung, und sie lehnt sich an einen vorhandenen Standard an, der auch in Zukunft noch fuer einige Zeit bestehen duerfte. Als einzig tragbare Loesung ohne Einschraenkung wurde die Verwendung des weiter oben schon erwaehnten ISO 8859/1 Zeichensatzes angesehen, aller- dings nur zusammen mit diversen Massnahmen, die eine Abwaertskompatibitaet mit Systemen erreichen, welche diesen Zeichensatz noch nicht unterstutzen: - Lokale Erzeugung News werden lokal mit Umlauten geschrieben, und auch mit Umlauten ab- gespeichert. Sollten Terminals mit anderen Zeichensaetzen die Umlaute benutzen wollen, muss das Newssystem diese auf die ISO-Umlaute abbilden koennen (ueber eine Tabelle, die mit der Environment-Variable `CHARSET' gesetzt werden kann. Fuer Mails gilt aehnliches; da diese aber direkt an einen Transport- mechanismus weitergeleitet werden, muss die endgueltige Umwandlung vor dieser Weiterleitung und fuer jeden Transportmechanismus getrennt erfolgen (siehe dazu unten bei Weiterleiten). - Lokales Anzeigen Zum Anzeigen wird auch die oben erwaehnte Environment-Variable heran- gezogen, und es wird eine Rueckkonvertierung vorgenommen, damit das jeweilige Terminal die Umlaute korrekt darstellt. - Weiterleiten Bei News werden die Artikel in der Regel erst zu einem spaeteren Zeit- punkt fuer ein Nachbarsystem zur Verfuegung gestellt. Dann naemlich muss festgestellt werden, ob das Nachbarsystem Umlaute nach ISO 8859/1 unterstuetzt; wenn nicht, muessen sie in eine Ersatzsequenz umgewandelt werden: aus Umlaut-A wird Ae, usw. Dies muss auch das Mailsystem bei jedem Transportmechanismus beachten. Ankommende Ersatzsequenzen werden nicht in die entsprechnden Umlaute umgewandelt (da sie nicht eindeutig sind). Aufgrund dieser Forderungen ist es moeglich, diese Umstellung Schritt fuer Schritt vorzunehmen, ohne in irgendeiner Weise eingeschraenkt zu sein. 4. Ausblick und Aufruf Allen Programmierern wird nahegelegt, dies bei einer Neuentwicklung in den Bereichen Mail und News zu beruecksichtigen. Je mehr Entwickler sich an diesen Standard halten, desto leichter ist die besser lesbare Verteilung von laenderspezifischen Zeichen (auch wenn im Text meist nur von Umlauten die Rede ist, betrifft das natuerlich auch andere Sonderzeichen). Jeder, der fertige Software einsetzt, und den Sourcecode hat, sollte sich ueberlegen, ob es moeglich waere, diese an die beschriebenen Eigenschaften anzupassen. Es koennen sich ohne weiteres mehrere Leute koordinieren, um die Arbeit gemeinsam zu machen. Zudem ist jeder aufgerufen, diese Aenderungen an den Autor der Software zu schicken, so dass diese Optionen weiterver- teilt werden und sich somit zu einem Standard etablieren. 5. Abschliessende Bemerkung Jede Anmerkung, Aenderung oder andere Anliegen bezueglich dieses Textes bitte nur per Mail an mich: ud@nitmar.ddt.sub.org. [Moderator's TODO-list: Erwaehnung von ISO DIS 10646 und Unicode, Fort- schritte der Japaner in Sachen Kanji-Zeichensatz und Usenet... und wieder ist ein Monat vollbracht, und wieder ist noch nichts geschafft :-) Kosta Kostis hat sich allerdings schon fast breitschlagen lassen, irgendwann demnächst ein Update zu diesem Artikel zu verfassen...] -- Ulrich Dessauer Joachim Astel