From - Wed Jul  9 14:14:05 1997
Path: grapool30.rz.uni-frankfurt.de!zeus.rbi.informatik.uni-frankfurt.de!uniol!fu-berlin.de!unlisys!krell!not-for-mail
From: ud@nitmar.ddt.sub.org (Ulrich Dessauer)
Newsgroups: de.newusers.infos,de.newusers.questions
Subject: <1991-05-23> Umlaute im Usenet
Supersedes: <de-newusers-infos/umlaute/00000000-1@krell.snafu.de>
Followup-To: de.newusers.questions
Date: 21 Jun 1997 21:09:39 +0200
Organization: Moderation von de.newusers.infos
Lines: 145
Sender: amk@krell.snafu.de
Approved: de-newusers-infos@krell.snafu.de
Expires: 30 Sep 1997 23:59:59 GMT
Message-ID: <de-newusers-infos/umlaute/19970621-1@krell.snafu.de>
Reply-To: de-newusers-infos@krell.snafu.de
NNTP-Posting-Host: krell.snafu.de
Mime-Version: 1.0
Content-Type: text/plain; charset=iso-8859-1
Content-Transfer-Encoding: 8bit
Xref: grapool30.rz.uni-frankfurt.de de.newusers.infos:51 de.newusers.questions:39468

Archive-name: de-newusers-infos/umlaute
Posting-frequency: monthly

Umlaute im Usenet

Die Diskussion um die Verwendung von Umlauten in deutschsprachigen News-
gruppen taucht immer wieder auf, und wird nach einer laengeren Zeit mit
meist unzaehligen doppelten und teilweise nutzlosen Beitraegen erfolglos
beendet. Um solche Diskussionen zu unterbinden, und ein Ergebnis aller
vorausgehenden Diskussion widerzuspiegeln, ist dieser Text gedacht.

Sollten dennoch Anmerkungen dazu gemacht werden wollen, bitte ich diese
per Mail an mich zu schicken.


1. Umlaute - wo ist das Problem?

Der Eine oder Andere mag sich fragen, wo ueberhaupt das konkrete Problem
der Umlaute im Usenet liegt. Das Problem ist einerseits der fehlende
Standard (es gibt diverse "Standards", von denen sich keiner durchsetzen
konnte) und andererseits die mangelnde Unterstuetzung durch die vor-
handene Software.

Fuer die Darstellung der Umlaute bietet sich eineseits eine DIN-
Regelung an, die die Umlaute auf Sonderzeichen in der ASCII-Tabelle
abbildet. Dies hat jedoch den Nachteil, dass diese Sonderzeichen nicht
mehr dargestellt werden koennen. Da aber gerade diese sehr oft in
Programmsegmenten benutzt werden, ist das nicht tragbar.

Ein anderer Standard waeren die sogenannten IBM-PC-Umlaute. Hier werden
die Umlaute in den Bereich der Acht-Bit-Zeichen gelegt, und ersetzen
somit keine anderen wichtigen Zeichen. Jedoch ist das kein echter
Standard, fuer die Zukunft zu unsicher und zu wenig durchdacht.

Der Zeichensatz ISO 8859/1 ist dagegen ein Standard, der auch die
Umlaute (und andere laenderspezifische Zeichen) in Acht-Bit-Zeichen
ablegt. ISO 8859/1 beinhaltet neben den deutschen Umlauten auch diverse
andere laenderspezifische Sonderzeichen.

[TODO: Noch weiter ausfuehren: Latin 1/2, Mapping Klein- auf Grossumlaute]

Bei diesen beiden Loesungen gibt es allerdings Probleme mit der am
meisten verbreiteten Software, die nur auf Sieben-Bit-Zeichen ausgelegt
ist (da sie meist in englischsprachigen Laendern geschrieben wurde, sah
man dort wohl nicht das Beduerfnis fuer Umlaute).


2. Alternativen

Im Laufe diverser Diskussionen wurden Alternativloesungen fuer das Problem
der Umlaute aufgezeigt. Die derzeit einzig durchgaengig praktizierte
Methode ist das Benutzen von Ersatzsequenzen fuer Umlaute, und hierbei
sind die Ersatzzeichen Ae, Oe, Ue, ae, oe, ue und ss (fuer das scharfe s)
die derzeit einzigen echt akzeptierten auf dem Netz.

Diese haben aber das Problem, dass eine automatische Rueckwandelung in
echte Umlaute nicht ohne grossen Aufwand erlaubt. (Dies trifft auch im
Groben auf jede andere Ersatzsequenz zu). Neben dieser Loesung wurden
auch Sequenzen, die im Satzsystem TeX gebraeulich sind verwendet (und
einige Varianten). Diese sind aber meist noch unleserlicher, auch wenn
man sie leichter zurueckwandeln koennte.

Eine andere Loesung waere das "Mitschleppen" von Uebersetzungstabellen in
allen versendeten Nachrichten. Dies haette aber eine aufwendige Aenderung
der Software und eine nicht unerheblich Vergroesserung der Artikel zur
Folge. Weitere Loesungen wurden auch besprochen, die aber meist aufwendig
zu implemeniteren waeren oder eine sehr unleserliche Darstellung zur Folge
haetten.


3. Loesung

Nach vielen fruchtlosen Diskussionen konnte man dann doch eine Loesung
fuer das Problem erkennen. Sie sorgt dafuer, dass die Software weiterhin
kompatibel bleibt, sie ermoeglicht eine schrittweise Umstellung, und sie
lehnt sich an einen vorhandenen Standard an, der auch in Zukunft noch
fuer einige Zeit bestehen duerfte.

Als einzig tragbare Loesung ohne Einschraenkung wurde die Verwendung des
weiter oben schon erwaehnten ISO 8859/1 Zeichensatzes angesehen, aller-
dings nur zusammen mit diversen Massnahmen, die eine Abwaertskompatibitaet
mit Systemen erreichen, welche diesen Zeichensatz noch nicht unterstutzen:

- Lokale Erzeugung
  News werden lokal mit Umlauten geschrieben, und auch mit Umlauten ab-
  gespeichert. Sollten Terminals mit anderen Zeichensaetzen die Umlaute
  benutzen wollen, muss das Newssystem diese auf die ISO-Umlaute abbilden
  koennen (ueber eine Tabelle, die mit der Environment-Variable `CHARSET'
  gesetzt werden kann.

  Fuer Mails gilt aehnliches; da diese aber direkt an einen Transport-
  mechanismus weitergeleitet werden, muss die endgueltige Umwandlung
  vor dieser Weiterleitung und fuer jeden Transportmechanismus getrennt
  erfolgen (siehe dazu unten bei Weiterleiten).

- Lokales Anzeigen
  Zum Anzeigen wird auch die oben erwaehnte Environment-Variable heran-
  gezogen, und es wird eine Rueckkonvertierung vorgenommen, damit das
  jeweilige Terminal die Umlaute korrekt darstellt.

- Weiterleiten
  Bei News werden die Artikel in der Regel erst zu einem spaeteren Zeit-
  punkt fuer ein Nachbarsystem zur Verfuegung gestellt. Dann naemlich
  muss festgestellt werden, ob das Nachbarsystem Umlaute nach ISO 8859/1
  unterstuetzt; wenn nicht, muessen sie in eine Ersatzsequenz umgewandelt
  werden: aus Umlaut-A wird Ae, usw.

  Dies muss auch das Mailsystem bei jedem Transportmechanismus beachten.
  Ankommende Ersatzsequenzen werden nicht in die entsprechnden Umlaute
  umgewandelt (da sie nicht eindeutig sind).

Aufgrund dieser Forderungen ist es moeglich, diese Umstellung Schritt fuer
Schritt vorzunehmen, ohne in irgendeiner Weise eingeschraenkt zu sein.


4. Ausblick und Aufruf

Allen Programmierern wird nahegelegt, dies bei einer Neuentwicklung in
den Bereichen Mail und News zu beruecksichtigen. Je mehr Entwickler sich
an diesen Standard halten, desto leichter ist die besser lesbare Verteilung
von laenderspezifischen Zeichen (auch wenn im Text meist nur von Umlauten
die Rede ist, betrifft das natuerlich auch andere Sonderzeichen).

Jeder, der fertige Software einsetzt, und den Sourcecode hat, sollte sich
ueberlegen, ob es moeglich waere, diese an die beschriebenen Eigenschaften
anzupassen. Es koennen sich ohne weiteres mehrere Leute koordinieren, um die
Arbeit gemeinsam zu machen. Zudem ist jeder aufgerufen, diese Aenderungen
an den Autor der Software zu schicken, so dass diese Optionen weiterver-
teilt werden und sich somit zu einem Standard etablieren.


5. Abschliessende Bemerkung

Jede Anmerkung, Aenderung oder andere Anliegen bezueglich dieses Textes
bitte nur per Mail an mich: ud@nitmar.ddt.sub.org.

[Moderator's TODO-list: Erwaehnung von ISO DIS 10646 und Unicode, Fort-
 schritte der Japaner in Sachen Kanji-Zeichensatz und Usenet... und wieder
 ist ein Monat vollbracht, und wieder ist noch nichts geschafft :-)
 Kosta Kostis hat sich allerdings schon fast breitschlagen lassen,
 irgendwann demnächst ein Update zu diesem Artikel zu verfassen...]

--
	Ulrich Dessauer <ud@nitmar.muc.de>
	Joachim Astel <achim@astel.de>