Software Developmont in Chemistry. 9th Workshop "Computer in Chemistry", Bitterfeld 1994

World Wide Web (WWW)/Mosaic: Ein weltweites Informationssystem

Einsatzmöglichkeiten in der Chemie

Burkhard Kirste, Heiko Schlichting und Thomas Richter

Fachbereich Chemie, Freie Universität Berlin

Einleitung

"World Wide Web", kurz als "WWW" oder W3 bezeichnet, ist ein weltweites Informationssystem, das auf Hypertext-Dokumenten mit Multimedia-Erweiterungen basiert. Es wurde ursprünglich von Tim Berners-Lee am CERN in Genf entwickelt. Zu Beginn des Jahres 1993 hat unsere Gruppe am Fachbereich Chemie der Freien Universität Berlin den ersten WWW-Server an einem deutschen Chemie-Fachbereich aufgebaut. Inzwischen gibt es über ein Dutzend WWW-Server an deutschen Chemie-Fachbereichen. Weltweit gibt es über 8000 WWW-Server, und die Anzahl der angebotenen Dokumente übersteigt eine halbe Million.

Zuerst möchte ich einen kurzen Überblick über das System geben, das aus Servern, Dokumenten und Abfrageprogrammen (sog. "Browser") besteht. Sodann möchte ich einige Beispiele vorführen, wobei der Schwerpunkt im Chemiebereich liegen wird, und abschließend einen Ausblick auf zukünftige Entwicklungen geben.

Ein typisches Beispiel soll die Anwendung des Systems zeigen. In einem Hypertext sind Schlüsselwörter oder Textpassagen besonders hervorgehoben, die als Anker oder Verweise in andere Dokumente dienen. Hier sind diese aktiven Wörter durch blaue Farbe und Unterstreichung markiert. Wenn man nun ein derartiges Wort einmal mit der Maus anklickt, wird das gegenwärtige Dokument durch ein neues ersetzt, auf das verwiesen wird. Alternativ könnte man auch ein neues Fenster dafür öffnen. Dieses Verhalten ist jedem bestens bekannt, der jemals die Online-Hilfe von MS Windows oder ein ähnliches Hypertextsystem auf dem Macintosh benutzt hat.

Das WWW-System ist jedoch nicht auf Text beschränkt, sondern bietet volle Multimedia-Unterstützung wie Graphik, Bilder, Ton und Video. Im Beispiel würde ein größeres Bild erscheinen, wenn man das Siegel anklickt. Auf lokaler Basis oder in einem lokalen Netzwerk sind derartige Möglichkeiten auch auf modernen Multimedia-Personalcomputern bekannt. Als willkürliches Beispiel sei "Microsoft Encarta" genannt, eine Multimedia-Enzyklopädie auf CD-ROM für MS Windows.

Die Besonderheit von WWW liegt nun darin, daß Multimedia-Dokumente weltweit und für jeden zugänglich sind, der Zugang zum Internet hat. Abfrage- und Visualisierungsprogramme ("Browser") sind für alle gängigen Computertypen und Betriebssysteme frei erhältlich. Man kann notfalls auch einfache Text-Terminals, z.B. über ein Modem, einsetzen. Im Prinzip kann jeder Teilnehmer am Internet auch selbst Informationen anbieten, da es für die meisten Plattformen auch Server-Software gibt.

Grundlegende Informationen zu WWW und HTML

HTML (HyperText Markup Language)

Zur Abfassung von Hypertext-Dokumenten bedient man sich der "HyperText Markup Language" HTML. Diese auf SGML basierende Dokument-Definition legt allerdings nur die Struktur des Dokuments fest. Im Gegensatz zu PostScript werden keine Festlegungen über den Seitenaufbau oder die zu verwendenden Schriftarten getroffen. Im wesentlichen handelt es sich schlicht um ASCII-Texte. Formatierungsmerkmale werden durch sog. "Tags" eingeführt, die stets in spitze Klammern eingeschlossen sind. Beispielsweise kennzeichnet man mit dem <B>-"Tag" Passagen, die im Fettdruck erscheinen sollen.

Von fundamentaler Bedeutung sind nun die mit dem Buchstaben A gekennzeichneten Anker, mit denen Verweise eingefügt werden. Der Verweis steht neben dem Schlüsselwort HREF. Wie bereits erwähnt, kann es sich dabei um einen neuen Text, eine bestimmte Textstelle, ein Bild, ein Klangobjekt oder einen Videoclip handeln. Die Syntax ist in allen Fällen die gleiche, die Unterscheidung erfolgt anhand der Dateierweiterung; z.B. html, gif, au oder mpeg.

URL (Uniform Resource Locator)

Um nun Dokumente weltweit eindeutig adressieren zu können, wurde das Konzept des Uniform Resource Locators, kurz URL, eingeführt. Der URL spezifiziert zunächst das Protokoll, dann den Internet-Namen des Servers und schließlich den Dateinamen mit der Pfadangabe. WWW-Server arbeiten mit dem HTTP-Protokoll, was für "HyperText Transfer Protocol" steht. Das WWW-Konzept umfaßt jedoch darüber hinaus auch praktisch alle anderen Internet-Dienste wie Gopher, FTP, Telnet und WAIS.

Erzeugung von HTML-Dokumenten

HTML-Dokumente kann man prinzipiell mit jedem ASCII-Editor schreiben, wobei Macro-Funktionalität zeitsparend ist. Es gibt auch spezielle HTML-Editoren. Alternativ kann man vorhandene Dokumente konvertieren, z.B. FrameMaker-Dokumente, LaTeX-Dokumente oder WinWord-Dokumente, wobei letztere zunächst in das RTF-Format umgewandelt werden müssen.

"Browser"

Die gegenwärtige Popularität des WWW-Systems ist im wesentlichen dem "Browser" Mosaic zu verdanken. Mosaic bietet ein angenehm formatiertes Schriftbild, erlaubt den Einsatz vielfältiger Hilfsprogramme als Betrachter für Bilder, Videos, PostScript usw.; ferner einfache Navigation im Hypertext-System sowie Export- und Druckmöglichkeiten für die Dokumente. Inzwischen gibt es auch ernstzunehmende Alternativen zu "Mosaic"; in den im folgenden vorgestellten Anwendungsmöglichkeiten wird allerdings "Mosaic" verwendet.

Einsatzmöglichkeiten in der Chemie

Wie bereits aus meinem allerersten Beispiel ersichtlich war, läßt sich ein WWW-Server dazu verwenden, Informationen über eine Institution zu verbreiten. Entsprechend lassen sich z.B. Vorträge oder Kurse ankündigen. Es eignet sich auch bestens für die Online-Dokumentation von Software. Als Beispiel ist hier der Anfang der Dokumentation zu MolScript gezeigt. Wie man sieht, lassen sich ohne weiters Graphiken oder Bilder integrieren, und die Texte lassen sich wesentlich angenehmer lesen als z.B. Unix "man pages".

Electronic Publishing

Ein gegenwärtig heiß diskutiertes Thema ist das Gebiet des "Electronic Publishing". Das WWW-System eignet sich bestens dazu, wissenschaftliche Ergebnisse ohne Verzögerung zu verbreiten. Preprints können auf einem WWW-Server angeboten werden; am angenehmsten für den Leser ist es, wenn das gesamte Dokument im Hypertext-Format, auch mit Abbildungen, zur Verfügung gestellt wird. Hierfür gibt es von mir selbst, von Henry Rzepa und anderen bereits Beispiele. Alternativ ist es aber auch möglich, nur das Abstract samt einem Verweis auf das PostScript-Dokument anzubieten; das Dokument kann dann ggf. vom Leser "heruntergeladen" werden.

Die Zeitschrift Chemical Physics beispielsweise bietet bereits einen derartigen Preview-Service. Hypertext-Abstracts können "online" gelesen werden, und das vollständige Dokument läßt sich ohne weiteres "herunterladen". Die Zeitschriften J. Am. Chem. Soc. und Chem. Rev. stellen ergänzendes Material auf dem ACS Gopher-Server zur Verfügung. Der Springer-Verlag stellt Inhaltsübersichten kostenfrei zur Verfügung, Preprints gegen Entgelt. Insbesondere im Bereich der Mathematik gibt es bereits einige echte elektronische Zeitschriften.

Neben Veröffentlichungen stellen Konferenzen ein bedeutendes Forum zum Austausch wissenschaftlicher Informationen dar. Auch hier gibt es bereits elektronische Konferenzen mittels WWW, die den Teilnehmern Kosten und Mühen ersparen, allerdings auch die angenehmeren Aspekte vorenthalten. Als Beispiel sei die First Electronic Computational Chemistry Conference genannt, die in diesem Monat abgehalten wird.

Suchbare Indizes, Formulare, Datenbanken und anklickbare Karten

Bislang habe ich nur "reale" Hypertext-Dokumente vorgestellt. Mit Hilfe des "Common Gateway Interface (CGI)" ist es jedoch auch möglich, derartige Dokumente ad hoc zu erzeugen. Das ist beispielsweise von Interesse, um mittels suchbarer Indizes oder über Formulare Datenbanken abzufragen.

Ein Beispiel für einen suchbaren Index ist unsere Akronym-Sammlung, die Erklärungen zu Kurzworten wie "COSY" liefert. Weitere derartige Indizes gibt es auf unserem Server u.a. für Abkürzungen chemischer Verbindungsnamen sowie für chemierelevante Dokumente im Internet.

Sehr viel mehr Flexibilität bieten Formulare. Man kann sie einerseits dazu verwenden, um Mitteilungen per E-Mail zu verschicken. Andererseits sind damit Datenbankabfragen möglich, die auch die Eingabe einer komplexen Suchlogik gestatten. Ein Beispiel dafür ist unsere Gefahrstoffdatenbank für Chemikalien. In diesem Fall haben wir ein CGI-Skript sowie ein spezielles Datenbankprogramm entwickelt, das eine HTML-Ausgabe mit weiteren Verweisen bietet. So erhält man Erklärungen zu den R- und S-Sätzen, wenn man die betreffende Codierung anklickt. Als weiteres wichtiges Beispiel sei erwähnt, daß es Formulare zur Abfrage der Brookhaven Protein-Datenbank (PDB) gibt. Allmählich steigt auch die Anzahl der Bibliothekskataloge, in denen man mit Hilfe von WWW-Formularen recherchieren kann; zuvor gab es dafür allenfalls unpraktische Möglichkeiten per "Telnet".

Prinzipiell lassen sich alle Ressourcen des Servers über Formulare und das CGI-Konzept nutzbar machen. Als Beispiel sei unser Formular zur Umrechnung von Einheiten genannt, das das Unix-Hilfsprogramm "units" aufruft.

Eine weitere Möglichkeit zur interaktiven Kommunikation mit einem WWW-Server bieten anklickbare Karten. Eine offensichtliche Anwendung dafür sind geographische Karten, wie z.B. die Karte deutscher WWW-Server. Anklicken der gekennzeichneten Quadrate liefert Ortsinformationen bzw. Verweise auf WWW-Server. Unsere Begrüßungsseite erlaubt durch Anklicken des betreffenden Stichworts oder Icons die schnelle Wahl eines Hauptthemas. Der Citronensäurezyklus zeigt eine Anwendungsmöglichkeit in der Chemie; Anklicken eines der Rechtecke liefert einen Verweis.

Multimediaerweiterung (MIME) für die Chemie

Ich hatte bereits erwähnt, daß beispielsweise "Mosaic" dazu in der Lage ist, externe Betrachtungsprogramme für verschiedenartige Anwendungen zu starten. Diese Idee wurde von Henry Rzepa aufgegriffen und für die Bedürfnisse der Chemie erweitert. So erhält man beim Anklicken eines 3D-Molekülmodells bei korrekter Installation der MIME-Erweiterung nicht etwa ein vergrößertes statisches Bild, sondern statt dessen werden die Molekülkoordinaten an ein Molekülgraphik-Programm wie "xmol" oder "rasmol" übergeben. Im Beispiel handelt es sich um Pinen; der Benutzer kann jetzt z.B. das Molekülmodell beliebig drehen. Auch Animationen etwa von Reaktionsabläufen oder Molekülschwingungen lassen sich mittels "xmol" darstellen.

Eine andere Erweiterung betrifft Spektren oder Chromatogramme. Beispielsweise ist es nützlich, wenn man einen Ausschnitt aus einem NMR-Spektrum vergrößert betrachten kann. Eine einfache Ausschnittsvergrößerung einer Pixelgraphik ist dafür allerdings nicht hilfreich. Sinnvoll ist hingegen die Übergabe von x,y-Wertepaaren an ein geeignetes Graphikprogramm wie "xmgr" oder "xgraph".

Zusammenfassung und Ausblick

Ich habe versucht aufzuzeigen, daß das World Wide Web faszinierende Anwendungsmöglichkeiten im Bereich der Naturwissenschaften bietet. Hervorgehoben seien die Einsatzbereiche Electronic Publishing, Lehrmaterialien, Multimedia-Dokumentationen und Datenbankabfragen. Es wäre denkbar, eine ständig erweiterbare Chemie-Enzyklopädie im Internet aufzubauen.

Für den kommerziellen Einsatz in den Bereichen "Electronic Publishing" oder "Datenbankabfragen" stehen zwar zur Zeit schon Möglichkeiten der Zugangsbeschränkung zur Verfügung, ein allgemein anwendbares Abrechnungsverfahren müßte aber noch entwickelt werden.

Das WWW-System wächst zwar gegenwärtig exponentiell, Weiterentwicklungen sind aber notwendig und auch im Gange. So ist das gegenwärtig eingesetzte HTML-2 zu restriktiv, da es keine Unterstützung für Indizes, mathematische Formeln oder Tabellen bietet. Diese Funktionalitäten werden aber in HTML-3 (HTML+) vorhanden sein; ein Beispiel wird hier mit einer Testversion des Betrachtungsprogramms "arena" gezeigt.

Ein mehr technisches Problem liegt darin, daß der versprochene "information superhighway" noch keine Realität ist. Folglich ist der Zugriff auf entfernte Rechner oftmals sehr langsam oder auch temporär unmöglich. Leider kann man sich auch auf die URLs nicht dauerhaft verlassen, da Dokumente verschoben werden oder Maschinennamen sich ändern.

Schließlich besteht ein großes Problem auch darin, eine benötigte Information schnell zu finden. Obwohl es verschiedene Indizierungsschemata gibt, sei es durch zusammengetragene Listen oder über automatische Roboter ("Spinnen"), die das weltweite Netz durchstreifen, existiert noch keine wirklich befriedigende Lösung. Erwähnen möchte ich noch eine in Graz entwickelte Alternative zum WWW, genannt "Hyper-G". "Hyper-G" bietet wohl Vorteile im Bereich verteilter Datenbanksysteme, ist aber nicht skalierbar, schwieriger zu installieren und weniger flexibel als WWW.


Burkhard Kirste, 1994/11/13