Dialog Textimport

Menüpunkt Datei | Import | Textdatei

oder

Klick auf die Schaltfläche Textdatei in der Registerkarte Daten, Gruppe Import

oder

Klick auf die Schaltfläche Datei in der Registerkarte Daten, Gruppe Aktualisieren/Anfügen

oder

Aktivierung des Optionsfelds Datei öffnen im Auswahlassistent mit anschließender Wahl einer Importdatei (Endung .txt, .csv oder unbekannte Endung) zeigt den Dialog zum Textimport.

Alternativ können Sie die gewünschte Importdatei auch von ihrem Speicherort per Drag & Drop auf das InfoZoom-Fenster ziehen.

Der Inhalt dieses Dialogs findet sich auch im Dialog Datenquelle auf der Registerkarte Textdatei.

Dieser Dialog enthält Steuerelemente zur Beeinflussung des Textimports aus der gewählten Datei und ein Vorschaufenster mit den ersten Zeilen der zu ladenden Textdatei. Die aktuellen Einstellungen der Steuerelemente und die Zuordnung der Zellinhalte zu Attributen werden visualisiert. Die Daten aus der Textdatei werden erst dann in eine InfoZoom-Tabelle importiert, wenn Sie auf OK klicken.

Die Visualisierung in der Vorschau umfasst im Normalfall:

  • Feldnamen der Datenquelle erscheinen in fetter und roter Schrift.

  • Daten beginnen unter (bzw. rechts von) der roten Line.

  • Grenzen zwischen den Feldern werden durch schwarze Linien angezeigt.

  • Trennzeichen selbst werden unterdrückt (nicht angezeigt).

  • Felder werden untereinander angeordnet.

  • Leerzeichen werden (wie andere Zeichen) weiß unterlegt.

  • Steuerzeichen werden visualisiert.

  • Leere Zellen werden durch ein schmales weißes Rechteck angezeigt.

  • Nicht vorhandener Bereich ist grau unterlegt.

  • Überlesene Zeilen werden mit grauer Schrift angezeigt.

  • Zeilennummern am linken Rand

  • Lineal mit Spaltennummern bei der Auswahl Feste Spaltenbreiten

  • Art des Zeilenumbruchs bei der Auswahl Feste Spaltenbreiten

InfoZoom versucht zunächst die Textkodierung zu erraten und voreinzustellen. Dann versucht InfoZoom das Trennzeichen (aus der Liste der gängigsten Trennzeichen) zu erraten und ebenfalls korrekt voreinzustellen. Das gelingt nur, wenn in den ersten beiden Zeilen gleich viele Trennzeichen vorkommen. Das Texterkennungszeichen, mit dem Zellen eingeschlossen werden können, wird beim Raten nicht beachtet. Die Vorschau enthält nur die ersten 500 Zeilen der Datei und die Zeilen werden in der Vorschau gekürzt, wenn sie mehr als 30.000 Pixel (rund 4.500 Zeichen) lang sind. (Für den Textimport dagegen werden natürlich alle Zeichen der Datei gelesen und beachtet.)

Mit folgenden Steuerelementen können Sie den Textimport beeinflussen:

Textkodierung

InfoZoom kann aus Textdateien im ANSI-Format oder Unicode lesen.

Bei ANSI-Dateien wird zunächst die Codepage Westlich angenommen, das heißt, dass die Zeichen im Standard Windows-1252, auch CP1252 genannt, vorliegen. Durch Umschalten des Zeichensatzes können andere Codepages zum Beispiel mit kyrillischen oder griechischen Zeichen eingestellt und im Vorschaufenster visualisiert werden. InfoZoom wandelt die Zeichen beim Einlesen in die zugehörigen Unicode-Zeichen um.

Bei Unicode-kodierten Dateien können Sie unter folgenden Möglichkeiten wählen:

  • UTF-8

  • UTF-16 Little Endian (auch als Unicode bezeichnet)

  • UTF-16 Big Endian

Anordnung der Datensätze (Zeilen)

Jede Zeile enthält ein Objekt: Wählen Sie diese Option, wenn die Werte eines Objektes jeweils in einer Zeile vorliegen. Falls Feldnamen in der Datei vorhanden sind, werden diese vor den Daten in einer eigenen Zeile erwartet. Diese Anordnung ist üblich und eignet sich auch für sehr große Dateien mit vielen Objekten, also Zeilen. In der Vorschau signalisiert eine waagerechte rote Linie den Beginn der Daten. InfoZoom erwartet in allen Zeilen gleich viele Felder, toleriert aber Abweichungen. Damit der Benutzer prüfen kann, ob der Import wie gewünscht verlaufen ist, erhält der Benutzer beim Datenimport selbst folgende Warnung, falls eine Zeile zu wenig Felder enthält:

Die Meldung besagt also, dass für den fehlenden Wert ein leerer Attributwert verwendet wird. Weitere fehlende Werte werden nicht mehr gemeldet, aber ebenso behandelt.

Sollte eine Zeile zu viele Werte enthalten, dann erfolgt diese Warnung:

InfoZoom erstellt also ein neues Attribut und weist mit dieser Meldung daraufhin. InfoZoom nimmt für die folgenden Zeilen an, dass für das neue geschaffene Attribut ebenfalls Werte vorliegen und meldet gegebenenfalls, wenn das nicht der Fall sein sollte. Dadurch kann man leichter beurteilen, ob nur eine Zeile ein Feld zu lang war oder ob Felder fehlen. Das neue Attribut erhält für die vorherigen Objekte leere Attributwerte.

Anordnung der Datensätze (Spalten)

Jede Spalte enthält ein Objekt : Bitte wählen Sie diese Anordnung, falls Objekte in Spalten vorliegen. Falls Feldnamen vorhanden sind, müssen diese immer als erstes in jeder Zeile enthalten sein. Eine senkrechte rote Linie zeigt in der Vorschau: Rechts von ihr beginnen die Daten. Hier werden beim Import der Daten keine Warnungen über fehlende Werte erzeugt. Fehlende Werte werden durch einen leeren Attributwert repräsentiert und wenn mehr Werte vorliegen werden neue Objekte eingefügt, die in den bisherigen Attributen ebenfalls leere Attributwerte erhalten. In dieser Anordnung ist die Einstellung Feste Spaltenbreiten und das Überlesen von Zeilen nicht möglich, daher sind die entsprechenden Kontrollelemente inaktiv. Sie können lediglich einstellen, ob Feldnamen vorliegen oder nicht.

Zeileneinteilungen

Feldnamen: Die Importdatei kann in einer bestimmten Zeile Feldnamen enthalten, bzw. bei Jede Spalte enthält ein Objekt am Anfang einer jeden Zeile. In der Beispieltabelle "Autos" sind das ID, Marke, Modell, etc. Diese Feldnamen werden in der InfoZoom-Tabelle zu Attributnamen. Falls Sie diese Option ausschalten, generiert InfoZoom beim Import die Namen Attribut1, Attribut2, etc. Wenn Sie die Option einschalten, dann werden die Feldnamen in der Vorschau in Rot und fett angezeigt und (beim erstmaligen Import) so übernommen. Beim Nachladen von Daten werden die Feldnamen aus der Importdatei mit den gespeicherten Feldnamen in der InfoZoom-Tabelle abgeglichen. Das Verfahren wird im Kapitel Namen importierter Felder anzeigen genau beschrieben.

Feldnamen in Zeile: Hier können Sie die Zeilennummer angeben, in der die Feldnamen in der Datei stehen. Standardmäßig werden sie in der ersten Zeile erwartet. Wenn Sie hier eine höhere Zahl eingeben, dann werden die Zeilen vor dieser Zeile in der Vorschau in grauer Schrift angezeigt und beim Import ignoriert, also überlesen. In der Vorschau wird die eingestellte Zeile in roter und fetter Schrift dargestellt. Die Daten können nur in späteren Zeilen stehen. Falls Sie hier eine Zahl eingeben, die größer ist als die Zahl hinter Daten ab Zeile, dann wird die Zahl dort entsprechend erhöht.

Daten ab Zeile: Hier können Sie die Zeilennummer angeben, ab der die Daten folgen. Standardmäßig ist dies die Folgezeile hinter der Zeile mit den Feldnamen bzw. die erste Zeile. Sie können auch eine größere Zeilenzahl eintippen. Die Zeilen davor (außer der Zeile mit den Feldnamen, falls eingeschaltet) werden in der Vorschau in grauer Schrift angezeigt und beim Import ignoriert, also überlesen. Geben Sie eine zu kleine Zahl ein, so wird diese entsprechend korrigiert. In der Vorschau wird der Beginn der Daten durch eine horizontale rote Linie angezeigt. Diese rote Linie ist auch mit der Maus verschiebbar.

Anzahl Datensätze

Die Anzahl der Datensätze, die in InfoZoom importiert werden, können Sie begrenzen. Dazu aktivieren Sie das Kontrollkästchen Anzahl Datensätze und erfassen die gewünschte maximale Anzahl im nebenstehenden Feld.

Spaltenerkennung

Mit Trennzeichen: Wählen Sie diese Möglichkeit, wenn die Felder in der Textdatei durch ein eindeutiges Trennzeichen, zum Beispiel Komma, Semikolon oder Tabulator, von einander getrennt sind. Das Trennzeichen selbst und ein so genanntes Texterkennungszeichen können darunter ausgewählt werden:

Trennzeichen: Hiermit kann ein Feldtrennzeichen eingestellt werden. Die Auswahlliste enthält bereits die gängigsten Trennzeichen, aber es kann auch ein beliebiges Trennzeichen mit der Tastatur eingetippt werden (nach Wahl von Anderes Zeichen oder wenn die Auswahl den Fokus hat). Es können hier keine Zeichenkombinationen gewählt werden, sondern nur einzelne Zeichen. Die Vorschau reagiert sofort auf einen Wechsel des Trennzeichens, indem es die Felder entsprechend anordnet und das Trennzeichen selber unterdrückt also nicht mehr anzeigt.

Texterkennungszeichen: Das Texterkennungszeichen erlaubt, dass Felder das Feldtrennzeichen oder auch Zeilenwechsel enthalten. Dazu muss das ganze Feld mit dem eingestellten Texterkennungszeichen eingeschlossen sein. Auch das verwendete Texterkennungszeichen kann in einem Feld vorkommen. Jedes Auftreten des Texterkennungszeichens muss dann innerhalb des Feldes verdoppelt werden. Sie haben die Wahl, ob Sie Doppelhochkomma ("), Einzelhochkomma (') oder gar kein Texterkennungszeichen verwenden wollen. In der Vorschau und beim Import werden die umschließenden Texterkennungszeichen unterdrückt, also entfernt. Es ist erlaubt, dass nur einige Felder in Texterkennungszeichen eingeschlossen sind. Beispiel: Das Feld 320i, "Sport Edition" soll sowohl das Feldtrennzeichen, also hier Komma, als auch das Texterkennungszeichen, also hier Doppelhochkomma, enthalten. So sollte es also in der Datei aussehen:

ID,Marke,Modell,Version,Baujahr,Preis,Kilometer 191109,BMW,3 Series,320i,2001,50000,22000 191110,BMW,3 Series,"320i, ""Sport Edition""",2001,60000,30000 191112,Mazda,MX-5,MX-5,1992,90000,60000 ...

Tipp: Stellen Sie die Spaltenerkennung vorübergehend auf Feste Spaltenbreiten um, wenn Sie im Vorschaufenster den exakten Inhalt der Datei (zumindest für den ausgegebenen Ausschnitt) sehen wollen. Anderenfalls unterdrückt InfoZoom im Vorschaufenster Feldtrennzeichen und Texterkennungszeichen, die es nicht als zu den Daten gehörig betrachtet hat.

Feste Spaltenbreiten: Wählen Sie diese Option, wenn Ihre Daten durch Auffüllen mit Leerzeichen in Tabellenform gebracht wurden oder wenn alle Felder konstante Längen haben, ohne dass sie durch ein spezielles Trennzeichen von einander separiert sind.

Spalten ermitteln: Hier können Sie zunächst die Spaltenbreiten von InfoZoom automatisch bestimmen lassen. Klicken Sie dazu auf die Schaltfläche Spalten ermitteln. InfoZoom verfügt über zwei Verfahren zur automatischen Bestimmung, die Sie hinter Ausrichtung der Daten umstellen können. Die Einstellung (linksbündig oder rechtsbündig ) wirkt sich beim nächsten Betätigen von Spalten ermitteln aus. Falls das automatische Verfahren zu einem guten Ergebnis führt, können Sie es als Ausgangsbasis verwenden. Falls nicht, können Sie die gesetzten Trennlinien durch Umschalten der Spaltenerkennung auf Mit Trennzeichen und wieder zurück auf Feste Spaltenbreiten wieder entfernen. Die automatische Ermittlung der Spaltenbreiten orientiert sich an den Leerzeichen in der Zeile der Feldnamen und der ersten Datenzeile.

Sie können durch Klicken in die Vorschau manuell Trennlinien zwischen den Spalten einfügen bzw. löschen oder vorhandene Trennlinien mit der Maus verschieben. Oben in der Vorschau erscheint ein Lineal, das Ihnen hilft, falls Sie Informationen über die Spaltenpositionen haben. Beim späteren Import werden führende und nachfolgende Leerzeichen aus allen Zellen entfernt. Dadurch entstehen automatisch leere Attributwerte aus Feldern, die keine anderen Zeichen als Leerzeichen enthalten (im Bild oben in der fünften Zeile für B oder in der sechsten Zeile für D). Beim Import wird gemeldet, falls eine Zeile zu wenig Felder enthält, also vor der letzten Trennlinie endet (im Bild oben in Zeile 7, nicht aber in Zeile 6). Zu viele Felder werden nicht gemeldet, da alle Zeichen rechts der letzten Trennlinie dem letzten Attribut zugeordnet werden (siehe Zeile 5).

Tipp: Falls die erste Datenzeile nicht typisch ist, können Sie die Spaltenbreiten anhand einer anderen, typischen Zeile ermitteln lassen, indem Sie die erste Datenzeile vorübergehend ändern. Tippen Sie dazu die entsprechende Zeilenzahl in das Feld Daten ab Zeile ein oder verschieben Sie die rote Line entsprechend nach unten. Dann klicken Sie auf Spalten ermitteln. Danach stellen Sie wieder die korrekte erste Datenzeile ein. Im Beispiel oben werden die Spalten besser automatisch bestimmt, wenn man die vierte Zeile benutzt, da in der dritten Zeile das Wort "drei" verrutscht ist. Die Trennlinie zwischen A und B musste aber hier dennoch manuell gesetzt werden, da keine Leerzeichen zur automatischen Bestimmung dienen konnten.

Senkrechte Striche (|): Hier können Sie bestimmen, wie in den Daten enthaltene senkrechte Striche interpretiert werden.

Visualisierung

In der Vorschau des Textimports werden alle druckbaren Zeichen (Buchstaben, Ziffern, Satzzeichen, etc.) in schwarzer Schrift auf weißem Hintergrund dargestellt. Steuerzeichen und andere nicht druckbare Zeichen (Sonderzeichen) werden in der Vorschau mit blauen Ersatzzeichen auf dunkelgrauem Grund angezeigt. Zum Beispiel bedeutet der blaue Buchstabe "G" in der dritten Zeile im Bild oben, dass an dieser Stelle der Bell-Character (Code \u0007) enthalten ist. Druckbare Zeichen, für die der verwendete Zeichensatz über kein Schriftzeichen verfügt, werden durch ein leeres Rechteck ersetzt. Bereiche ohne Inhalte sind durch leere, hellgraue Flächen zu erkennen.

Bei verschiedenen Sonderzeichen bestimmt die Einstellung zur Spaltenerkennung, wie die Sonderzeichen dargestellt werden:

Feste Spaltenbreiten: Wenn in der Vorschau Feste Spaltenbreiten eingestellt ist, dann werden Steuerzeichen für den Zeilenumbruch nicht dargestellt, sondern interpretiert. Alle anderen Sonderzeichen werden anhand der Ersatzzeichen dargestellt. Die Art des Zeilenumbruchs wird durch folgende Symbole am Zeilenende angezeigt:

  • bedeutet Wagenrücklauf (carriage return CR, Code \r) - üblich bei Apple bis MacOS 9

  • bedeutet Zeilenvorschub (line feed LF, Code \n) - üblich in UNIX und bei Apple ab MacOS X

  • steht für die Zeichenfolge Wagenrücklauf gefolgt von Zeilenvorschub (CR LF - üblich unter MS-Windows)

Die Einstellung ist auch geeignet, wenn Sie den Inhalt einer Textdatei genau analysieren wollen, da alle Sonderzeichen dargestellt werden. Für den eigentlichen Import können Sie dann ggf. eine andere Einstellung festlegen.

Spaltenerkennung mit Trennzeichen: Wenn in der Vorschau Spaltenerkennung mit Trennzeichen eingestellt ist, dann werden folgende Zeichen nicht dargestellt, sondern interpretiert:

  • das aktuell eingestellte Trennzeichen für Spalten, zum Beispiel das Tabulatorzeichen,

  • das ggf. eingestellte Texterkennungszeichen, zum Beispiel das Doppelhochkomma

  • Steuerzeichen für den Zeilenumbruch, also normalerweise Wagenrücklauf gefolgt von Zeilenvorschub (CR+LF)

Ausnahme: Falls eines dieser Zeichen durch das aktuell eingestellte Texterkennungszeichen in einer Zelle vorkommt, dann wird es auch dargestellt. Falls es sich dabei um ein Sonderzeichen handelt, wird es durch das Ersatzzeichen dargestellt. Kommt zum Beispiel in einer Zelle ein Zeilenumbruch vor, dann wird das durch "MJ" (bzw. durch eines dieser beiden Zeichen) angezeigt.

Eine Besonderheit gilt für den Null-Character (Code \u0000). Er wird in der Vorschau als "@" (At-Zeichen) dargestellt, beim Datenimport aber aus technischen Gründen in das Zeichen "END OF TEXT" (Code \u0003) umgewandelt. Eine InfoZoom-Tabelle kann keinen Null-Character enthalten.

Nach dem Textimport werden die Steuerzeichen in der Tabelle mit dem Ersatzzeichen dargestellt, das auch in der Vorschau verwendet wird. Alternativ können die Steuerzeichen als Escape-Sequenzen angezeigt werden. Dazu können Sie den Anzeigemodus für Sonderzeichen wechseln (Klick auf die Schaltfläche Sonderzeichen in der Registerkarte Ansicht, Gruppe Arbeitsbereich). So wird z.B. der Bell-Character (Ersatzzeichen "G") mit "\u0007" angezeigt.

Siehe auch: