Dateien für die Volltextsuche optimieren
Die Volltextsuche ist eine der wichtigsten Funktionen von Librario. Sie ermöglicht es Ihren Mitarbeitenden, schnell die relevante Fachliteratur zu finden. Damit die Suche optimal funktioniert, müssen die hochgeladenen Dateien durchsuchbaren Text enthalten.
Empfohlenes Dateiformat
Librario unterstützt verschiedene Dateiformate für die Volltextsuche. Wir empfehlen jedoch PDF-Dateien, da diese:
- Von allen gängigen Endgeräten (Laptop, Tablet, Smartphone) unterstützt werden
- Eine hohe Darstellungsqualität bieten
- Gut komprimiert werden können
- Sich einfach mit anderen teilen lassen
- Langzeitarchivierung ermöglichen
Häufige Probleme und Lösungen
Problem 1: Gescannte Dokumente ohne Texterkennung
Symptom: Die Datei enthält nur Bildseiten ohne durchsuchbaren Text. Librario zeigt die Warnung "Erkannter Text ist kurz. Bitte überprüfen Sie die Datei".
Lösung: Führen Sie eine Texterkennung (OCR) durch:
- Nutzen Sie ein OCR-Programm wie Adobe Acrobat Pro oder ABBYY FineReader
- Achten Sie auf folgende Einstellungen:
- Wählen Sie die richtige Dokumentsprache
- Verwenden Sie eine hohe Erkennungsgenauigkeit
- Aktivieren Sie die automatische Bildvorverarbeitung
- Prüfen Sie das Ergebnis stichprobenartig auf Fehler
Problem 2: Fehlerhafte Texterkennung
Symptom: Der erkannte Text enthält viele Fehler oder "Buchstabensalat". Dies erkennen Sie, wenn Sie Text aus der PDF kopieren oder die Suche unerwartete Ergebnisse liefert.
Lösung: Je nach Umfang der Fehler haben Sie zwei Optionen:
Bei wenigen Fehlern:
- Nutzen Sie die OCR-Korrektur Ihres Programms
- Korrigieren Sie problematische Wörter manuell
Bei vielen Fehlern:
- Entfernen Sie die vorhandene OCR-Textschicht
- Führen Sie die Texterkennung erneut durch
- Achten Sie auf eine gute Scanqualität der Vorlage
Problem 3: DRM-geschützte Dateien
Symptom: Die Datei ist mit einem digitalen Rechtemanagement (DRM) geschützt. Librario kann den Text nicht extrahieren.
Lösung:
- Fragen Sie bei Ihrem Anbieter nach einer DRM-freien Version
- Prüfen Sie, ob Ihre Lizenz alternative Nutzungsformen erlaubt
- Bei E-Books: Einige Anbieter bieten spezielle Bibliothekslizenzen an
Problem 4: Passwortgeschützte PDF-Dateien
Symptom: Die PDF-Datei ist mit einem Passwort geschützt.
Lösung:
- Öffnen Sie die Datei mit dem korrekten Passwort
- Exportieren Sie sie als neue, ungeschützte PDF
- Die meisten PDF-Programme bieten hierzu eine Option "Sicherheitseinschränkungen entfernen"
Best Practices für das Scannen
Wenn Sie neue Dokumente scannen, beachten Sie folgende Tipps:
Scanqualität:
- Mindestens 300 dpi für Textdokumente
- Graustufen oder Farbe je nach Vorlage
- Gerade Ausrichtung der Seiten
- Saubere Vorlagen verwenden
OCR-Optimierung:
- Wählen Sie die korrekte Dokumentsprache
- Aktivieren Sie die Bildvorverarbeitung
- Nutzen Sie vorhandene OCR-Profile für Ihren Dokumenttyp
- Bei mehrsprachigen Dokumenten alle relevanten Sprachen auswählen
Dateioptimierung:
- Komprimieren Sie die Dateien nach dem OCR
- Prüfen Sie die Qualität des erkannten Texts
- Speichern Sie wichtige Metadaten wie Titel und Autor
- Entfernen Sie leere Seiten
OCR-Software
Es gibt verschiedene OCR-Programme am Markt. Zum Beispiel:
- Adobe Acrobat Pro
- ABBYY FineReader
- Readiris
- PDFScanner für Mac
Wählen Sie die Software, die am besten zu Ihren Anforderungen passt. Wichtig ist vor allem eine gute Erkennungsqualität und einfache Bedienung.
Qualitätskontrolle
Prüfen Sie stichprobenartig die Qualität der Dateien für die Volltextsuche:
- Wählen Sie einige markante Begriffe aus dem Dokument
- Suchen Sie nach diesen in der PDF-Datei
- Prüfen Sie, ob die Fundstellen korrekt sind
- Testen Sie auch Begriffe mit Umlauten und Sonderzeichen
Bei Problemen wiederholen Sie die Texterkennung mit angepassten Einstellungen.
Feedback erwünscht
Die Optimierung von Dateien für die Volltextsuche ist ein komplexes Thema. Wir freuen uns über Ihr Feedback und Ihre Erfahrungen. So können wir diese Anleitung kontinuierlich verbessern.