Text and Data Mining (TDM) bezeichnet verschiedene Verfahren, um grosse Mengen von Texten oder Daten zu durchsuchen und auszuwerten. Mithilfe computergestützter Analyseverfahren werden meist unstrukturierte Daten zunächst systematisch und maschinenlesbar aufbereitet und schliesslich automatisiert auf Muster, Trends und andere forschungsrelevante Zusammenhänge hin untersucht.
Bei der Nutzung von urheberrechtlich geschützten Materialien wie z.B. Texte, Bilder oder audiovisuelle Medien als Datenquelle für TDM müssen rechtliche als auch technischen Nutzungsbedingungen beachtet werden. Weboberflächen der jeweiligen Anbieter sind in der Regel nicht geeignet, grosse Datenmengen direkt herunterzuladen.
Viele Verlage verfügen über allgemeine Regelungen zum Einsatz von Text- und Datamining bei ihren Publikationen. Dort finden sich häufig auch Informationen zu Schnittstellen und deren Nutzung (Registrierung, Vorgabe für Lade- und Download-Raten etc.). (Liste nicht abschliessend).
Wenn Sie die von uns lizenzierten Zeitschriften und Datenbanken für TDM verwenden möchten, kontaktieren Sie uns bitte. Wir informieren Sie über die Rechtslage bzw. die konkrete Lizenzbestimmung für das von Ihnen ausgewählte Material. Bitte beachten Sie außerdem:
Viele Lizenzgeber verbieten das automatisierte, massenhafte Herunterladen von Pdf-Dateien von ihren Portalen per Crawler, Script, Bot etc. Bevor Sie einen derartigen Massendownload durchführen, nehmen Sie bitte mit uns Kontakt auf. Dieses gilt insbesondere für die Datenbankangebote von Factiva und Wiso-Net.
Neben lizenzierten Inhalten gibt es auch frei zugängliche Datenbanken, welche den Einsatz von TDM erlauben (Liste nicht abschliessend):
Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie | Volltext
Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin | Volltex
Chronicling America: Historic American Newspapers
Sammlung digitalisierter historischer Zeitungen aus den USA aus den Jahren 1789 bis 1924 | Volltext
Kostenloser, verlagsübergreifender Dienst der Firma CrossRef (u. a. AIP, APA, APS, Elsevier, HighWire Press, Springer, Taylor&Francis, Walter de Gruyter, Wiley) zur Metadatenabfrage. Neben dem Zugriff auf OA-Inhalte können teilweise auch lizenzierte Inhalte über dieses Tool bezogen werden. | Metadaten
Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen | Volltext
Data-for-Research: Umfangreiche Korpora können aus den JSTOR Archive Collections sowie den frei verfügbaren Inhalten der Dienste JSTOR und Portico zusammengestellt werden.
Mit Constellate steht eine Textanalyse-Plattform zur Verfügung, über welche Metadaten, Volltexte und N-Gramme heruntergeladen und Daten visualisiert werden können. Daneben bietet Constellate eine Reihe von Tutorials zum Umgang mit Python und Natural Language Processing (NLP) für die Digital Humanities an. Persönlicher Account erforderlich sowie Zugriff via Campusnetz für den Einbezug nicht-freier Dokumente. | Volltext (Lizenz beachten)
Metadaten und einige Volltexte der New York Times von 1851 bis in die Gegenwart | Metadaten
Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag | Volltext
Es gibt eine grosse Anzahl frei verfügbarer Korpora und Tools, und die Liste ist keinesfalls vollständig, so ist hier auch die Sammlung frei verfügbarer APIs für die computergestützte Forschung der MIT Libraries zu nennen.
Kommentare