Low-angle photography of a metal structure

Abstract metal structure

"Low-angle photography of a metal structure" CC0 Autor:in: Alina Grubnyak

Nachhaltige Archivierung, Erschließung, Bereitstellung dynamischer Daten aus sozialen Medien - Twitter und danach

Tagung 19.–20. März und Datasprint 21.–22. März 2024 in der Deutschen Nationalbibliothek (Frankfurt am Main)

Soziale Medien sind Datenquelle und Gegenstand für unterschiedliche Forschungsansätze in den Geistes- und Sozialwissenschaften, in der Informatik und in den Natur- und Lebenswissenschaften. In ihrer historischen Entwicklung sind sie Teil des digitalen Kulturerbes, für das eine ausdifferenzierte institutionelle Archivierung und Dokumentation erst in Ansätzen existiert, nicht zuletzt aufgrund der medientechnischen, ökonomischen, sozialen und ästhetischen Besonderheiten. Dadurch sind Forschung, Forschungsinstitute und Kulturerbeeinrichtungen im Hinblick auf die Archivierung, Bereitstellung und Nachnutzung vor vielfältige Probleme gestellt. Beispielhaft zeigt sich dies an Twitter (inzwischen "X"). Die Monetarisierung des plattformeigenen Archivs, Teil des laufenden Umbaus der Plattform, hat zu einschneidenden Konsequenzen für die Forschung und Archivierung geführt. Während flexible Programmierschnittstellen und Zugriffsmöglichkeiten bis Anfang 2023 zu einem Boom von Forschungsarbeiten geführt haben und die Erstellung umfangreicher Sammlungen ermöglichten, wurde der Zugang für Forschung und Archivierung seitdem stetig erschwert.

Die Archivierung, Erschließung und Bereitstellung dynamischer Daten aus sozialen Medien ist mit Problemstellungen konfrontiert, die Forschende, Forschungseinrichtungen, Bibliotheken und Archive gleichermaßen betreffen, und für die im besten Fall gemeinsam Lösungsansätze entwickelt werden sollten. Dies erfordert umfassende Anstrengungen, die nicht allein aus einer Datencommunity oder Disziplin heraus zu leisten sind.

Ziel der Tagung "Nachhaltige Archivierung, Erschließung, Bereitstellung dynamischer Daten aus sozialen Medien - Twitter und danach" am 19. und 20. März 2024 an der Deutschen Nationalbibliothek (Frankfurt am Main) war daher die Vernetzung von Bibliotheken, Archiven, Forschungsinstituten und Forschenden im deutschsprachigen Raum, die sich mit der Archivierung und nachhaltigen Nutzung von Daten und digitalen Objekten aus sozialen Medien beschäftigen.

Am 21. und 22. März folgte ein Datasprint zur Arbeit mit einem Langzeit-Korpus 'deutscher' Twitterdaten. Calls als auch allgemeine Teilnahme an Tagung und Datasprint stießen auf ein breites Interesse. Vor Ort fanden sich über 60, online zudem über 100 Teilnehmende ein. Dabei erstreckte sich die Bandbreite von Forschungsinstituten und Unis über Bibliotheken bis hin zu großen und kleinen Archiven auf nationaler wie kommunaler Ebene, wobei etwa ein Drittel der Teilnehmenden sich aus dem europäischen Umland dazuschaltete.

Realisiert werden konnten die beiden Programmteile an vier Tagen unter Federführung der Deutschen Nationalbibliothek und Kompetenzwerkstatt der UB der HU Berlin in einem interdisziplinär besetzten Programmkomitee und mit starker Beteiligung von GESIS nicht zuletzt durch Unterstützung und Kooperation der beteiligten Konsortien BERD@NFDI, KonsortSWD, NFDI4Culture, NFDI4Data Science, NFDI4Memory und Text+.

Nach der Begrüßung durch den Generaldirektor Frank Scholze und einer Einführung durch Claus-Michael Schlesinger und Britta Woldering für das Programmkomitee wurden am ersten Tag in zwei Panels zu großen Datensätzen und Archiven und Bibliotheken erste Problemaufrisse, Langzeitarchivierungsprojekte als auch Forschungsprojekte diskutiert. Beteiligt waren sowohl kommunale als auch nationale Bibliotheken sowie ausgewiesene Forschungsprojekte, die auch bei der Erhebung der Twitterkorpora beteiligt waren. Begleitet wurde diese Panels durch Posterpräsentationen, bei denen auch die beteiligten NFDI-Konsortien ihre Infrastrukturangebote und Communities darstellen konnten. Am zweiten Tag folgten Einblicke in Plattform- und Forschungsdesign, sowohl in methodischer, technischer als auch historischer Perspektive. Nachmittag und Schluss der Tagung konzentrierten sich auf Ethik und Recht in der Social Media-Forschung und im nachhaltigen Umgang mit den erhobenen Daten. So wurde die Abschlussdiskussion (unterstützt von einem offenen Etherpad) nach der Präsentation einer GESIS-Umfrage von der Debatte um den Digital Services Act (DSA) angeleitet. Daran schlossen sich zentrale Fragen zur LZA und Community-Beteiligung im Verbund mit Infrastruktureinrichtungen an und fokussierten damit auf Datenformate, Metadatenstandards als auch die selektive Archivwürdigkeit von Accounts und Plattformen. Begleitet wurden sie von juristischen als auch technischen Problemlagen vor allem im Datensammeln und Erschließen in Forschungsdatenzentren und lokalen Archiven, für die sowohl Recht als auch Plattformen Schranken setzen. Abschließend konnten weitere Initiativen aufgezeigt werden, sich in Mailinglisten, Foren oder auch der Fortsetzung dieser Tagung weiter mit der Social Media-Forschung und Twitterkorpora auseinanderzusetzen.

Die Korpora bildeten im zweiten Teil, dem Datasprint am 21. und 22. März, den Fokus. So konnten die Datensätze deutschsprachiger Tweets für einzelne Forschungsprojekte der Geistes-, Sozial- und Lebenswissenschaften an 14 Terminals erkundet, adaptiert und visualisiert werden. Hintergrund waren nicht nur die bereitgestellte massive Rechenkapazität und die durch die Mentor:innen vorbereiteten Datensets, sondern auch hier die rechtlichen Rahmenbedingungen, vor allem der Nachnutzung.

Zwei der bereitgestellten Korpora enthalten deutschsprachige Twitter-Daten von 2006–2011 und 2014–2023, das dritte Korpus stellt eine einprozentige Stichprobe aller Tweets über einen Zeitraum von zehn Jahren dar.

Korpus 1 (2006 – 2011) umfasst ca. 220 Millionen Tweets aus dem Zeitraum März 2006 (Start der Plattform) bis einschließlich Juni 2011. Gesammelt wurde mithilfe einer Suchfunktion, die alle von Twitter als deutschsprachig gelabelten Tweets umfasst. Das Korpus enthält zu jedem Tweet sämtliche über die Twitter-API verfügbaren Metadaten. Die Daten sind im JSONL-Format in mehreren Dateien gespeichert (line-oriented JSON, ein Tweet pro Zeile).

Korpus 2 (2014 – 2023) enthält ca. 2 Milliarden deutschsprachige Twitter-Daten, die in Echtzeit ohne inhaltliche Filterung gesammelt wurden. Gesammelt wurde nach dem Verfahren von Scheffler (2014), also Tweets, die deutsche Funktionswörter (‘und’, ’sie’, ‘dass’, …) enthalten, sowie einen Sprachfilter passieren. Neben dem Text wurden in dem Korpus nur einzelne Metadaten gespeichert, nämlich Tweet- und User-ID, Datetime des Postings, Reply-to-ID, sowie (für einen Großteil der Daten) die geografischen Koordinaten. Das Korpus besteht somit aus einem repräsentativen Anteil deutschsprachiger Tweets zwischen Juli 2014 und Mitte März 2023. Die Daten liegen als CSV-Dateien vor (ein Tweet pro Zeile, Metadaten spaltenweise).

Korpus 3 (2013 – 2023) besteht aus TweetsKB, ein Twitter-Archiv, das auf der 1% Random Sample API von Twitter basiert und insgesamt 14 Milliarden Tweets beinhaltet, inklusive der dazugehörigen Metadaten. Zu den in JSON-Format vorliegenden Texten und Metadaten werden auch annotierte Features wie Entitäten und Sentimente zur Verfügung gestellt.

Die veranstaltenden Institutionen stellten auf Anfrage zugeschnittene Subsets der Korpora zur Verfügung. Ebenso konnten bestimmte Derivate und Vorverarbeitungsschritte (z. B. Tokenisierung, N-Gramme) sowie Zusammenstellungen von Tweets (z. B. zu einem oder mehreren Hashtags, einer Liste von Accounts, Extraktion von Hashtags, Links etc.) erstellt werden. Mentor:innen von GESIS, der RUB, HU und DNB begleiteten mit ihren Kenntnissen der Datensätze und in verschiedenen Programmiersprachen die Forschungsvorhaben der Teilnehmenden.

Der Datasprint war nicht nur durch eine fast gemütliche Atmosphäre in den Schulungsräumen der DNB, sondern vor allem auch anregenden Diskussionen gekennzeichnet. Zentral waren die Projektpräsentationen, erster Ergebnisse sowie Diskussion der weiteren Schritte. Die Projekte umfassten Fragestellungen zu Politik, öffentlicher Meinung, journalistischem Framing, Informations- und Publikationswesen, LLMs bis hin zu eher künstlerisch-literarischen Ansätzen der frühen Computerlinguistik im Umgang mit Textkorpora.

Es ist vorgesehen, weitere Berichte und Projekte auf den Blogs von GESIS und DNB zu veröffentlichen.

Einige Präsentationen und Folien der Vorträge der Konferenz finden sich in einer Übersicht zum Programm auf dem DNB-Wiki.

Kontakt

Dr. Britta Woldering, Letitia Mölck, Deutsche Nationalbibliothek

twarchiv(at)dnb(dot)de

dnb.de/twittertagung

Programmkomitee

Stefan Dietze (Heinrich-Heine-Universität Düsseldorf, GESIS)
Dimitar Dimitrov (GESIS)
Christoph Eggersglüß (Philipps-Universität Marburg, NFDI4Culture)
Philippe Genêt (Deutsche Nationalbibliothek, Text+)
Tatjana Scheffler (Ruhr-Universität Bochum)
Claus-Michael Schlesinger (Universitätsbibliothek der Humboldt-Universität zu Berlin)
Britta Woldering (Deutsche Nationalbibliothek)

Kooperationspartner

Deutsche Nationalbibliothek
BERD@NFDI
KDH UB HU Berlin
KonsortSWD
NFDI4Culture
NFDI4Data Science
NFDI4Memory
Text+

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Josephine Kreutzer

Autor:in: Josephine Kreutzer

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Josephine Kreutzer

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Autor:in: Stephan Jockel

Fotos von Josephine Kreutzer und Stephan Jockel (CC-BY-SA 3.0DE)