Thematik und Zielsetzung des SPP

Ausgangslage

Menschen kommunizieren zunehmend über soziale Medien. Oft lassen sich die Nachrichten räumlich und zeitlich verorten – man spricht dann von Volunteered Geographic Information (VGI). Goodchild (2007) führt im Zusammenhang mit VGI das Konzept des menschlichen Sensors ein, wobei sich die „humans as sensors“ dadurch auszeichnen, dass sie nicht notwendiger Weise in einem beruflichen Kontext bzw. basierend auf einer formalen Qualifikation Daten erheben, die erfassten Daten aber kostengünstig sind, alternative, subjektive Sichtweisen beinhalten und eine große Verbreitung ermöglichen, d.h. eine hohe Skalierbarkeit aufweisen.

Resch (2013) variiert Goodchilds Konzept der menschlichen Sensoren durch die Begriffe „Collective Sensing“ (dt. kollektives Wahrnehmen) und „Citizen Science“ (dt. Bürgerforschung). Während im ersten Fall auf das Wissens- bzw. Aktivitätspotential einer großen Nutzergruppen zurückgegriffen wird, beispielsweise durch deren aktive Beteiligung bei der Geodatenerfassung, bedient sich „Citizen Science“ eher spezifischer Plattformen, die für konkrete Aufgaben der Bürgerbeteiligung entwickelt werden.

Hinzu kommen mehr und mehr Sensoren, die unsere Umwelt in immer größerem Detailgrad und Dynamik erfassen. Solche Sensordaten zeichnen sich durch eine partiell gegebene explizite Semantik aus, etwa die Werte eines Temperatursensors oder die Position eines Fahrzeuges. Sie enthalten darüber hinaus jedoch implizite Informationen, etwa über Verkehrsstaus. Sensordaten und Nutzerdaten haben gemein, dass sie Datenströme generieren und prinzipiell „vor Ort“-Daten darstellen. Weiterhin erzeugen sie die Daten typischerweise Ereignisgetrieben – d.h. sie liefern Hinweise darüber, dass etwas passiert ist.

Es stehen somit hoch aktuelle, räumlich und thematisch nahezu beliebig aufgelöste Daten bereit, in denen potentiell Informationen über die Umgebung, die Umwelt und das Verhalten der Nutzer implizit erhalten sind. Die Qualität der erzeugten Daten, die verschiedene Medientypen wie Texte, Bilder oder Videos beinhalten können, variiert.

Die Nutzbarkeit dieser Datenbestände für verschiedene Zwecke ist prinzipiell also gegeben, aufgrund des immensen Umfangs, der Heterogenität, der teilweise unbekannten Semantik und der oft niedrigen bzw. nicht gesicherten Qualität ist deren Verwendung in ihrer Rohform aber tatsächlich stark eingeschränkt, sodass ihre Potenziale bei Weitem noch nicht ausgeschöpft werden können. Ferner stellt ein Problem dar, dass eine freiwillige Nutzung nur dann langfristig gegeben sein wird, wenn auch der Persönlichkeitsschutz gesichert ist.

Daher muss eine angepasste Datenverarbeitung stattfinden, d.h. die Daten müssen geeignet aufbereitet, vorselektiert, interpretiert und ggfs. semantisch annotiert werden. Hierbei kommt der nutzer- und aufgabenorientierten Analyse und Visualisierung der Datenbestände eine besondere Rolle zu, die den Wert dieser Datenbestände verbreiten und vermitteln – quasi „sichtbar“ machen – kann. Diese Aufgabe fällt in das Kerngebiet der Kartographie und Geoinformatik sowie in den Bereich des (Geo-)Visual Analytics, die einige dieser bedeutenden Implikationen bisher noch nicht bzw. nicht in ausreichender Tiefe behandelt hat.

Zwingender Weise ist bei solchen Entwicklungen auch der soziale Kontext bzw. die Interaktion der Akteure untereinander sowie die tatsächliche Nutzung der Daten zu beachten. Hiermit ergibt sich die Notwendigkeit, das Feld des Social Computing einzubeziehen, das die Schnittstellen zwischen Sozialverhalten und Rechnersystemen betrachtet und sich mit Methoden und Systeme beschäftigt, die die kollektive Erfassung, Verarbeitung und Darstellung von nutzergenerierten Informationen unterstützen.

Das im Folgenden skizzierte Schwerpunktprogramm verfolgt daher das übergeordnete Ziel, durch eine interdisziplinäre Herangehensweise - mit den Bereichen Kartographie, Visual Analytics und Social Computing im Zentrum – Methoden und Werkzeuge zu entwickeln, um die Nutzbarkeit von VGI-Daten für verschiedene gesellschaftlich relevante Fragestellungen signifikant zu verbessern.

Herausforderungen

Die fehlende Nutzbarkeit von VGI-Daten hat eine Reihe von Ursachen, die zu den im Weiteren beschriebenen wissenschaftlichen Herausforderungen führen:

a) Nicht ausgeschöpftes Informationspotenzial: VGI-Daten beinhalten reichhaltige, zeitlich räumlich und thematisch hoch aufgelöste Informationen. Die Motivation für die Datenerfassung richtet sich sehr häufig nach aktuellen Ereignissen – womit ein Echtzeitpotenzial existiert, das allerdings für zeitkritische Anwendungen (z.B. Krisenmanagement) noch nicht hinreichend genutzt wird. Ein Beispiel hierfür ist das Elbe-Hochwasser im Jahr 2013, in dessen Zusammenhang ein sehr großer Umfang aktueller Daten durch Bürger (z.B. durch 157 Facebook-Gruppen) erhoben wurde. Die tatsächliche Zusammenführung sowie die Kommunikation an Rettungs- und Hilfsorganisationen konnten allerdings nicht realisiert werden (Kern und Zisgen, 2014). Darüber hinaus besitzen VGI-Daten oft auch einen Informationsgehalt, der über den aktuellen Erhebungszweck hinausgeht, i.d.R. aber nicht entsprechend extrahiert und damit nicht genutzt wird.
b) Große Datenströme: Die Daten liegen in hoher zeitlicher und räumlicher Auflösung vor, sowie in großer thematischer Variabilität. Mit dem großen Volumen sowie den hohen Erfassungs- und Verarbeitungsgeschwindigkeiten von VGI-Daten ergeben sich wichtige Herausforderungen bezüglich der Weitergabe bzw. Verteilung, der Analyse und letztlich der Visualisierung dieser Datenströme mit den speziellen Merkmalen raumzeitlicher Daten.
c) Zusammenspiel zwischen VGI und anderen (z.B. amtlichen oder Social Web) Datenquellen: VGI-Daten entstehen als neue Datenquelle – parallel oder ergänzend zu etablierten bzw. amtlichen Daten. Wie sich diese Daten bezüglich ihrer geometrischen, thematischen und zeitlichen Eigenschaften genau ergänzen und wie in sinnvoller Art und Weise kombiniert werden können, um Mehrwerte zu generieren, ist noch ungelöst.
Social Web Umgebungen unterscheiden häufig bezüglich des Typs der bereitgestellten Informationen (z.B. Fotos in Flickr, Videos in YouTube, Microblogs in Twitter) und Ausrichtung der Nutzer. Dies erfordert Methoden zur Verknüpfung und Data Mining von extrahierter Information aus unterschiedlichen Quellen, sowie geographische Visualisierungen, die unterschiedliche Typen von Daten auf sinnvolle Weise integrieren und zusammenfassen.
d) Komplexität von bewussten Akquiseprozessen: Umfangreiche Datenmengen aus VGI-Prozessen kommen insbesondere dann zu Stande, wenn sich das Bereitstellen von Daten beiläufig ergibt (man denke bspw. an verortete Flickr-Bilder: der Nutzer will nur etwas zeigen und wird zur Datenquelle) – oft als opportunistische Erfassung bezeichnet. Dabei ist dem Anwender nicht zwingend bewusst, in einen VGI-Prozess involviert zu sein. Bewusste Akquise von Geodaten (oder partizipatorische Erfassung) dagegen setzt oftmals ein nicht geringes Maß an Expertenwissen voraus (bspw. Beiträge zu OSM). Die Herausforderung besteht darin, die Hürde zur Bereitstellung hochqualitativer Geo-Information insoweit anzupassen, dass dies für den Anwender in einer intuitiven, evtl. auch spielerischen Bedienung eines im Idealfall bekannten Endgerätes resultiert. Jedoch darf sich ein beiläufiger Akquiseprozess nicht nachteilig auf die Qualität und Ausdrucksstärke der gesammelten Information auswirken.
e) Personalisierte und individualisierte Weitergabe von Geodaten: Zu beobachten ist eine weitgehende Abkehr von zentralen Strukturen beim Umgang mit VGI. Während sich frühe Ansätze oft durch eine zentrale Infrastruktur auszeichneten, an der Daten aggregiert werden (bspw. OSM), finden wir heute zunehmend multi-direktionale Datenkanäle vor. Geo-Information wird an unterschiedlichste Beteiligte in unterschiedlicher Form weitergegeben, die in wechselnden Beziehungen zur Informationsquelle stehen. Dabei unterscheidet sich sowohl Typ und Status des Empfängers als auch, davon abhängig, Detaillierungsgrad und Granularität der erhobenen und verbreiteten Daten. Zudem spielen auch Aspekte von Vertraulichkeit und Datenschutz eine Rolle.
f) Datenqualität und Vertrauenswürdigkeit: VGI-Daten werden durch Menschen mit unterschiedlichem privatem und fachlichem Hintergrund generiert. Die Qualität der Daten variiert zwangsläufig hinsichtlich Vollständigkeit, Genauigkeit, Granularität, Aktualität etc., wobei für unterschiedliche VGI-Datenquellen (z.B. OpenstreetMap, Geonames, Photodatenbanken, Microblogging) in Abhängigkeit von der Anwendung auch unterschiedliche Anforderungen bestehen. Methoden zur Beschreibung bzw. Evaluation der Qualität von VGI-Daten fehlen derzeit. Eng hiermit verknüpft ist die Vertrauenswürdigkeit der Daten und Datenquellen, die sich insbesondere im Kontext von VGI stellt. Hier besitzen Meta-Informationen, Nachverfolgbarkeit von Informationsflüssen, Reputation der Datenlieferanten, aber auch die Visualisierung von Unsicherheiten und Meta-Informationen eine wesentliche Bedeutung.
g) Konsistenz, Überblick und Informationsextraktion: Durch die Bereitstellung von Geodaten aus unterschiedlichen Quellen in unterschiedlichen Modalitäten wird ein Informationsmehrwert geschaffen, der für den Nutzer nicht zwangsläufig leicht zu überblicken ist. Über die Notwendigkeit geeigneter Visualisierungstechniken hinweg werden Mechanismen benötigt, die die Konsistenz aggregierter Daten sicherstellen, Daten bezüglich ihrer Relevanz für die gerade vorherrschende Aufgabe bewerten und eine aufgaben- und kontextspezifische Auswahl an Informationen bereitstellen.
h) Nutzermotivation für die Bereitstellung von Daten: Voraussetzung für erfolgreiche und flächenübergreifendes Data Mining und Analyse von Daten ist eine hinreichende Zahl von beitragenden Nutzern. Nutzer müssen jedoch erst überzeugt werden Daten bereitzustellen. Dies gilt sowohl für die aktive Bereitstellung von Daten (z.B. Photos, Videos, Kommentare, Annotationen) als auch die passive Bereitstellung (Erlaubnis zum Weiterleiten von Sensordaten, GPS Koordinaten). Dies erfordert die Entwicklung geeigneter Anreizsysteme, beispielswiese durch Gamification Techniken, stärkerer Nutzerbeteiligung und Interaktionsmöglichkeiten in Projekten, sowie Zugang zu neuen Technologien.
i) Datenschutz und Privatsphäre: Bei einer zunehmenden Anzahl von Beitragenden bzw. Nutzern von sozialen Medien stellt sich ein wachsendes Unbehagen darüber ein, dass die Daten für andere Zwecke genutzt werden, u.U. ohne dass hierfür eine explizite Erlaubnis besteht. Ob die aktuelle (und sich ständig weiter entwickelnde) Rechtsprechung den Anforderungen von Urheberrecht, Datenschutz bzw. Schutz der Privatsphäre aktuell gerecht wird, ist anzuzweifeln. Aus technischer Sicht ist zudem die Entwicklung geeigneter Methoden im Bereich des Privacy-aware Data Mining zur Anonymisierung von Nutzern notwendig.
j) Nicht ausgeschöpftes Demokratisierungs-Potenzial: E-Participation und E-Government soll eine Bürgerbeteiligung ermöglichen und die Transparenz staatlicher Planung erhöhen, um Konfrontation wie z.B. bei Stuttgart 21 künftig zu vermeiden. Viele kritische Vorhaben, z.B. beim Bau neuer Straßen, öffentlicher Einrichtungen oder Stromtrassen, können von Bürgern mit raumzeitlichen Daten beschrieben und um subjektive Eindrücke ergänzt werden. Hierbei bedürfen die Rolle und Bedeutung sozialer Medien für Demokratie und Partizipation weiterer Forschung, insbesondere unter Berücksichtigung sozialer Kontexte.

Bisherige Ansätze und Defizite

Im Folgenden wird der Stand der nationalen und internationalen Forschung - unter Berücksichtigung eigener Vorarbeiten der Antragsteller – skizziert. Hierbei erfolgt eine Betrachtung der für die Themenstellung erforderlichen drei Bereiche

Geodatenerzeugung und Geoinformationsgewinnung
Visualisierung raumbezogener nutzergenierter Daten
Sozialer Kontext der Erhebung, Analyse und Nutzung von VGI

Die Geodatenerzeugung und Geoinformationsgewinnung wurde traditionell durch amtliche Kataster- und Vermessungsämter sowie themenbezogene Fachreferate realisiert. Seit den 90ziger Jahren konnten sich beispielsweise für den Bereich der Fahrzeugnavigation auch kommerzieller Geodatenprovider etablieren. Mit der Gewinnung nutzergenerierter Geodaten im Kontext von Web2.0 auf Basis sozialer Netz und mobiler Anwendungen ist eine „dritter Weg“ der Erzeugung von Geodaten entstanden. Durch die Entwicklung von automatischen Verfahren der Gewinnung, Verarbeitung und Visualisierung nutzergenerierter Daten könnten diese gemeinsam mit amtlichen und kommerziellen Daten für Lösung raumbezogener Fragestellung und Entscheidungsfindung genutzt werden.

Aufgrund der unterschiedlichen Charakteristik der Daten, stellen sich hierbei Fragen der topologisch-geometrischen (Walter & Fritsch, 1999; Schulze et al., 2014; Dalyot et al., 2013) und ontologiebasierten, semantischen Datenintegration (Al-Bakri & Fairbairn, 2012; Lutz et al., 2009; Volz, 2005; Kieler et al., 2007), der Berücksichtigung unterschiedlicher Abstraktionsniveaus z.B. durch multiscale-Matching (Sester et al., 2014) und des Einflusses unterschiedlicher Erfassungssystematik (Anand et al., 2010). Während amtliche und kommerzielle Datenmodelle größtenteils im Voraus durch Spezialisten (top-down) entwickelt werden, unterliegen VGI-Daten einer dynamischen Modellierung durch tag-basierte Beschreibung, zu der ein breiter Nutzerkreis beitragen kann (bottom-up). Herausforderungen der Datenintegration beziehen sich sowohl auf topographische Datensätze wie z.B. OSM und ATKIS als auch auf Nutzung anderer z.B. text- und bildbasierter VGI-Datenquellen für raumbezogene Analyse und Entscheidungsfindung. In Hall et al. (2011) werden aus Bildunterschriften räumliche Informationen extrahiert. Eine Herausforderung stellt sich insbesondere dadurch, dass VGI-Daten oft nur als punktförmige Objekte vorkommen die über wenig Struktur und Kontext verfügen, die typischerweise für das Matching benötigt werden. Zur Georeferenzierung können daher punktförmige Objekte im Verbund bzw. in besonderen Konstellationen verwendet werden (Brenner, 2009; Haunert & Brenner, 2009).

Bisherige Forschungsarbeiten und prototypische Entwicklungen konzentrieren sich typischerweise auf die Geoinformationsgewinnung unter Verwendung jeweils einer VGI-Datenquelle. Defizite bestehen neben der Integration heterogener Datenquellen in der automatischen Ableitung von Georeferenzen aus VGI-Daten (Van Laere, 2013). Typischerweise werden hier Namensverzeichnisse von Geoobjekten (Gazetteers) verwendet, welche allerdings keine umgangssprachlichen Bezeichnungen enthalten (verwendet wird z.B. Elbflorenz für Dresden) und insofern kompliziert zu nutzen sind, als Ortsbezeichnungen vielfach Mehrdeutigkeiten aufweisen, z.B. Halle Neustadt, Neustadt in Sachsen, Neustadt bei Coburg. Bei der Extraktion von Georeferenzen aus textuellen VGI-Quellen können Ambiguitäten sowohl in der Form „geo/geo“ als auch „geo/nicht-geo“ auftreten. Im konkreten Beispiel des Hochwassers von 2013 in Dresden, als versucht wurde aus Facebook- und Twitterpostings eine Hochwasserkarte mit aktuellen ortsbezogene Lageinformationen abzuleiten, erfolgte die Ableitung der Georeferenzen auf Grund fehlender automatischer Verfahren ausschließlich manuell (Mildner, 2013). Die Ermittlung umgangssprachlicher oder lokaler Ortsbezeichungen (vernacular place names) wird in Jones et al., 2008 vorgestellt. Im EU-Projekt SPIRIT wurden eine räumliche Suchmaschine entwickelt, die solche Begrifflichkeiten ebenfalls indiziert und priorisiert (Jones et al., 2002).

Wichtiges Forschungsgebiet ist auch die Datenanreicherung von VGI-Daten, insbesondere die Ableitung von semantischen Informationen, sowie deren inhaltliche Kategorisierung. Neben deterministische Methoden unter Nutzung von Begriffshäufigkeiten (term frequency) und der Entwicklung von semantischen Ähnlichkeitsmaßen auf Basis von „Explicit Semantic Analysis / ESA“ (Gabrilovich und Markovitch, 2007; Chan et al., 2013) wurden insbesondere für die „Topic“-Modellierung wahrscheinlichkeitsbasierte Ansätze mittels „Latent Dirichlet Allocation / LDA“ (Blei, 2003) verwendet. Defizite bei der thematischen Kategorisierung und „Topic“-Modellierung bestehen in der fehlenden Einbeziehung von räumlichem und zeitlichem Kontext.
Wesentlich für die Nutzung von VGI ist auch die Ableitung von Qualitäts- und Vertrauensmaßen. Bisherige Untersuchungen zur Datenqualität konzentrieren sich hier vor allem auf OpenStreetMap-Daten mit Schwerpunkt auf Vollständigkeit von Straßennetz- und Gebäudedaten im Vergleich zu amtlichen bzw. kommerziellen Datenanbietern (Neis et al., 2011; Kunz et al., 2013). Mondzech und Sester (2011) schlagen vor, die Qualität von OSM-Daten bezogen auf die Nutzbarkeit in Anwendungen zu bewerten – in diesem Fall bezogen auf die Wegesuche. Ansätze zur Bewertung der Entstehungsgeschichte als Kriterium für Vertrauenswürdigkeit basieren auf der Realisierung des „viele Augen“-Prinzips wodurch Fehler oder Desinformationen mit Zunahme an Versionen korrigiert werden (Keßler & de Groot, 2013). Herausforderungen bestehen in der Übertragung von Reputationsmaßen aus dem Bereich nutzergenerierter Daten auf raumbezogene Datensätze und deren Erzeuger.

Die Visualisierung raumbezogener nutzergenierter Daten besitzt große Bedeutung für Analysezwecke, wenn einerseits wenig über Einflussfaktoren, sowie deren Zusammenwirken bekannt ist oder andererseits Hypothesen vorliegen und diese bestätigt werden sollen. Insbesondere große Datenmengen können durch sinnvolle Kombination von automatisch-statistischen Verfahren und interaktiver visueller Steuerung erschlossen werden. Bisherige Visualisierungsansätze, die beispielsweise im Schwerpunktprogramm „Scalable Visual Analytics“ entstanden sind, wären für geowissenschaftliche Fragestellungen und für Anwendung auf nutzergenerierte Daten anzupassen und weiterzuentwickeln. Hierbei ist insbesondere die Heterogenität der Daten, der Raumbezug und der zeitliche Kontext zu berücksichtigen.

Forschungspotential besteht in der Entwicklung und Kombination angepasster Visualisierungsmetaphern und –methoden insbesondere im Zusammenwirken mit kartographischen Darstellungen. Beispiele für Visualisierungsmethoden, die für Erschließung nutzergenierter Daten verwendet werden und sich von klassischen kartographischen Darstellungsformen unterscheiden, sind z.B. „georeferenzierte Wortwolken“ (Dinh-Quyen & Schumann, 2010; Hahmann & Burghardt, 2011), „mashups“ zur Kombination von Karte, Texten und Bildern; oder „verknüpfte Mehrfensterdarstellungen“ („multiple linked views“). Eine weitere Möglichkeit der Informationskommunikation und –visualisierung wurde durch Paelke et al. (2012), untersucht, wobei Routenbeschreibungen durch lokale Ortsbezeichner aus Wikipedia in Form von Tag Clouds angereichert wurden.

Da nutzergenerierte Daten vielfach auch in Form unregelmäßiger Datenströme zur Verfügung stehen, spielen Echtzeitvisualisierung und dynamische Darstellungen eine zunehmend größere Rolle in der Geovisualisierung. Dabei werden hohe Anforderungen an Automationsgrad und Performance bei der Ableitung der visuellen Darstellung gestellt. Ein gelungenes Beispiel einer angepassten Metapher zur dynamischen Darstellung klassischer Diagramm wurde unter dem Begriff der „visuellen Sedimentation“ von Huron et al. (2012) präsentiert. Herausforderungen in dynamischen, zeitlichen veränderlichen Darstellungen ist es, Methoden zu entwickeln, die Animation mit Nutzerinteraktion in sinnvoller Weise kombinieren.

Auf Grund der spezifischen Eigenschaften von VGI-Daten hinsichtlich variierender Qualität, Subjektivität, Datenredundanz, etc. besitzen Meta-Informationen und deren Visualisierung große Bedeutung. Als wichtiges Forschungsgebiet hat sich insbesondere die Visualisierung von Unsicherheiten etabliert (MacEachren et al. 2005). Existierende Methoden können hinsichtlich ihrer graphischen Ausprägung unterschieden werden zum einen in extrinsische Ansätze mit Verwendung zusätzlicher Objekte wie z.B. „noise annotation lines“ (Kinkeldey et al., 2014) zur Darstellung von Unsicherheit und zum anderen in intrinsische Ansätze mit der Nutzung von graphischen Variablen wie z.B. Farbsättigung, Textur oder Größe. Weiteres Ziel der Visualisierung kann es auch sein, die Variabilität graphisch zum Ausdruck zu bringen, welche natürlicherweise in nutzergenerierten Daten enthalten ist. Hierfür sind Visualisierungsmethoden im Rahmen eines ganz neuen Forschungsgebietes zu entwickeln, die Durchschnittsbildung und Aggregation mit Betonung ausgewählter Details verbinden. So könnten durch Visualisierung von Variabilität zusätzliche räumliche Informationsaspekte erschlossen werden.

In Webkarten werden nutzergenerierte thematische Informationen vielfach punkthaft repräsentiert. Bei Maßstabswechsel werden in Abhängigkeit von vordefinierten Filtern die Informationen ohne Berücksichtigung vom Nutzungskontext ausgeblendet. Multiskalige Visualisierungen könnten verbessert werden, durch die Entwicklung von Methoden der graphischen Abstraktion auf Basis von automatischen Generalisierungs¬verfahren und Content-Zoom (Bereuter et al., 2013). Ein Schwerpunkt sollte hierbei die Entwicklung von Echtzeitverfahren sein.

Eine Berücksichtigung des sozialen Kontexts der Erhebung, Analyse und Nutzung von VGI ist Gegenstand von Forschung auf dem Gebiet der sozialen Computersystemnutzung („Social Computing“). Beispiele für Methoden des Social Computing sind u.a. Kollaboratives Filtering, Auktionen, Spieltheorie, Sozialwahltheorie, Reputationssysteme oder Gamification.

Das Social Web bietet eine Vielzahl von geographischen Informationen wie Geo-Tags für Photos und Microblogs, Ortsnamen, die sich aus Textdaten extrahieren lassen, sowie Informationen über die Herkunft der Nutzer (Profilinformationen). Diese Information können für unterschiedliche Visualisierungen von Daten genutzt werden (Crandall et al., 2009; Clough et al., 2007; Luo et al., 2011). Durch geographische und zeitliche Clustering-Verfahren lassen sich zudem Information über die Existenz und Art von Ereignissen wie Wahlen, Sport-Events oder Naturkatastrophen extrahieren (Firan et al., 2010; Sakaki et al., 2010).

Auch im Bereich der Citizen Science (Hand, 2010) werden oft Techniken des Social Web mit Raum- und oder Zeitbezug eingesetzt, bspw. bei der Messung von Luftschadstoffen und Lärm (Becker et al., 2013). Aufgrund weiterentwickelter Sensorik ist auch die Erfassung von sozialer Interaktion außerhalb des (Social) Webs möglich geworden (Atzmüller et al., 2014).

Feedback aus dem sozialen Web ermöglicht zusätzlich Rückschlüsse über Urbane Entwicklungen (Naaman et al., 2012; Rios & Lin, 2013); und umgekehrt nimmt VGI Einfluss auf die Wahrnehmung der Betroffenen (Becker et al., 2013). Bei all diesen Ansätzen müssen, u.a. aufgrund der Möglichkeit, Nutzer zu lokalisieren auch Privacy Aspekte beachtet werden; eine Übersicht über diese Problematiken sowie unterschiedliche Techniken in diesem Zusammenhang, die beispielsweise auf Anonymisierung und Verschlüsselung basieren, bietet Vicente et al. (2011). Der Umgang mit personenbezogenen Daten im Social Web wird von Doerfel et al. (2013) diskutiert. Dezentrale Verarbeitung und Analyse bietet prinzipiell das Potential zur Verschleierung des Ortes und der Persönlichkeit (z.B. Duckham, 2012).

Forschungsarbeiten der Antragsteller in diesem Gebiet befassen sich mit der automatischen Organisation von Photos im Social Web nach Zugehörigkeit zu unterschiedlichen Events (Firan et al., 2011). In Fisichella et al. (2010) wird eine Methode zur automatischen Erkennung von Epidemien vorgestellt, die auf der Analyse von Microblogs basiert. Desweiteren wurde ein Ansatz zur Ableitung von emotionalen Karten aus den Metainformationen der Bilddatenbanken „Flickr“ und „Panoramio“ entwickelt (Hauthal & Burghardt, 2014). Hierbei werden Sentiment und Erregungswerte auf der Basis emotionaler Wortlisten zugeordnet und in Karten visualisiert. Eine Extraktion von räumlich-zeitlichen Mustern georeferenzierter Emotionen erfolgt in Burghardt et al. (2014).

In Siersdorfer et al. (2010, 2014) werden Kommentare und dazugehörige Ratings im Social Web unter Berücksichtigung von Aspekten wie Sprache, Sentiment, und thematische Abhängigkeiten analysiert. Betrachtete Anwendungen umfassen das Mining nach kontroversen Themen sowie die Vorhersage von Ratings für Kommentare. Die Arbeit von Demartini et al. (2011) beschreibt eine Methode zur automatischen Extraktion von politischen Trends in der Blogosphäre. Techniken zur Sentiment-Analyse werden mit Time Series- und Aggregationsmethoden kombiniert, um die temporale Entwicklung von politischen Meinungen zu erfassen. Die Arbeit von Georgescu et al. (2013) analysiert Updates von Artikeln in der sozialen Online-Enzyklopädie Wikipedia. Ereignisse wie Wahlen, Epidemien, oder Naturkatastrophen führen häufig zu verstärkter User Aktivität; dies wird zur Identifikation und Extraktion von Informationen über solche Ereignisse genutzt.

Zielsetzung

Das Schwerpunktprogramm soll wissenschaftliche Grundlagen für die Hebung des Potentials von VGI- und Sensordaten bereitstellen und damit die Basis für die Lösung einer Vielzahl gesellschaftlich relevanter Problemstellungen schaffen. Ihr besonderes Potential liegt in drei wesentlichen Eigenschaften:

Echtzeitdaten
Ereignis-getriebene Daten
Subjektive Daten – d.h. „nah“ am Menschen und seinen Bedürfnissen

VGI stellen hochauflösende Sensoren für Umgebungsinformationen, räumliche Prozesse und Veränderungen dar. Solche Daten können mit traditionellen Mess- und Erfassungsmethoden wie amtlichen Daten oder flächendeckenden Satellitendaten nicht gewonnen werden. Daher können sie potentiell eine wichtige Lücke schließen. Die genannten Eigenschaften erfordern allerdings eine wissenschaftliche Bearbeitung, so dass sie vorteilhaft genutzt werden können, etwa die Bearbeitung von unstrukturierten, heterogenen Daten-strömen und die Objektivierung der Daten sowie Persönlichkeitsschutz. Ziel ist es daher, im Verbund verschiedener Disziplinen, Methoden zur Lösung dieser Probleme zu entwickeln. Die nachfolgende Abbildung skizziert die wesentlichen Themenfelder Geographische Informationsgewinnung, visuelle kartographische Kommunikation und Social Computing mit ihren Wechselwirkungen.

sppvgi grafik

Forschungsarbeiten der geographischen Informationsgewinnung zielen in zweierlei Richtung. So sollen Ansätze entwickelt werden die sich mit globalen Fragestellungen beschäftigen und hierfür weltweite Datensätze nutzen bzw. verfügbar machen. Aufgaben bestehen beispielsweise im Bereich der Homogenisierung, Datenanreicherung und Maßstabsangleichung. Andererseits besitzen nutzergenerierte Geodaten, durch ihren Detailreichtum und lokale Prägung Potential für Lösung regionaler Herausforderungen. Hierfür braucht es Ansätze die Spezifika und Variabilität berücksichtigen, sowie mit Heterogenität und Unsicherheit umgehen können. Da Menschen über Sprache bzw. Texte kommunizieren, besitzen Methoden der Dateninterpretation, semantischen Analyse und Computerlinguistik eine große Bedeutung. Ziel ist es, Softwarebibliotheken und Webdienste für Automatisierung von Teilaufgaben zu entwickeln, z.B. zur Sprachprozessierung, Datenintegration und –analyse, Datenreduktion und Generalisierung.

Forschung auf dem Gebiet der geovisuellen Analyse und kartographischen Kommunikation zielt auf die Entwicklung angepasster Darstellungs- und Interaktionsmethoden, die automatisiert mit Datenströmen umgehen können, verschiedene Medientypen (Text, Bild, Video) integrieren und Information in unterschiedlichen Abstraktionsstufen (Zoom) verfügbar machen. Volunteered Geographic Information zeichnet sich durch eine intensive Einbindung von Menschen in den Prozess der Informationserzeugung, -gewinnung und -vermittlung aus. Ziel im beantragten Schwerpunktprogramm ist deshalb auch die menschlichen Einflussfaktoren und soziale Softwaresystemnutzung ins Zentrum der Untersuchung zu stellen. Hierbei stellen sich Fragen des Schutzes der Privatsphäre, der Bewertung von Vertrauenswürdigkeit, sowie Modellierung von sozialem Kontext und Nutzerverhalten. Im Ergebnis sollen exemplarische, übertragbare Implementierungen von Workflows und Mechanismen zum Schutz der Privatsphäre entwickelt werden, um nutzergenerierte, raumbezogene Daten durch verschiedene Anwendungen in Wert zu setzen. Ziel ist es, in den einzelnen Projekten verschiedene Nutzergruppen für Test und Evaluierung einzubeziehen, z.B. Stadtentwicklungsprojekten, Erfassung von Umweltfaktoren wie Lärm oder Luftqualität, Gewinnung thematischer Informationen für barrierefrei Routenplanung.

Potentielle Anwendungsfelder

Aufgrund der hohen thematischen, zeitlichen und räumlichen Auflösung sowie der kostengünstigen und großen Verbreitung werden VGI-Daten bereits heute in vielen Anwendungsbereichen – wenn i.d.R. auch nur punktuell und oft nicht effizient – eingesetzt. Beispielhafte Anwendungsbereiche ohne Anspruch auf Vollständigkeit, die von den Entwicklungen in diesem Schwerpunktprogramm profitieren können, sind:

a) Katastrophenmanagement und Bevölkerungsschutz: Das Bundesamt für Bevölkerungsschutz und Katastrophenhilfe betont die „Nutzung von Volunteered Geographic Information (VGI) und moderner Technologien zur Verbesserung des Lagebildes“ (Kern & Zisgen, 2014). Im Zusammenspiel mit Rettungs- und Hilfsorganisationen können beispielsweise aktuelle Hinweise zur Gefahrenlage, Standorte mit Bedarf an Hilfskräften, Material- und Verpflegungsstellen, Evakuierungszonen, Straßensperrungen oder privater Hilfsbedarf ausgetauscht – und idealer Weise koordiniert - werden. Das Hochwasser 2013 an Elbe und Donau hat gezeigt, welche Rolle soziale Netzwerke und nutzergenerierte Geodaten für Selbsthilfe besitzen (157 Facebook-Gruppen wurden in dieser Zeit zum Stichwort „Hochwasser“ gegründet).
b) Epidemiologie: Bedingt durch heterogene Bestandsgrößen sowie verteilte Zuständigkeiten gibt es zu vielen Parametern der Tierepidemiologie keine (z.B. über Landkreise hinausgehenden, zusammenhängenden) Datengrundlagen. Eine Behebung dieses Defizits durch VGI-Daten erscheint ebenso möglich wie für Sachverhalte in der Humanmedizin (Kartierung des Auftretens von Ebola, Salmonellen, etc.).
c) Klima und Umwelt: Existierende globale Landbedeckungsdatensätze wie die GLC-2000, MODIS und GlobCover, die u.a. auf Basis von Luft- und Satellitenbildern entstanden sind weisen zum Teil sehr große Unterschiede auf. Im Geo-Wiki Projekt sollen mit Hilfe von Freiwilligen Vor-Ort-Informationen und georeferenzierte Photos generiert werden, die es ermöglichen Landbedeckungsdaten korrekt zu klassifizieren und zu annotieren (Fritz et al., 2012). Auch auf kleinräumigen Bereich sind ehrenamtlich erhobene Umweltdaten seit vielen Jahren wichtiger Bestandteil des Umweltmonitorings. Besonders prominente Beispiele sind die avifaunistischen und pflanzenphänologischen Erhebungen.
d) Verkehrsplanung: Im Kontext der Verkehrsplanung sind Netzdaten, bei denen OpenStreetMap-Daten heute ein de facto- Standard darstellen, ein elementarer Input für Verkehrssimulationsmodelle. Daten zu Verkehrsflüssen bzw. zu Störungen oder Schäden im Verkehrsnetz werden bisher nur punktuell bzw. individuell erhoben – aber auch hier ist ein steigendes Datenvolumen und eine stärkere Einbindung in Planungsabläufe zu erwarten.
e) Sozialgeographie: Gerade durch die hohe thematische und räumliche Dichte von VGI-Daten ergeben sich fundierte Datengrundlagen für die Untersuchung kleinräumiger Aspekte, z. B. die Erschließung günstiger Versorgungsmöglichkeiten für unterschiedliche Zielgruppen (Ernährung, Medizin, Freizeit, Begleitung, etc.), die Kartierung von Hindernissen im städtischen Raum aus der Perspektive von Behinderten, älteren Menschen, Kindern (Stichwort Barrierefreiheit) oder das Nachzeichnen der Wege von Obdachlosen, Kindern, Jugendlichen im öffentlichen Raum und dabei stattfindender Nutzungs- und Aneignungsweisen.
f) Sozialwissenschaften: Die verstärkte Erhebung und Nutzung von VGI-Daten hat eine Reihe von gesellschaftlichen Implikationen, u.a. hinsichtlich einer (propagierten) sozialen Öffnung, der Vermittlung alternativer Weltbilder und Sichtweisen oder der sozio-ökonomischen und sozio-politischen Konsequenzen durch die Abkehr von der privilegierten Stellung und Autorität staatlicher Akteure.
g) Wissenschaftskulturen: Aus Sicht der Wissenschaftskultur ergibt sich eine Reihe von Untersuchungsaspekten bzw. Grundlagen, z.B. unterschiedliche Vorstellungen von Raum oder Natur von Laien, gegenseitige Wahrnehmung und Zusammenspiel zwischen Laien und Experten, oder Transformation und Einfluss von Laien-Wissen in wissenschaftliche Arbeit.
h) Medizin, Gesundheit: Der Einfluss der tatsächlichen und sozialen Umgebung auf die menschliche Gesundheit ist unbestritten. Mittels VGI lassen sich umfangreiche Datensätze erstellen, die die Umgebung räumlich und zeitlich hoch aufgelöst abbilden, und etwa Hinweise auf Staub, Lärm oder Sonneneinstrahlung geben. Diese Daten lassen sich mit medizinischen Daten in Zusammenhang bringen.

Ergebnisvision und Chancen

In einer Informationsgesellschaft, die sich mit Datenströmen, großen Datenmengen und sozialen Netzwerken konfrontiert sieht, bildet „Sehen die Grundlage von Verstehen“. Nur im Zusammenspiel von automationsgestützten visuellen Analyseverfahren und angepassten, interaktiven (Karten-)Darstellungen können raum-zeitbezogene Fragen und Aufgaben der Umweltveränderungen, der Verkehrsbelastung, des Bevölkerungswachstum oder der Migrationsbewegungen mit regionaler wie globaler Relevanz diskutiert und Lösungen gefunden werden. Die Erschließung von nutzergenerierten raumbezogenen Daten öffnet hierbei Potentiale auf regionaler und lokaler Ebene durch Bereitstellung von detaillierten, aktuellen vor-Ort Informationen. Gleichzeitig ist VGI ein Ausdruck globaler Vernetzung in der Freiwillige kollaborativ digitale Informationen online verfügbar machen und z.B. Hilfsprojekte durch Ableitung von Echtzeitkartendarstellungen im Falle humanitärer Katastrophen unterstützen. In der Vision können so im Zusammenwirken von amtlichen Informationsstellen und gemeinschaftlichen Initiativen von Freiwilligen nachhaltig Herausforderungen gelöst werden.

Arbeitsprogramm

Vorgehen im Schwerpunktprogramm

Das Schwerpunktprogramm ist auf einen sechsjährigen Zeitraum ausgelegt. Es ist in zwei Förderperioden mit einer Projektlaufzeit von jeweils drei Jahren unterteilt. Dabei stehen die im nachfolgenden skizzierten Themengebiete im Zentrum der Forschung. In der ersten Förderperiode liegt der Schwerpunkt auf der Erschließung interdisziplinärer Grundlagen, mit besonderer Berücksichtigung von Abhängigkeiten und Wechselwirkungen zwischen Teilprojekten und einzelnen Themenfeldern. In der zweiten Förderperiode sollen zunehmend Ergebnisse auf größere Anwendungsfelder übertragen und validiert werden.

Struktur des Arbeitsprogramms mit exemplarischen Forschungsvorhaben und Fragestellungen

Anhand des dargestellten Stands der Forschung wird der Forschungsbedarf deutlich. Nachfolgend werden wesentliche wissenschaftliche Fragestellungen der einzelnen Felder aufgezeigt. Exemplarisch sind dabei gelegentlich mögliche methodische Ansätze aufgeführt.

Forschungsfragen zur Geographischen Informationsgewinnung aus nutzergenierter Daten

a) Extraktion des räumlichen, zeitlichen und thematischen Bezugs

Einige der interessierenden Datenquellen und –ströme enthalten den räumlichen Bezug explizit, etwa in Form einer GPS-Koordinate. Dies ist allerdings oft nicht der Fall. Daher besteht eine große Herausforderung darin, eine automatische Georeferenzierung der Daten vorzunehmen. Diese kann z.B. durch Textanalyse ermittelt werden, wo nach räumlichen Begriffen oder Orten (Toponymen) gefiltert wird. Hier stellt die Auflösung von Mehrdeutigkeiten eine besondere Aufgabe dar, die etwa über Einbeziehung von räumlich-thematischem Kontext angegangen werden kann. Weiterhin wird in den Daten oft eine eher informelle Sprache verwendet, in der auch lokale Ortsbezeichnungen vorkommen. Eine weitere Möglichkeit besteht darin, ein Wiedererkennen und damit Lokalisieren einer räumlichen Situation durch die Bestimmung eindeutiger Merkmale zu lösen, wie das für Bilder oder Trajektorienstücke durchgeführt werden kann. Für eine weiterreichende Nutzung der Daten ist es darüber hinaus erforderlich, auch den zeitlichen Bezug der einzelnen Datenelemente zu kennen. Wenn keine Zeitstempel vorliegen, muss dieser aus weiterer Information bzw. aus dem Kontext erschlossen werden. Hierzu sind Verfahren zu entwickeln.

Von besonderer Bedeutung sind die Dateninhalte – der thematische Bezug. In Textdaten werden diese zwar explizit beschrieben, jedoch müssen sie unter Nutzung von Methoden der Computerlinguistik verarbeitet werden. Hierunter fallen insbesondere die Themenfilterung, Topic-Modellierung auch in Verbindung mit räumlicher Abgrenzung, Trenderkennung und Trendverfolgung. Weiterhin ist eine große Herausforderung die Extraktion von Meinungen, Gefühlen (Sentimentanalyse) oder auch die Identifikation von Meinungsführern und Multiplikatoren.

Darüber hinaus wird auch der soziale Bezug immer relevanter. Durch das Aufkommen neuer Sensorik (bspw. WLAN zur Lokalisierung von Personen oder RFID-Tags und Bluetooth Low Energy zur Identifizierung von Face-to-Face-Kommunikation) lassen sich soziale Interaktionen raumzeitlich verorten. Hierdurch wird der Bedarf an automatisierten Erfassungs- und 3D-Wiedergabetechniken innerhalb von Gebäuden zunehmen. Für räumlich-soziale Kartierungen ist darüber hinaus der o.g. thematische Bezug von hoher Relevanz.

Bildinformationen sind oft über Tags semantisch annotiert. Ist dies nicht der Fall, können Informationen in den Bildern automatisch extrahiert und interpretiert werden. Dies ist eine Aufgabe aus dem Bereich Computer Vision (CV). Das Schwerpunktprogramm zielt nicht auf eine vollständige Interpretation von VGI-Bildern ab – vielmehr sollen mit CV-Methoden Teilinterpretationen geliefert werden, die – in Verknüpfung mit anderen Daten – zu neuen Erkenntnissen führen. Gerade in der Datenintegration gibt es noch ein großes, nicht ausgeschöpftes Potential. Hierzu ist insbesondere die Nutzung Graphischer Modelle vielversprechend.

Die Daten enthalten interessante und relevante Information über ihren originären Erfassungszweck hinaus. Zur Interpretation dieser Daten sollen semantische und hierarchische Beziehungen genutzt werden. Hierfür sind generell Data Mining Methoden geeignet – eine spezielle Herausforderung stellt sich allerdings durch die Heterogenität der Daten, so dass allgemeine Ansätze geeignet erweitert werden müssen. Durch die Integration von Aggregationshierarchien würde hier Neuland betreten.

Alle Komponenten müssen zusätzlich Qualitätsparameter zur Verfügung stellen. Hierfür sind geeignete Qualitätsmaße zu entwickeln. Die üblichen Qualitätsmaße wie Vollständigkeit, Konsistenz und Genauigkeit müssen für diese Art von Daten adaptiert werden – etwa wie eine hohe temporale Genauigkeit mit einer geringeren thematischen Genauigkeit integriert wird. Weiterhin erfordert die Subjektivität und auch mögliche bewusste Verfälschung der Daten spezielle Methoden der Objektivierung und Bewertung. Eng gekoppelt an die Qualitätsmaße ist die Bestimmung von Vertrauensmaßen die sicherstellen, dass aus nutzergenerierten Daten belastbare Schlüsse gezogen werden können und Fehler oder Falschaussagen erkannt bzw. minimiert werden. Hierzu können Ansätze aus dem Information Retrieval (IR) eingesetzt werden, die um raum-zeitliche Aspekte erweitert werden müssen.

b) Fusion von Daten unterschiedlicher Herkunft und zeitliche und räumlicher Auflösung

Die Heterogenität und Vielfalt der Daten stellt das große Alleinstellungsmerkmal von VGI dar – auf der anderen Seite aber auch eine immense Herausforderung. Methoden der Datenfusion, wie sie für strukturiertere Geo-Daten vorliegen, können nicht unmittelbar übernommen werden, da i.d.R. Semantik, Raum- und Zeitbezug nicht explizit vorliegt und die Daten mit großen Unsicherheiten versehen sind. Eine wichtige Aufgabe ist daher die Entwicklung von Methoden zur Verarbeitung von Daten unterschiedlichen Abstraktions- und Interpretationsgrades von allgemein-sensorisch bis hin zu spezifisch-nutzergeneriert.

Ein wesentliches Kennzeichen der Daten ist dass sie kontinuierlich anfallen. Daher müssen Methoden zur Verarbeitung, Aggregation und Visualisierung von Datenströmen entwickelt werden. Intelligente Filter und Maße sind zu bestimmen, die den Wert einer Information bezüglich möglichst allgemeiner Fragestellungen ermitteln und somit Entscheidungen erlauben, ob ein Datum direkt oder in aggregierter Form gespeichert werden sollte, oder verworfen werden kann.

VGI-Daten werden i.d.R. weder räumlich noch zeitlich homogen erfasst. Es sind daher Maße zu entwickeln, mit dem die Vollständigkeit eines Datensatzes bewertet werden kann – hierzu kann die Entropie genutzt werden, aber auch Ansätze, die die Bewertung anhand vergleichbarer Situationen durchführen. Weiterhin sind Methoden der Interpolation und Extrapolation anzupassen, wofür sich etwa geostatistische Ansätze eignen.

Schließlich ist ein weiteres wesentliches Kennzeichen, dass die Daten verteilt erhoben werden. Im Projekt sollen daher Methoden zum Umgang mit dezentraler, verteilter Datenerzeugung-, Datenhaltung und Datenverarbeitung entwickelt werden. Dies setzt insbesondere geeignete Fusionskonzepte voraus. Methoden zur Verarbeitung tag-basierter Beschreibung von Daten von VGI-Daten; bottom-up Modellierung durch Tagging und Folksonomies erfordert flexible Modelle, die auch mit Mehrdeutigkeiten umgehen können.Für die Fusion kann ebenfalls der soziale Kontext genutzt werden, der wertvolle Vorinformation über mögliche Zusammenhänge zwischen den Daten liefern kann. Bei der Fusion sollen die Qualitätsparameter integriert werden, was etwa in Form Bayesscher Modelle möglich ist.

c) Identifikation von Korrelationen und Mustern in VGI

Nachrichten und Feedback in sozialen Medien bieten häufig einen Einblick in Meinungen und politische Ausrichtungen, welche mittels Verfahren aus dem Bereich der Sentiment Analyse extrahiert werden könnten. Die so gewonnen Informationen können wiederum mit Geo-Daten, thematischen Kontextinformation in sozialen Medien und andern Nachrichtenkanälen, sowie Sensordaten (z.B. über Lärm und Luftverschmutzung) korreliert werden, um potentiell wichtige Faktoren zu identifizieren, die einen Einfluss auf Lebensqualität und Entwicklung von Regionen haben. Mittels Daten zu Bereichen wie Stadtentwicklung, Epidemien, und Politischen Entwicklungen, auf der einen Seite, und Informationen aus Sozialen Medien auf der anderen Seite, ließe sich auch untersuchen, ob sich (z.B. mit Techniken des Maschine Learning und der Zeitreihenanalyse) Vorhersagemodelle für solche zeitlichen Entwicklungen und Frühwarnsysteme konstruieren lassen.

Umfang, Qualität und Bias der Daten, die Nutzer im Kontext des Social Web und der Citizen Science einstellen, hängen stark von deren Intentionen und Prädispositionen ab. Daher ist ein primäres Ziel die Identifikation dieser Intentionen. Hierauf aufbauend können dann Zusammenhänge zwischen den subjektiven Intentionen, Meinungen, Stimmungen etc. einerseits und den objektiven Inhalten bzw. Messdaten andererseits analysiert werden. Die Erhebung von VGI-Daten erfolgt vielfach ereignisgetrieben. Für eine qualitativ hochwertige Analyse der Daten sind solche Ereignisse zu identifizieren, um sie entweder herauszufiltern oder alternativ ihre besonderen Charakteristika analysieren zu können. Hierfür werden entsprechende Modelle in den Bereichen Data Mining und Soziale Netzwerkanalyse – insbesondere für Event-Entdeckung und Stimmungsanalyse – benötigt.

d) Datenmodelle und Algorithmen

Die Verarbeitung großer, strömender Datensätze erfordert angepasste Datenstrukturen und Algorithmen. Diese müssen insbesondere effizienten Zugriff und Skalierbarkeit garantieren. Ferner sollten sie probleman-gepasste Aggregationshierarchien unterstützen, die auch für die visuelle Inspektion in top-down-Ansätzen ermöglicht. Hierzu können Methoden aus der kartographischen Generalisierung erweitert werden.

Forschungsfragen zur Geovisualisierung und visuellen kartographischen Kommunikation

a) Entwicklung von neuen, angepassten Visualisierungsmetaphern

Die speziellen Eigenschaften nutzergenerierter raumbezogener Daten erfordern eine Weiterentwicklung klassischer kartographischer Darstellungsmethoden, sowie zugrunde liegender Konzepte und Modellierungsansätze. Variierende Qualität und Heterogenität der Daten, unterschiedliche räumliche Auflösung und semantische Strukturierung, sowie permanente zeitliche Änderungen erfordern die Ableitung von Visualisierungsmetaphern, welche die Eigenschaften und Meta-Informationen nutzergenerierter Daten reflektieren. Ein Beispiel für eine neue Visualisierungsmetapher, die geeignet ist, wenig strukturierte Daten zu analysieren und zu repräsentieren, sind georeferenziere Wortwolken. Bedarf besteht des Weiteren in der Entwicklung von Methoden zur Visualisierung von Variabilität in Ergänzung zu bzw. Kombination mit Methoden der Visualisierung von Unsicherheit. Alternative Darstellungsformen werden auch für die Integration unterschiedlicher Medientypen (Text, Bild, Video, Audio) benötigt, beispielsweise in Form von Patch-Work-Karten. Konkrete Forschungsfragen sind: Wie können Geovisualisierungsmethoden der Charakteristik nutzergenerierter Daten angepasst werden? Wie kann Subjektivität und variierende Qualität in Daten visuell zum Ausdruck gebracht werden?

b) Echtzeitvisualisierung, Abstraktion und interaktive Benutzerschnittstellen

Da VGI hohen Aktualisierungsraten unterliegen können, betrifft eine weitere große Herausforderung die Entwicklung von Methoden der Echtzeitvisualisierung. Hierbei steht die dynamische, animierte Visualisierung im Spannungsfeld von Automation und Interaktion. Benötigt werden kartographische Darstellungsformen, welche einerseits Automation nutzen, aber auch Anpassung an Aufgaben und Nutzer zulassen. Direktes visuelles Feedback fördert außerdem die Motivation bei der Erzeugung von nutzergenerierter Daten. So stellen sich die Forschungsfragen: Wie können automatische (Echtzeit-)Visualisierung und interaktive visuelle Analyse zusammenwirken? Wie können animierte Darstellungen aktuelle Informationen repräsentieren, die als Datenstrom permanenten Änderungen unterworfen sind?

Zur Erschließung umfangreicher Datenmengen von nutzergenierten, raumbezogenen Daten werden interaktive, visuelle Benutzerschnittstellen benötigt. Ein wesentliches Ziel ist hierbei, sowohl Überblicksinformationen verfügbar zu machen und nach Bedarf Detail- und Kontextinformationen zu repräsentieren. Hier ergibt sich unmittelbar ein Bezug zum Forschungsbedarf nach effizienten Datenstrukturen. Entsprechend müssen Methoden sowohl zur automatischen Ableitung verschiedener Abstraktionsgrade als auch zum kontinuierlichen Zoomen entwickelt werden. Es braucht interaktive und automatische Selektions- und Filtermethoden, sowie angepasste Interaktionswerkzeuge für die verschiedenen Endgeräte (Desktop, Tablet, Smartphone). Hierbei stellen sich u.a. folgende Forschungsfragen: Welche Interaktionen mit Karten eignen sich für welche Ausgabegeräte? Welcher Detaillierungsgrad und welche Informationsfülle sind in visuellen Darstellungen in welcher Zeit erfassbar?

c) Empirische Verifikation und Weiterentwicklung theoretischer Grundlagen

Ziel ist es, durch VGI verschiedene Nutzergruppen in Informationsflüssen mit einzubeziehen und an Entscheidungsprozessen zu beteiligen. Hierfür ist es hilfreich, durch empirische Studien die Eignung verschiedener Visualisierungsmethoden in Abhängigkeit von Aufgaben und Nutzergruppen zu untersuchen - mit dem Ziel existierende theoretische Grundlagen der Kartographie und Geovisualisierung weiterzuentwickeln. Forschungsfragen sind z.B.: Inwieweit sind klassische Anforderungen an Lesbarkeit und Mindestdimensionen auf Webkartographie und 3D-Visualisierung aufrecht zu erhalten? Sind zu kleine Objekte (z.B. in Webkarten oder perspektivischen Darstellungen) störendes Rauschen oder Indikator der Interaktion wie Zoom und Pan triggert? Inwiefern kann klassisches kartographisches Methodenwissen für interaktive, dynamische Visualisierung nutzergenerierter Daten anwendet oder erweitert werden?

Forschungsfragen zum sozialen Kontext

Die Erfassung und auch Nutzung von VGI-Daten erfolgt aus unterschiedlicher Motivation heraus und bezogen auf verschiedene Fragestellungen – und damit auch aus unterschiedlichem Nutzerkontext heraus. Darüber hinaus erfolgt die Erfassung in Sprache und Duktus des jeweiligen Erfassers. Hieraus ergeben sich eine Reihe relevanter Forschungsfragen.

a) Qualität und Verallgemeinerbarkeit der Information; subjektive Klassifikation vs. allgemeine Ontologien

Eine Fragestellung betrifft die Bewertung der subjektiven Information einzelner Nutzer im Zusammenspiel mit Informationen anderer Nutzer. Welche Aussagen lassen sich aus der (größeren oder kleineren) Variabilität der Identifikation gleicher Gegebenheiten treffen? Wie wird mit unsicheren Informationen umgegangen und wie können kooperative Kontrollmechanismen entstehen? Wie könnte gegebenenfalls eine Kalibrierung der Begrifflichkeiten stattfinden? Als mögliche Methoden eignet sich die Nutzung identischer Datenpunkte und eine entsprechende Transformation (vgl. Semantische Referenzsysteme, Kuhn (2003)).

In diesem Zusammenhang ist noch weitgehend ungelöst, welche Konstanten es in der Beschreibung räumlicher Gegebenheiten gibt. Beispielsweise weichen Schätzungen absoluter Größen i.d.R. stark voneinander ab, während aber relative Größen konsistent und einheitlich bewertet werden. Forschungsgegenstand ist daher, weitere solche Konstanten zu identifizieren und sie für die Interpretation, Bewertung und Qualitätsbeurteilung von Nutzerdaten einzusetzen.

Weiterhin sind Untersuchungen relevant, die einen Zusammenhang zwischen Nutzergruppen, Nutzer-motivation und ihren erfassten Daten finden. Forschungsfragen liegen zum einen darin, die Nutzer zu gruppieren und ihre Motivation zu identifizieren, und darüber hinaus die „Gültigkeit“ der Daten auch für andere Nutzer und Anwendungen zu bewerten.

Von großer Bedeutung sind ferner Untersuchungen, die die Relevanz der Daten ermitteln und bewerten: typischerweise wird Relevanz über statistische Methoden ermittelt; dies ist jedoch für manche Bereiche ungeeignet oder gar falsch. Daher gilt es neue Maße zu entwickeln, die auch mit kleinen Stichproben bzw. heterogenen Daten arbeiten und sozialen Kontext integrieren können.

b) Intuitive multigranulare und multiskalige kontextabhängige Datenerfassung und Nutzung

Der Detailgrad von VGI ist in starkem Maße vom Kontext und der Zielsetzung abhängig, unter der sie erhoben wurde. Spezifische VGI enthalten oft mehr nutzbare Informationen als solche, die für allgemeine Zwecke akquiriert worden sind. Jedoch ist nicht jeder Zweck, zu dem die Daten später herangezogen werden, zum Erfassungszeitpunkt ersichtlich. Es gilt, der Gefahr vorzubeugen, dass durch einen spezifischen Kontext beim Erfassen wertvolle Information „vergessen“ wird. Hierzu gilt es zu erforschen, wie

Der Kontext beim Erfassen hinreichend erkannt und klassifiziert werden kann, um den Fokus des Benutzers beim Zusammentragen der Daten korrekt zu analysieren
Benutzerschnittstellen so gestaltet werden können, dass sie dem Nutzer ohne unvertretbaren Mehraufwand erlauben und ihn motivieren, Information über den gerade im Fokus stehenden Nutzungszweck hinaus zu erheben
Die Sensorik der Hardware so auszunutzen, das über den unmittelbaren Zweck hinausgehende Information gehalten und übermittelt wird um so ein nachgelagertes Auswerten der Daten zu erlauben. So enthalten bspw. Fotos reichhaltige Kontextinformation, die ggf. durch nachträgliche Analyse nutzbar gemacht werden kann.

Die Komplexität des Erfassungsvorganges soll so weit wie möglich von dem Anwender fern gehalten werden. Hierbei gilt es auszuloten, wie bspw. der Einsatz geeigneter Ontologien es ermöglichen kann, verwertbare Daten ohne das explizite Zutun des Nutzers zu ermitteln.

c) Kontextabhängige Datenabstraktion und Interaktion

Die Aufgabengetriebene Erfassung erfolgt in einem bestimmten Abstraktionslevel, der subjektiv ist, zielgruppenorientiert und insbesondere auch von lokaler Kenntnis und Kontext geprägt ist (z.B. Annotation eines Flickr-Bildes als „Foto aus Kanada“ vs. „Foto von Downtown Toronto“). Durch interaktive Nutzung von Geodaten in Gruppen und sozialen Kontexten ist dieser Grad gegebenenfalls auch zum gleichen Zeitpunkt unterschiedlich. Mit steigender Interaktion zwischen Akteuren wird die ursprüngliche Aufgabe aber zunehmend ein komplexer und dynamischerer Sachverhalt sein: mehrere Unteraufgaben überlappen sich, und mehrere unterschiedliche Akteure treten auf den Plan. Soziale Interaktion beinhaltet auch die Interaktion unterschiedlicher Geo-Datensätze. Es gilt zu untersuchen, wie die Integration von Datenströmen verschiedener Benutzer mit verschiedenen Zielen (und somit verschiedener Granularitäten in den bereitgestellten Geodaten) erfolgen kann. Wie viel nicht-abstrahierte Information muss bereitgehalten werden, und welche? Wie viel kann durch die Betrachtung von Kontext rekonstruiert werden? Wie gelingt die Adaption auf Daten-ströme von interagierenden Partnern mit nicht vollständig bekannter Intention?

Eine weitere wichtige Frage behandelt die Auswirkung auf die Ableitung von angepassten Visualisierungen, etwa schematische Karten. Wenn sich in einer schematischen Karte durch Interaktion die Notwendigkeit ergibt, dynamisch Informationen aus einer anderen Quelle zu integrieren, ändern sich die der Schematisierung zu Grunde liegenden Voraussetzungen. Wie kann es hier erreicht werden, eine zugleich umfassende und transparente, aber auch kohärente und stabile Visualisierung zu ermöglichen, die den Nutzer nicht von der eigentlichen Aufgabe weg bewegt, aber neu hinzukommende Dynamiken trotzdem voll zu erfassen?

d) Motivation und Intention für Partizipation, Privatsphäre und Vertrauenswürdigkeit

Sollen Informationen gezielt für bestimmte Anwendungen produziert werden, gilt es die Motivation der Nutzer zu untersuchen bzw. Mechanismen, wie eine Partizipation erleichtert werden kann. Motivation kann die fachliche Expertise, ein zu behebender Missstand, ein „grünes/soziales Gewissen“ o.Ä. sein. Darüber hinaus kann ein Anreizsystem auch über Spiele (Gamification) oder (finanzielle) Kompensation erfolgen. Hier sollen hier verschiedene Anreizmechanismen für unterschiedliche Arten von Partizipation untersucht werden. Außerdem soll analysiert werden, welchen Einfluss die Motive der Nutzer auf die erhobenen Daten haben.

Da die Erfassung unmittelbar durch die Individuen erfolgt, ist ein direkter Bezug zur individuellen Persönlichkeit gegeben. Dies betrifft insbesondere auch die Position des Erfassers, die über die Zeit verfolgt werden kann und somit prinzipiell Ort und Zeitpunkt seiner Aufenthalte dokumentieren. Daher sind Mechanismen zu untersuchen, die die Daten geeignet abstrahieren, aggregieren und auf diese Art und Weise anonymisieren. Hierzu können insbesondere dezentrale Verarbeitungsmethoden eingesetzt werden. Weiterhin können soziale Gruppen sicherstellen, dass bestimmte Information nur innerhalb der Gruppe bekannt ist und nach außen nur in aggregierter Form weitergegeben wird.

Integration der Ansätze

Wie aus Abbildung 1 ersichtlich, ergeben sich wesentliche Aufgaben gerade an der Schnittstelle bzw. an den Verbindungen der drei Kernthemen. Fortschritte ergeben sich daher nur, wenn mindestens zwei dieser Komponenten im Verbund betrachtet werden. Dies ist in den vorausgehenden Beschreibungen teilweise schon angedeutet, etwa wenn es um die Nutzung des sozialen Kontexts (Komponente 3) für die Dateninterpretation (Komponente 1) geht, oder wenn Methoden der Visualisierung (Komponente 2) hierarchische Datenstrukturen aus Komponente 1 benötigen. Um sicherzustellen, dass gerade die Arbeit an den Schnittstellen durchgeführt wird, werden die Antragsteller aufgefordert, mindestens zwei der Komponenten zu integrieren.