IBI-Weblog » Semantic Web

Google, was geht? Das Scenario Magazine berichtet aus dem Beta Lab.

Ben — Wed, 07 Sep 2011 15:42:20 +0000

Thomas Geuken, Psychologe vom Copenhagen Institute for Future Studies, das thematisch zwangsläufig vieles erforscht, was auch die Bibliotheks- und Informationswissenschaft umtreibt, fuhr für das institutseigene Scenario Magazine ins New Yorker Beta Lab Googles und hat dabei ein an Einblicken reiches Interview mit der im Unternehmen für Forschung und Entwicklung verantwortlichen Corinna Cortes geführt.

Beispielsweise zeigt bereits die Kernfrage, was denn die wissenschaftliche Herausforderung der Arbeit bei Google ist, deutliche Parallelen zu dem, was unsere Disziplin tut:

“[...] how to learn in an incomplete world and a digital universe full of dirty data (vast amounts of user-generated data of very poor quality; ed.). This is where the true challenge for Google lies – to provide users with relevant and valid knowledge on the basis of a large quantitative body of data,”

In gewisser Weise lebt hier das alte Ziel der Fédération Internationale de Documentation (FID) fort, nämlich

“the collection and storage, classification, dissemination and utilization of all types of information” (vgl. Gisela Ewert and Walther Umstätter: “Die Definition der Bibliothek,” in Bibliotheksdienst 33 (1999), S.961)

Sie wird nur um die explizite Ausrichtung auf das Verhältnis zwischen dem Nutzer mit seinem konkreten Informationsbedürfnis und dem ubiquitären Infoversum erfüllt von dirty data erweitert. Google erscheint also als eine Art FID des 21. Jahrhunderts und da das Geschäftsmodell zu stimmen scheint, wohl auch mit stabilerer Perspektive und unbestritten gesamtgesellschaftliche größerer Wirkung. Das Ziel wird nicht nur formuliert und als Utopie skizziert, sondern in den Labs direkt in mannigfaltiger Weise durchgetestet.

Eine Variante betrifft das, was man als Social Curating und/oder Human Sorting bezeichnen kann. Die Prozessierung digital erfasster sozialer Beziehungen ermöglicht eine starke Individualisierung des Retrievals und beruht nicht zuletzt auf der Idee umfassender Empfehlungssysteme: Was meine Peers relevant erscheint, könnte auch für mich von Interesse sein. Weblogs wie dieser sind eine Vorstufe, Facebook und Google+ der Stand der Zeit. Sind Datenmengen und Datennutzungsgeschichte (was oft zusammend fällt) umfassend genug ist, sind solche Verfahren auch relativ präzise und natürlich datenschutzrechtlich hoch problematisch.

Das Ziel Googles ist, so der Beitrag und so die Beobachtung um Google+, die Zusammenführung der klassischen algorithmisierten Prozessierung enormer Datenmengen mit der zusätzlichen sozusagen Gegenspiegelung des Datennutzungsverhaltens. So jedenfalls lese ich den Satz:

“Mankind’s ability to find qualitative bits of data and knowledge is, in other words, something that Google would like to use to make their own data even more valid.”

Cortes betont, dass die “guten Daten” der Nutzer perspektivisch die Hälfte des verarbeiteten Datenbestandes bei Google ausmachen sollen. Hier zeigt sich schön der Unterschied zum Facebook-Ansatz: Dienen dort die Inhalte zur digitalen Konstruktion und Abbildung sozialer Beziehungen, nutzt man bei Google soziale Interaktionen zur Konstruktion und Abbildung von Datenstrukturen und Relevanzen.

Wofür das Unternehmen diese Relationierung nutzen kann, zeigt der Abschnitt What do the users think? Was hier pragmatisch zum Filtern sozusagen der Gelben Seiten dargestellt wird, nämlich Nutzern aufgrund der Reviews eine wertende Sortierung (“service”, “price” and “staff”) von verfügbaren Dienstleistern anzubieten, ist auf nahezu alles anwendbar, was sich adressieren und mit maschinenlesbaren Eigenschaften markieren lässt.

Steht das Verfahren, können auch Einzelaussagen in Texten nach bestimmten Kriterien von der Crowd bewertet und relationiert werden. Für Anwendungen des Semantic Web in der Wissenschaftskommunikation z.B. im Sinne eines Post-Reviewings dürfte dies von erheblichem Belang sein. Auch hier – und das wäre dann eine Aufgabe für die Forschung des Instituts für Bibliotheks- und Informationswissenschaft – lassen sich die vergleichsweise “schmutzigen” (bzw. semantisch eher armen) Daten automatisierter Zitationsanalysen mit qualitativen Verfahren zur Diskursannotation koppeln. Die große Frage ist dabei, ob die Crowd der Wissenschaftsgemeinschaften sich auf so etwas einzulassen bereit ist.

Google forscht offensichtlich zunächst lieber auf anderen Gebieten, z.B. der so genannten Augmented Reality:

“Corinna Cortes takes out her Android phone and snaps a photo of a Sprite can on the table in front of us. In best science fiction style, a scanning line runs back and forth on the display, and voilà, the telephone tells us that it is a Sprite in front of us and provides a lot of information about the object.”

Weiterhin erfährt der Autor des Beitrags etwas über den Übersetzungsdienst und erhält einen kleinen Einblick in das Engagement des Unternehmens bei der Entwicklung von Robot Cars, das wenigstens die Sportwagenliebhaber nicht allzusehr begeistern dürfte.

Inwiefern der Allround-Kuratierungsdienst Google als großer Datenverarbeitungsbruder uns damit und auch mit den anderen Diensten auf einen digitalen Paternalismus zuführt, wird an anderer Stelle zu diskutieren sein. Der Mensch ist offensichtlich ein Optimierungstier und liebt Sicherheit und Überblick. Beides verspricht das Unternehmen. Thomas Geuken geht damit leider ziemlich unkritisch um. Aber das war wohl auch Ziel des kleinen Reports, der mit viel Sympathie für Google und Corinna Cortes sowie Liebe zum Detail geschrieben wurde:

“She wears sneakers even at work.”

Den Artikel aus dem Scenario Magazine kann man hier abrufen: What’s up Google, New York?

Books are for use. Die NZZ betrachtet das Urheberrecht im Anschluss an die Frankfurter Tagung und wagt eine interessante These

Ben — Tue, 21 Jul 2009 09:51:14 +0000

Das angloamerikanische Copyright-Law und das kontinentale Urheberrecht unterscheiden sich massgeblich darin, dass das Copyright auf die Rechte der Verwerter abhebt, jedoch von den persönlichkeitsrechtlichen Belangen des Urhebers wenig weiss. Das Pathos der Rede vom «geistigen Eigentum», das die ideelle Beziehung zwischen Autor und Werk zu einer unveräusserlichen macht, ist dem US-Recht fremd. Dass es auch den Europäern fremder wird, daran arbeiten in Europa sowohl Internetpiraten wie auch «nutzerfreundliche» Richter, die erklären, von Diebstahl könne im Internet keine Rede sein, denn wer kopiere, nehme ja niemandem etwas weg.

Im Feuilleton der heutigen Ausgabe der Neuen Zürcher Zeitung erklärt Joachim Güntner im Anschluss an die Frankfurter Tagung von “Roland Reuss und seine[n] Kombattanten” [sic!] noch einmal, dass das Internet nun mal eine verschiedene Rechtsräume übergreifender Kommunikationssphäre ist. Zudem wertet er die Aussage der DFG, dass es keinen Publikationszwang gäbe, als Frucht der Proteste und hat damit in Bezug auf die Aussage selbst vielleicht sogar recht. Nur vom “Zurückrudern” der Deutschen Forschungsgemeinschaft kann man nicht wirklich sprechen, denn es lag gar kein Zwang vor. Auch nicht klar ist, ob er, wenn er etwas abwertend von “zu Copy-Shops mutierenden Bibliotheken” spricht, dies als Argument aus Frankfurt oder als allgemein wahrgenommene Entwicklung sieht.

Der wirklich interessante und bemerkenswerte Aspekt im Artikel ist aber die Vermutung, dass Google überhaupt nicht mit dem Ziel digitalisiert, in den Buchmarkt einzusteigen und es ihm mehr noch kaum um die konkreten Bücher und Buchinhalte selbst geht. Der Autor beruft sich vielmehr auf eine Aussage Auke Haagsmas von der ICOMP, mit dem er davon ausgeht, dass Google die Inhalte der Bücher als Korpus verwendet, um die Entwicklungen seiner “Semantic Web”-Funktionalitäten voranzutreiben:

Google füttere seine Server vor allem deshalb mit Weltliteratur, damit die Suchmaschine die Anfragen der Nutzer gleich übersetzen und ihnen dann Antworten aus vielen Sprachen der Welt liefern könne. Polyglott und zum komplexen Sinnverstehen fähig also soll die Maschine werden, Syntax und Semantik lernen für ihr Kerngeschäft, die Suchanfrage.

Wenn dies korrekt ist, dann würde die Bücher über Google Books ausschließlich als Bonus und Philantropie als Digitalisat angezeigt. Notwendig wäre es aber nicht und Google könnte sich entsprechend entspannt auch die Darstellung untersagen lassen, solange es nur weiter digitalisieren und all die Texte harvesten dürfte, die als Mittel zu einem höheren Zweck dienten. Was man wohl in Heidelberg zu der These sagen würde, dass die eigenen geistigen Leistungen schnöde zum Füttern einer digitalen Maschinerie dienen, der es gar nicht um die Inhalte geht, sondern darum, wie Zeichen und Zeichenketten miteinander in Beziehung stehen? Und was eine semantische Technologie wohl aus der Lyrik Paul Celans lernt? Im Resultat ständen jedenfalls noch ganz andere Celan-Provokationen.

Den Artikel der NZZ gibt es hier: Ist das Urheberrecht ein Papiertiger?

Der Text verrät den Standort: Eine Studie zur toponymischen Analyse von Bloginhalten

Ben — Fri, 09 Jan 2009 11:43:30 +0000

A correct result was defined as being when the extracted geographic focus subsumed the blog’s true location, or was within 100 miles of it. We had 295 matches out of 481 usable results for 61% accuracy. For the 295 matches, the average distance from the extracted location to the known location was 50.8 miles.

Das ResourceShelf verweist auf eine ziemlich interessante Untersuchung, in der das Web2.0 mit Web3.0-Technologie angegangen wird (Es funktioniert sicher auch Web1.0-Inhalten). Als Ausgangspunkt steht der etwas eigenwillige Wunsch, zu erfahren, wo sich ein Blog geografisch verorten lässt. Nicht jeder Blogger nutzt Geotagging und insofern liegt als Lösung nah, eine toponymische Analyse der Blogtexte und deren Abgleich mit einer Datenbank in Rückgriff auf eine OWL-Ontologie auszuprobieren. Die extrahierten Daten wurden entsprechend gefiltert und mit algorithmisch verarbeitet, mit der Realität verglichen und am Ende stand das zitierte Ergebnis. Den “Standort” eines Weblogs zu ermitteln gelingt allerdings nur, wenn der Blogger auch über seinen Standort schreibt. Sinnvoller scheint solch ein Ansatz, wenn man ermitteln möchte, welche Regionen besonders intensiv in Bloginhalten vorkommen, um daraus ein Trendbarometer zu entwickeln. Das wäre doch mal eine Idee für ein Start-Up-Unternehmen. Die reine Standortfrage unterläuft nämlich den Zeitgeist der kaum gebremsten Mobilität, die dazu führt, dass wir von allen möglichen Orten immer in denselben Blog schreiben können, der womöglich auf den Niederländischen Antillen gehostet wird. Und für die explizit ortsbezogenen Placeblogs ist in der Regel eine toponymische Auswertung des Blogtitels zureichend. Für Blogger, die nicht entsprechend analysierbar sein wollen heißt es ab jetzt, besser nur unscharfe Ortsbezeichnungen zu verwenden oder solche einzubauen, die mit dem Inhalt das Postings nichts zu tun haben. Marfa, Texas

Den Aufsatz zur Studie gibt es hier als PDF: Fink, Clay; Piatko, Christine, et al. (2008) Geolocating Blogs From Their Textual Content.

Semantic Web=Searchwiki, meint die NZZ

Ben — Fri, 28 Nov 2008 09:00:33 +0000

Doch auch ohne RDF/XML-OWL-GRDDL lässt sich ein Semantic Web realisieren; auch ohne dass Programmierer die Bedeutung einer Web-Ressource in maschinenlesbarer Form vollständig durchdekliniert haben, können Maschinen aus verschiedensten Quellen Metainformationen ernten. Mit einer kürzlich lancierten Dienstleistung namens Searchwiki offeriert der kalifornische Suchmaschinenbetreiber [Google] den Benutzern die Möglichkeit, die Suchresultate direkt zu manipulieren. Durch diese Eingriffe erhält die Suchmaschine ein Feedback, das es ihr erlaubt, die Qualität der Suchresultate zu verbessern.

Die Neue Zürcher Zeitung ist heute unterwegs, um ihren Lesern das Funktionieren von Suchmaschinen auf schlichte Weise zu erklären. Ob allerdings Ausführungen wie die obige tatsächlich fundiert und sinnvoll zu diesem Zwecke sind – darüber lässt sich streiten genauso wie darüber, was man unter Semantic Web eigentlich versteht. Vielleicht wäre es zu diesem Thema hilfreich gewesen, nicht nur mit einem Google-Vertreter zu sprechen, sondern sich zusätzlich eine weitere Expertise zum Beispiel aus der Schweizer Informationswissenschaft einzuholen. Mehr hier: Auf der Suche nach der Suchmaschine der Zukunft und Das Internet jenseits von Google

Web 3.0 für Eilige, erklärt von Allen Cho

Ben — Sat, 26 Jul 2008 02:09:44 +0000

What is most confusing is the difference between the Semantic Web and Web 3.0 – both are conceptual entities. However, rather than competing spaces they should be viewed as successive layers that are developing. By adding the semantic web to Web 2.0, we move conceptually closer to web 3.0.

meint Allen Cho, der seine Sicht auf das “Web 3.0″ in sehr knapper Form auf der Frage-Antwort-Plattform Suite101 darstellt: What is Web 3.0?

Paul der! Auch die New York Times widmet sich dem Mundaneum (réseau=“network” — or arguably, “web.”).

Ben — Mon, 23 Jun 2008 11:16:12 +0000

Some scholars believe Otlet also foresaw something like the Semantic Web, the emerging framework for subject-centric computing that has been gaining traction among computer scientists like Mr. Berners-Lee. Like the Semantic Web, the Mundaneum aspired not just to draw static links between documents, but also to map out conceptual relationships between facts and ideas. “The Semantic Web is rather Otlet-ish,” said Michael Buckland, a professor at the School of Information at the University of California, Berkeley.

Da die New York Times letzte Woche auch einen Artikel zu Paul Otlet und dem Mundaneum veröffentlichte, kann man im Rückgriff auf den aktuellen SPIEGEL-Beitrag (vgl. hier) zusätzlich wunderbar vergleichen, wie ein und dasselbe Thema in zwei verschiedenen Publikationen des klassischen “Qualitätsjournalismus” ganz unterschiedlich dargestellt wird: The Web Time Forgot (via Hapke-Weblog). Und nicht nur die Bildbegleitung ist bei der New York Times besser ausgefallen. Schade, dass man sie im Bahnhof Friedrichstraße nicht mehr bekommt.

Paul wer? Dem SPIEGEL hat das Mundaneum (“Papier-Google”) entdeckt.

Ben — Sun, 22 Jun 2008 19:13:07 +0000

“In mancherlei Hinsicht war sein “mechanisches Gehirn” nicht nur seiner eigenen Zeit voraus, sondern sogar noch der heutigen. Das zumindest meinen Bibliothekswissenschaftler wie Boyd Rayward von der University of Illinois in Urbana-Champaign. Otlet wollte zum Beispiel nicht nur einfach Informationshappen nicht nur einfach verlinken, wie im World Wide Web. Er schlug vielmehr intelligente Links vor, die zusätzlich auch Information beinhalten über Wahrheitsgehalt und Kontext. Semantic Web wird das heute genannt, und noch immer tüfteln die klügsten Köpfe an der praktischen Umsetzung.”

Man wundert sich und staunt: Der SPIEGEL hat Paul Otlet für einen Einseiter entdeckt und hat einen Artikel über die Leitfigur der Dokumentationswissenschaft in der offiziell morgen erscheinenden Ausgabe (Schmundt, Hilmar: Vater der Zettelsuchmaschine. In: SPIEGEL. Nr. 26. 23.06.2008, S. 140). Wer ein wenig aufmerksam durch das Magisterstudium des Instituts gegangen ist, dürfte dem leider etwas oberflächlichen Beitrag, der mit Formulierungen wie: “Der Vater der Zettelsuchmaschine war kein Phantast, sondern eher ein penibler Bücherwurm” glänzt und damit demonstriert, dass der SPIEGEL nicht unbedingt durchgängig Hochleistungsjournalismus bietet, wenig Neues entnehmen.
Aber immerhin weist er alle anderen darauf hin, dass es die Idee eines “Wissensnetzes”, und zwar durchaus mit dem Bemühen einer praktischen Umsetzung, schon vor Vannevar Bush gab. Und vielleicht fragen die SPIEGEL-Leser im Bekanntenkreis, sofern sie tatsächlich mehr wissen wollen, nun mal beim bibliothekswissenschaftlichen Kollegen nach…

Bibliographic Ontology

paul — Thu, 05 Jun 2008 18:28:04 +0000

Bibliographic Ontology Version 1.0 veröffentlicht.

The Bibliographic Ontology describe[s] bibliographic things on the semantic Web in RDF. This ontology can be used as a citation ontology, as a document classification ontology, or simply as a way to describe any kind of document in RDF. It has been inspired by many existing document description metadata formats, and can be used as a common ground for converting other bibliographic data sources.