Professional search in pharmaceutical research [Elektronische Ressource] / vorgelegt von Alex Kohn
220 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Professional search in pharmaceutical research [Elektronische Ressource] / vorgelegt von Alex Kohn

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
220 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Professional Search in Pharmaceutical Research Alex Kohn München 2009 Professional Search in Pharmaceutical Research Alex Kohn Dissertation an der Fakultät für Mathematik, Informatik und Statistik der Ludwig ‐Maximilians ‐Universität München vorgelegt von Alex Kohn München, den 24.11.2009 Erstgutachter: Prof. Dr. François Bry (Ludwig ‐Maximilians ‐Universität München) Zweitgutachter: Prof. Dr. Steffen Staab (Universität Koblenz ‐Landau) Tag der mündlichen Prüfung: 19.01.2010 Abstract In the mid 90s, visiting libraries – as means of retrieving the latest literature – was still a common necessity among professionals. Nowadays, professionals simply access information by ‘googling’. Indeed, the name of the Web search engine market leader “Google” became a synonym for searching and retrieving information. Despite the increased popularity of search as a method for retrieving relevant information, at the workplace search engines still do not deliver satisfying results to professionals. Search engines for instance ignore that the relevance of answers (the satisfaction of a searcher’s needs) depends not only on the query (the information request) and the document corpus, but also on the working context (the user’s personal needs, education, etc.).

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 15
Langue English
Poids de l'ouvrage 4 Mo

Extrait










Professional Search in
Pharmaceutical Research


Alex Kohn



















München 2009









Professional Search in
Pharmaceutical Research


Alex Kohn











Dissertation
an der Fakultät für Mathematik, Informatik und Statistik
der Ludwig ‐Maximilians ‐Universität
München



vorgelegt von
Alex Kohn






München, den 24.11.2009































Erstgutachter: Prof. Dr. François Bry
(Ludwig ‐Maximilians ‐Universität München)
Zweitgutachter: Prof. Dr. Steffen Staab
(Universität Koblenz ‐Landau)
Tag der mündlichen Prüfung: 19.01.2010

Abstract

In the mid 90s, visiting libraries – as means of retrieving the latest literature – was
still a common necessity among professionals. Nowadays, professionals simply
access information by ‘googling’. Indeed, the name of the Web search engine market
leader “Google” became a synonym for searching and retrieving information.
Despite the increased popularity of search as a method for retrieving relevant
information, at the workplace search engines still do not deliver satisfying results to
professionals.

Search engines for instance ignore that the relevance of answers (the satisfaction of
a searcher’s needs) depends not only on the query (the information request) and the
document corpus, but also on the working context (the user’s personal needs,
education, etc.). In effect, an answer which might be appropriate to one user might
not be appropriate to the other user, even though the query and the document
corpus are the same for both. Personalization services addressing the context
become therefore more and more popular and are an active field of research.

This is only one of several challenges encountered in ‘professional search’: How can
the working context of the searcher be incorporated in the ranking process; how can
unstructured free ‐text documents be enriched with semantic information so that the
information need can be expressed precisely at query time; how and to which extent
can a company’s knowledge be exploited for search purposes; how should data from
distributed sources be accessed from into one ‐single ‐entry ‐point.

This thesis is devoted to ‘professional search’, i.e. search at the workplace, especially
in industrial research and development. We contribute by compiling and developing
several approaches for facing the challenges mentioned above. The approaches are
implemented into the prototype YASA (Your Adaptive Search Agent) which provides
meta ‐search, adaptive ranking of search results, guided navigation, and which uses
domain knowledge to drive the search processes. YASA is deployed in the
pharmaceutical research department of Roche in Penzberg – a major pharmaceutical
company – in which the applied methods were empirically evaluated.

Being confronted with mostly unstructured free ‐text documents and having barely
explicit metadata at hand, we faced a serious challenge. Incorporating semantics (i.e.
formal knowledge representation) into the search process can only be as good as the
underlying data. Nonetheless, we are able to demonstrate that this issue can be
largely compensated by incorporating automatic metadata extraction techniques.
The metadata we were able to extract automatically was not perfectly accurate, nor
did the ontology we applied contain considerably “rich semantics”. Nonetheless, our
results show that already the little semantics incorporated into the search process,
suffices to achieve a significant improvement in search and retrieval.

We thus contribute to the research field of context ‐based search by incorporating
the working context into the search process – an area which so far has not yet been
well studied.
v Zusammenfassung

Die seit den 90er Jahren vorherrschende Informationsflut als auch das Aufkommen
neuer Technologien haben die Prozesse des Informationszugriffes auf nie
dagewesene Art und Weise geprägt. Das Ergebnis dieses Wandels ist, daß Menschen
heutzutage nach Informationen ‚googeln’ anstatt Bibliotheken zu durchstöbern.
Tatsächlich ist der Name des derzeitigen Internet ‐Suchmaschinen ‐Marktführers
Google zu einem Synonym für die Suche nach Informationen geworden. Dieses
Phänomen betrifft insbesondere auch Experten, für die Suche nach Informationen
ein Teil des alltäglichen Geschäftes ist. Folglich sind Suchmaschinen nicht nur im Web
die erste Wahl um Informationen zu finden sondern auch im Intranet von Firmen.

Obwohl die Verwendung von Suchmaschinen bei Experten – insbesondere bei
Fachkräften in Unternehmen – sehr populär geworden ist, liefern Suchmaschinen im
Intranet immer noch nicht zufriedenstellende Ergebnisse.

Eine mögliche Ursache unter anderen ist, daß Suchmaschinen häufig den Kontext des
Suchenden (persönliche Bedürfnisse, Hintergrundwissen, usw.) ignorieren.
Tatsächlich ist aber die Relevanz eines Suchergebnisses, nicht nur von der
eigentlichen Suchanfrage und der Dokumentsammlung abhängig, sondern auch vom
Arbeitskontext des Suchenden. Folglich kann eine Antwort – bei gleichbleibender
Suchanfrage und identischem Korpus – für den einen Benutzer relevant sein und für
den anderen Benutzer nicht. Die Einbeziehung des Kontexts bei der Suche ist ein
aktives Forschungsfeld und wird zunehmend auch in Personalisierungsdiensten
führender Internet ‐Suchmaschinen berücksichtigt.

Kontext ‐basierte Suche ist nur eine von vielen Herausforderungen im Umfeld von
spezialisierten Suchmaschinen: Wie kann der Arbeitskontext des Suchenden in die
Ermittlung der Rangfolge der Ergebnisdokumente einbezogen werden; Wie können
vorhandene Daten mit semantischen Informationen bereichert werden, so daß die
Frage präzise formuliert werden kann; Wie und zu welchem ausmaß kann das
Vorwissen eines Unternehmens dazu genutzt werden die Suche zu verbessern; Wie
sollen verteilte Daten in einem Suchportal zusammengefaßt werden.

Die vorliegende Dissertation befaßt sich dem Thema „Expertensuche“, d.h. Suche am
Arbeitsplatz, insbesondere in der Forschung und Entwicklung. Ein Beitrag dieser
Arbeit liegt in der Zusammenstellung und Entwicklung von Ansätzen, mit denen den
zuvor genannten Herausforderungen begegnet werden kann. Die Ansätze werden in
dem Prototyp YASA (Your Adaptive Search Agent) implementiert, welcher Meta ‐
Suche, adaptive Sortierung von Suchergebnissen und unterstütztes Navigieren
ermöglicht. Zahlreiche Prozesse profitieren dabei von domänen ‐spezifischem
Wissen. YASA wird in der pharmazeutischen Forschungsabteilung von Roche in
Penzberg (ein größeres Pharma Unternehmen) produktiv genutzt. Letzteres bietet
ein ideales Umfeld für die empirische Untersuchung der angewandten Prinzipien.


vi Die überwiegende Speicherung der Daten in Form unstrukturierter Textdokumente
und das Fehlen expliziter Metadaten, stellten eine ernste Herausforderung dar. Die
Einbindung von Semantik (traditionell als formale Wissensrepräsentation
verstanden) kann nämlich nur so gut sein wie die zugrundeliegenden Daten.
Nichtsdestotrotz sind wir in der Lage dieses Problem durch Einbindung
automatischer Metadaten ‐Extraktionsmethoden weitgehend zu umgehen. Die
Metadaten, welche wir extrahieren konnten, waren weder perfekt noch war die
daraus resultierende und von uns verwendete Ontologie semantisch betrachtet
besonders reich. Unsere Ergebnisse zeigen aber, daß bereits ein bißchen Semantik
die Informationsbeschaffung deutlich erleichtert.

Der Beitrag der Arbeit liegt also auf dem Gebiet der kontext ‐basierten Suche, d.h.
der Einbeziehung des Arbeitskontexts in den Suchprozeß – ein Gebiet, welches bis
jetzt noch nicht gut erforscht wurde.

vii Acknowledgements

“It is with words as with sunbeams. The more they are condensed, the deeper they
burn.”
Robert Southey (1774 – 1843)

I would like to thank my scientific mentor and advisor Prof. François Bry, who –
always optimistic and positive – helped me discover my research interests as well as
to find and shape my ideas. I appreciated the discussions with him, his feedback, and
his friendly attitude throughout my dissertation. I am also grateful to Prof. Steffen
Staab for his willingness to scientific cooperation. The experience and knowledge he
provided were particularly enlightening and helpful for my research.

Next, I thank my supervising tutor Dr. Alexander Manta at Roche and the company
itself for offerin

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents