araSearch

araSearch - eine anpassungsfähige Nutzerschnittstelle für Suchmaschinen basierend auf N-Grammen

Arabisch ist eine hoch inflektionale Sprache und sie stellt somit hohe Anforderungen an die notwendigen Vorverarbeitungsschritte. So werden z.B. viele Präpositionen, Konjunktionen und Artikel als Vorsilbe oder Endungen an Wörter angefügt und treten nicht als eigenständige Wörter im Satz auf. Bei existieren Suchmaschinen, die häufig keine genaue Wortstammbildung durchführen, führt dies somit zu einem niedrigen Recall aufgrund der sehr schlechten Suchbegriff-zu-Textwort Übereinstimmungen. Um dieses Problem zu lösen oder zumindest abzuschwächen müssen die eingesetzten Algorithmen zur Suche sehr gut zwischen verschiedenen Varianten desselben Wortes unterscheiden können. Alle Varianten einer Wortform zu erkennen, ist hierbei entscheidend, da ansonsten eine große Menge an Informationen dem Nutzer verborgen bleibt (niedriger Recall). Ein weiteres Problem der arabischen Sprache sind die in Büchern und insbesondere Internetseiten häufig fehlenden Zeichen, die die Aussprache der Konsonanten festlegen (Taschkil bzw. diacritics). Ohne diese ist die Bedeutung vieler Wörter jedoch nicht mehr eindeutig definiert, was zu einer sehr schlechten Qualität von Suchergebnissen führt (niedrige Präzision).

Im Rahmen unser Forschungsarbeiten ist die Suchmaschine araSearch entstanden. Es ist eine anpassungsfähige Meta-Suchmaschine, die als Schnittstelle existierenden Suchmaschine vorgeschaltet werden kann. Der entwickelte Ansatz basiert auf einem N-Gramm-basierten Verfahren, das die Wortvariationen mittels einer statistischen Analyse in die Suche einbeziehen kann. araSearch ist als sprachunabhängiges System ausgelegt. Weiterhin leitet araSearch den Nutzer, indem es ihn bei der Formulierung seiner Suchanfragen unterstützt.

araSearch_user-system interaction

 

Zugehörige Publikationen:

  • Farag Ahmed and Andreas Nürnberger, Evaluation of n-gram conflation approaches for arabic text retrieval. Journal of the American Society for Information Science and Technology (JASIST), Volume 60, issue 7 (July 2009) USA. pp. 1448-1465.
  • Farag Ahmed und Andreas Nürnberger, araSearch: Improving Arabic text retrieval via detection of word form variationsIn: Proceedings of the 1st International Conference on Information Systems and Economic Intelligence (SIIE'2008) 14-16 february 2008 at Hammamet in Tunisia, pp. 309-323. (Best Paper Award)

Letzte Änderung: 01.03.2018 - Ansprechpartner:

Sie können eine Nachricht versenden an: Prof. Dr.-Ing. Andreas Nürnberger
Sicherheitsabfrage:
Captcha
 
Lösung: