Fraunhofer SCAI


Fraunhofer SCAI steht sowohl mit der speziellen Ausrichtung auf Fragestellungen und Herausforderungen der Informationsextraktion aus biomedizinischer Literatur als auch mit dem am SCAI entwickelten technologischen Ansatz zur biologischen Namenserkennung und Disambiguierung von Synonymen an international führender Stelle.

Fraunhofer SCAI bringt seine Expertise im Bereich der Informationsextraktion und die bereits entwickelten Softwarewerkzeuge in das Projekt ein. So ist die am SCAI etablierte Namenserkennung von biomedizinischen und chemischen Termen bei der Extraktion textueller Informationen von zentraler Bedeutung und Inhalt der Forschung biologisch geprägter Computerlinguistik. Nicht nur die Erkennung von Sprachvarianten, sondern auch die Zuordnung verschiedenster Synonyme zu definierten Entitäten (Disambiguierung), wie z.B. Genen oder chemischen Verbindungen, sind für die Pharma-Industrie relevant. Am Institut SCAI wurde in einem Kooperationsprojekt mit Aventis Pharma eine international konkurrenzfähige Plattform (ProMiner) zur Identifizierung und Normalisierung von Namensentitäten entwickelt. Neben der Extraktion aus Texten wurde in den letzten Jahren ein neuartiger Prototyp zur Rekonstruktion von chemischen Strukturen aus Bildern, wie sie in Patenten und anderen Veröffentlichungen vorkommen, entwickelt (chemoCR). Gerade in komplexen Dokumenten wie wissenschaftlichen Aufsätzen und Patenten spielt die Vorverarbeitung und Analyse des Layouts eine große Rolle. In Kombination von ProMiner (Text) und chemoCR (Bild) hat SCAI derzeit ein Alleinstellungsmerkmal.

Auf dem Gebiet des Text Minings konnte SCAI in öffentlichen Wettbewerben die exzellent Qualität der Lösung zeigen. Auf dem Gebiet des Image Minings in chemischen Abbildungen gibt es weltweit nur wenige akademische Gruppen, die an dem Problem forschen.