GeMTeX

German Medical Text Corpus

Das Hauptziel von GeMTeX ist der Aufbau eines großen annotierten Textkorpus deutscher klinischer Texte aus der täglichen Patientenversorgung. Mit dem Einverständnis der der Zustimmung von Patienten ist geplant, Dokumente aus den elektronischen Gesundheitsakten (ePA) von sechs Universitätskliniken auszuleiten. Mittels natürlicher Sprachverarbeitung (NLP) werden die Dokumente aufbereitet und in anonymisierter Form zur gemeinsamen Nutzung zur Verfügung gestellt. Dadurch entsteht ein wertvolles Textrepertoire für die Forschung und Entwicklung. Das Potenzial der Natural Language Processing (NLP) wächst durch die rasanten Fortschritte im maschinellen Lernen (Deep Learning). Dabei ist Klinische Sprache weit von der Alltags- und Wissenschaftssprache entfernt. Der Fortschritt von NLP-Verfahren wird entscheidend von speziell trainierten Sprachmodellen abhängen, die realistische klinische Dokumente benötigen. Die methodologische Plattform GeMTeX des MII Modul 3 wird die beiden größten Engpässe bisheriger Sprachmodelle, nämlich die Datenzugänglichkeit und die Datenannotation, lösen.

Die Medizininformatik-Initiative (MII) bietet eine einzigartige Gelegenheit, klinische Dokumente in großem Umfang zugänglich zu machen und sie mit systematischen Annotationen anzureichern. Eine deutsche medizinische Textsammlung wird die Entwicklung von NLP-Ressourcen fördern, die die Analyse von deutschen klinischen Texten unterstützen. GeMTeX wird eine technische und organisatorische Struktur schaffen, um anonymisierte Texte zu sammeln, aufzubereiten und durch Annotationen anreichern zu lassen. Damit deckt GeMTeX ein breites Spektrum an Annotationsaufgaben ab. Diese werden getestet, überprüft und in großem Umfang angewandt, um eine einzigartige Datenbank zu schaffen. KI-Modelle können trainiert und anschließend auf ihre Nützlichkeit im klinischen Alltag getestet werden. Die angereicherten Textdokumente und die Modelle werden über die Zentralbibliothek für Medizin (ZBMED) und über das DFG-geförderte Projekt NFDI4Health zur Verfügung gestellt, mit dem GeMTeX eng zusammenarbeitet.