Natural Language Processing and Probability

ECTS 3.0

Inhaltsübersicht

Turning Words into Data:
Die Verarbeitung von Sprache (Natural Language Processing / NLP) ist ein sehr wichtiger Teil der Informationsbeschaffung und gehört deshalb zu den Grundkompetenzen von Data Scientists. Denn Daten sind DIE Ressource unserer Informationsgesellschaft und liefern wertvolle Informationen und damit einen Mehrwert, für Unternehmungen und für Einzelpersonen. Zudem ist der Grossteil der produzierten Daten unstrukturiert, oft in Form von Freitext. Letztlich geht es bei NLP um die Interaktion zwischen Computer und natürlicher Sprache, also zwischen Mensch und Maschine. 

In diesem Modul wird NLP stark mit der Wahrscheinlichkeitsrechnung und Statistik verknüpft, weil diese Methoden zwangsläufig bei der Verarbeitung und Analyse von Sprachen eingesetzt werden müssen. In den ausgewählten Themen wird deshalb NLP immersiv mit den notwendigen mathematischen Grundlagen behandelt: 

  • Letter / Word Statistics (Language Detector)
  • Vector Space Model / TF-IDF / Dimensionality Reduction (Text Similarity / Inverted Index)
  • Regular Expressions / Text Normalisation / Edit Distance (Spelling Correction)
  • Parsing Methods (Statistical Text Parsing)
  • Bayes Theorem / Language Modelling / N-Grams (Word Sense Disambiguation) 
  • Hidden Markov Models / Information & Relation Extraction (Statistical POS Tagging)
  • Question Answering (Document Retrieval)

Lernziele

  • Die Studierenden kennen die Grundlagen des Natural Language Processing und die wichtigsten Anwendungsgebiete.
  • Die Studierenden können wichtige Methoden der Wahrscheinlichkeits-rechnung und Statistik anwenden. 
  • Sie sind in der Lage, NLP-Algorithmen zu implementieren und auf Texte in Deutscher und Englischer Sprache anzuwenden.
  • Die Studierenden können die gewählten Modelle und Resultate quantitativ analysieren, bewerten und interpretieren. 
  • Die Studierenden können mit grossen Text-Corpora umgehen und eine geeignete NLP-Toolbox einsetzen.

Empfohlene Vorkenntnisse

  • Objektorientierte Programmierung 1 (oop1) & 2 (oop2)

    Mathematische Grundlagen (mgli) & (lag)

Leistungsbewertung

Erfahrungsnote