Curriculum Vitæ

Name: Valerie Enum Alissa Cohrs
Alter 25 Jahre
Kontaktadresse: hello@enumeration.eu
Führerscheinklasse: B, L, AM
Sprachen: Deutsch (Erstsprache)
Englisch (fließend)
Finnisch (B1/B2)

Hochschulbildung

10/2014 — 03/2018 Bachelor of Science in Informatik
Schwerpunkt: Logische Programmierung
Heinrich-Heine-Universität, Düsseldorf
Bachelorarbeit: Statische Prüfung von Prolog-Quellcode (PDF)
Abschlussnote: 1,30
10/2015 — 02/2018 Bachelor of Arts in Linguistik
Schwerpunkt: Computerlinguistik
Heinrich-Heine-Universität, Düsseldorf
Bachelorarbeit: Computerlinguistische Analyse des Online-Wahlkampfes zur Bundestagswahl 2017 (PDF)
Abschlussnote: 1,09
28.01.2019 FörderLinK-Preis für die beste Bachelorprüfung in Linguistik in Düsseldorf 2018 (Referenz)
ab 07/2018 Master of Arts in Linguistic Data Science
Unterprogramm: Linguistics & Language Technology
University of Eastern Finland, Joensuu, Finnland
Nicht abgeschlossen, Durchschnittsnote 4,56 (≈ in Deutschland 1,5)
Übersicht besonders relevanter Lehrmodule

Berufserfahrung

01/2016 — 07/2016 Institut für Sprache und Information, HHU Düsseldorf
als Programmiererin in der phonologischen Forschung
Themengebiete: Transkription maltesischer Orthographie nach IPA, Heuristik für potenzielle weitere Wortformen
Tools: Haskell, FreePascal
04/2016 — 07/2016 Institut für Informatik, HHU Düsseldorf
als Programmiererin für Android-Apps
Aufgabe: Entwicklung von Beispielapps für die Lehrvorlesung "Android-Entwicklung"
Tools: Android-Studio, ADB, Android-Simulator
10/2016 — 03/2018 DFG-Sonderforschungsbereich 991, Projekt C10, HHU Düsseldorf
als Programmiererin in der computerlinguistischen Forschung
Themengebiete: semantisches Clustering von Adjektiven und Nomen, Clustersuche in Graphen, Korpuserstellung
Tools: R, Python, igraph, LDA
08/2020 — 01/2021 Institut für Sprache und Information, HHU Düsseldorf
als Programmiererin für neuronale Netze in der Phonologie
Themengebiete: Vorhersagung von Wortformen im Maltesischen
Tools: Python, pytorch, LSTM/GRU

Veröffentlichungen

(2019)Enum Cohrs & Wiebke Petersen. Guessing a tweet author’s political party using weighted n-gram models.
In: Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods and Tools, 101–113 (Einzel-PDF).
(tbd)Jessica Nieder, Fabian Tomaschek, Enum Cohrs & Ruben van de Vijver. Modeling Maltese Noun Plural Patterns without Morphemes.
Eingereicht für das Journal Language, Cognition and Neuroscience, aktuell im Peer Review (Preprint, Dateien).

Technische Kenntnisse

Programmiersprachen: Haskell, Prolog, Python, R, C#, Pascal, Java
Techniken: Markov-Modelle, neuronale Netze, genetische Programmierung, Erwartungsmaximierung, Fuzzy Logic
Weitere Tools: PostgreSQL, Ansible, Proxmox/LXC, LaTeX, PyTorch, Tensorflow, Git/Darcs

Persönliche Projekte

Die Quelltexte aller Projekte liegen auf Darcshub.

Karelian language toolbox

Ich entwickle ein statistisches Übersetzungssystem und Hilfsprogramme für das Sprachpaar Finnisch ↔ Olonets-Karelisch (Livvisch). Dafür habe ich einen Parallelcorpus aus bisher ca. 55 000 Sätzen (1 100 000 Tokens) gesammelt.

Aktuell umgesetzt ist die automatische Generierung von Wort-, Morph- und Phrasenwörterbüchern aus den Trainingsdaten, sowie automatisches Wortalignment und Morphzerlegung. Später soll die Übersetzung von Sätzen folgen. Dazu gibt es ein Webinterface. Der Quelltext ist ebenfalls online.

tokenizer-monad und tokenizer-streaming

tokenizer-monad ist eine Bibliothek mit dem Ziel, das Entwickeln von domänenspezifischen Tokenizern in Haskell möglichst stark zu vereinfachen, indem sie eine passende Monade und Hilfsfunktionen bereitstellt.

tokenizer-streaming ergänzt diese durch Unterstützung für eine verbreitete Streaming-Bibliothek. Liegt ein eingehender unendlicher Stream von Text oder Bytes vor, können mit tokenizer-monad geschriebene Tokenizer somit einfach zwischengeschaltet werden, und produzieren dann wieder einen unendlichen Stream von Tokens.

Garble

Garble wird eine Internet-Wayback-Machine zum Selberhosten. Dabei ist das Ziel nicht, annähernd so viel zu archivieren wie das Internet-Archive-Projekt, sondern es geht darum, regelmäßige Momentaufnahmen einiger weniger Seiten zu speichern, die für einen persönlich relevant sind — sei es, um sie zu vergleichen und Unterschiede zu finden, oder um Verfügbarkeit zu überwachen, oder um sich für den Fall wegbrechender Internetverbindung vorzubereiten.