Curriculum Vitæ

Name: Valerie Enum Alissa Cohrs
Alter 25 Jahre
Kontaktadresse: hello@enumeration.eu
Führerscheinklasse: B, L, AM
Sprachen: Deutsch (Erstsprache)
Englisch (fließend)
Finnisch (B1/B2)
Abschlüsse: Bachelor of Science (Informatik)
Bachelor of Arts (Linguistik)

Berufserfahrung

seit 05/2021 evocenta GmbH, Gelsenkirchen
als Prozessarchitektin
Themengebiete bisher: Prozessdokumentation, ISO-27001-Zertifizierung
03/2021 — 05/2021 Jobware GmbH, Paderborn
als Softwareentwicklerin im Bereich Machine Learning
Themengebiet: Extraktion von Bewerbungsdaten aus natürlicher Sprache in PDF-Lebensläufen
Unter Verwendung von Haskell und Python
08/2020 — 01/2021 Institut für Sprache und Information, HHU Düsseldorf
als Programmiererin für neuronale Netze in der Phonologie (WHB, Teilzeit)
Themengebiete: Vorhersagung von Wortformen im Maltesischen
Tools: Python, pytorch, LSTM/GRU
10/2016 — 03/2018 DFG-Sonderforschungsbereich 991, Projekt C10, HHU Düsseldorf
als Programmiererin in der computerlinguistischen Forschung (SHK, Teilzeit)
Themengebiete: semantisches Clustering von Adjektiven und Nomen, Clustersuche in Graphen, Korpuserstellung
Tools: R, Python, igraph, LDA
04/2016 — 07/2016 Institut für Informatik, HHU Düsseldorf
als Programmiererin für Android-Apps (SHK, Teilzeit)
Aufgabe: Entwicklung von Beispielapps für die Lehrvorlesung "Android-Entwicklung"
Tools: Android-Studio, ADB, Android-Simulator
01/2016 — 07/2016 Institut für Sprache und Information, HHU Düsseldorf
als Programmiererin in der phonologischen Forschung (SHK, Teilzeit)
Themengebiete: Transkription maltesischer Orthographie nach IPA, Heuristik für potenzielle weitere Wortformen
Tools: Haskell, FreePascal

Hochschulbildung

07/2018 — 02/2021 Master of Arts in Linguistic Data Science
Unterprogramm: Linguistics & Language Technology
University of Eastern Finland, Joensuu, Finnland
Nicht abgeschlossen, Durchschnittsnote 4,56 (≈ in Deutschland 1,5)
28.01.2019 FörderLinK-Preis für die beste Bachelorprüfung in Linguistik in Düsseldorf 2018 (Referenz)
10/2015 — 02/2018 Bachelor of Arts in Linguistik
Schwerpunkt: Computerlinguistik
Heinrich-Heine-Universität, Düsseldorf
Bachelorarbeit: Computerlinguistische Analyse des Online-Wahlkampfes zur Bundestagswahl 2017 (PDF)
Abschlussnote: 1,09
10/2014 — 03/2018 Bachelor of Science in Informatik
Schwerpunkt: Logische Programmierung
Heinrich-Heine-Universität, Düsseldorf
Bachelorarbeit: Statische Prüfung von Prolog-Quellcode (PDF)
Abschlussnote: 1,30

Veröffentlichungen

(2019)Enum Cohrs & Wiebke Petersen. Guessing a tweet author’s political party using weighted n-gram models.
In: Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods and Tools, 101–113 (Einzel-PDF).
(tbd)Jessica Nieder, Fabian Tomaschek, Enum Cohrs & Ruben van de Vijver. Modeling Maltese Noun Plural Patterns without Morphemes.
Eingereicht für das Journal Language, Cognition and Neuroscience, aktuell im Peer Review (Preprint, Dateien).

Technische Kenntnisse

Programmiersprachen: Haskell, Prolog, Python, R, C#, Pascal, Java
Techniken: Markov-Modelle, neuronale Netze, genetische Programmierung, Erwartungsmaximierung, Fuzzy Logic
Weitere Tools: PostgreSQL, Ansible, Proxmox/LXC, LaTeX, PyTorch, Tensorflow, Git/Darcs

Persönliche Projekte

Die Quelltexte aller Projekte liegen auf Darcshub.

Karelian language toolbox

Ich entwickle ein statistisches Übersetzungssystem und Hilfsprogramme für das Sprachpaar Finnisch ↔ Olonets-Karelisch (Livvisch). Dafür habe ich einen Parallelcorpus aus bisher ca. 55 000 Sätzen (1 100 000 Tokens) gesammelt.

Aktuell umgesetzt ist die automatische Generierung von Wort-, Morph- und Phrasenwörterbüchern aus den Trainingsdaten, sowie automatisches Wortalignment und Morphzerlegung. Später soll die Übersetzung von Sätzen folgen. Dazu gibt es ein Webinterface. Der Quelltext ist ebenfalls online.

tokenizer-monad und tokenizer-streaming

tokenizer-monad ist eine Bibliothek mit dem Ziel, das Entwickeln von domänenspezifischen Tokenizern in Haskell möglichst stark zu vereinfachen, indem sie eine passende Monade und Hilfsfunktionen bereitstellt.

tokenizer-streaming ergänzt diese durch Unterstützung für eine verbreitete Streaming-Bibliothek. Liegt ein eingehender unendlicher Stream von Text oder Bytes vor, können mit tokenizer-monad geschriebene Tokenizer somit einfach zwischengeschaltet werden, und produzieren dann wieder einen unendlichen Stream von Tokens.

Garble

Garble wird eine Internet-Wayback-Machine zum Selberhosten. Dabei ist das Ziel nicht, annähernd so viel zu archivieren wie das Internet-Archive-Projekt, sondern es geht darum, regelmäßige Momentaufnahmen einiger weniger Seiten zu speichern, die für einen persönlich relevant sind — sei es, um sie zu vergleichen und Unterschiede zu finden, oder um Verfügbarkeit zu überwachen, oder um sich für den Fall wegbrechender Internetverbindung vorzubereiten.