Curriculum Vitæ
Name: | Valerie Enum Alissa Cohrs |
Alter | 25 Jahre |
Kontaktadresse: | hello@enumeration.eu |
Führerscheinklasse: | B, L, AM |
Sprachen: |
Deutsch (Erstsprache) Englisch (fließend) Finnisch (B1/B2) |
Abschlüsse: |
Bachelor of Science (Informatik) Bachelor of Arts (Linguistik) |
Berufserfahrung
seit 05/2021 |
evocenta GmbH, Gelsenkirchen als Prozessarchitektin Themengebiete bisher: Prozessdokumentation, ISO-27001-Zertifizierung |
03/2021 — 05/2021 |
Jobware GmbH, Paderborn als Softwareentwicklerin im Bereich Machine Learning Themengebiet: Extraktion von Bewerbungsdaten aus natürlicher Sprache in PDF-Lebensläufen Unter Verwendung von Haskell und Python |
08/2020 — 01/2021 |
Institut für Sprache und Information, HHU Düsseldorf als Programmiererin für neuronale Netze in der Phonologie (WHB, Teilzeit) Themengebiete: Vorhersagung von Wortformen im Maltesischen Tools: Python, pytorch, LSTM/GRU |
10/2016 — 03/2018 |
DFG-Sonderforschungsbereich 991, Projekt C10, HHU Düsseldorf als Programmiererin in der computerlinguistischen Forschung (SHK, Teilzeit) Themengebiete: semantisches Clustering von Adjektiven und Nomen, Clustersuche in Graphen, Korpuserstellung Tools: R, Python, igraph, LDA |
04/2016 — 07/2016 |
Institut für Informatik, HHU Düsseldorf als Programmiererin für Android-Apps (SHK, Teilzeit) Aufgabe: Entwicklung von Beispielapps für die Lehrvorlesung "Android-Entwicklung" Tools: Android-Studio, ADB, Android-Simulator |
01/2016 — 07/2016 |
Institut für Sprache und Information, HHU Düsseldorf als Programmiererin in der phonologischen Forschung (SHK, Teilzeit) Themengebiete: Transkription maltesischer Orthographie nach IPA, Heuristik für potenzielle weitere Wortformen Tools: Haskell, FreePascal |
Hochschulbildung
07/2018 — 02/2021 |
Master of Arts in Linguistic Data Science Unterprogramm: Linguistics & Language Technology University of Eastern Finland, Joensuu, Finnland Nicht abgeschlossen, Durchschnittsnote 4,56 (≈ in Deutschland 1,5) |
28.01.2019 | FörderLinK-Preis für die beste Bachelorprüfung in Linguistik in Düsseldorf 2018 (Referenz) |
10/2015 — 02/2018 |
Bachelor of Arts in Linguistik Schwerpunkt: Computerlinguistik Heinrich-Heine-Universität, Düsseldorf Bachelorarbeit: Computerlinguistische Analyse des Online-Wahlkampfes zur Bundestagswahl 2017 (PDF) Abschlussnote: 1,09 |
10/2014 — 03/2018 |
Bachelor of Science in Informatik Schwerpunkt: Logische Programmierung Heinrich-Heine-Universität, Düsseldorf Bachelorarbeit: Statische Prüfung von Prolog-Quellcode (PDF) Abschlussnote: 1,30 |
Veröffentlichungen
(2019) | Enum Cohrs & Wiebke Petersen. Guessing a tweet author’s political party using weighted n-gram models. In: Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods and Tools, 101–113 (Einzel-PDF). |
(tbd) | Jessica Nieder, Fabian Tomaschek, Enum Cohrs & Ruben van de Vijver. Modeling Maltese Noun Plural Patterns without Morphemes. Eingereicht für das Journal Language, Cognition and Neuroscience, aktuell im Peer Review (Preprint, Dateien). |
Technische Kenntnisse
Programmiersprachen: | Haskell, Prolog, Python, R, C#, Pascal, Java |
Techniken: | Markov-Modelle, neuronale Netze, genetische Programmierung, Erwartungsmaximierung, Fuzzy Logic |
Weitere Tools: | PostgreSQL, Ansible, Proxmox/LXC, LaTeX, PyTorch, Tensorflow, Git/Darcs |
Persönliche Projekte
Die Quelltexte aller Projekte liegen auf Darcshub.
Karelian language toolbox
Ich entwickle ein statistisches Übersetzungssystem und Hilfsprogramme für das Sprachpaar Finnisch ↔ Olonets-Karelisch (Livvisch). Dafür habe ich einen Parallelcorpus aus bisher ca. 55 000 Sätzen (1 100 000 Tokens) gesammelt.
Aktuell umgesetzt ist die automatische Generierung von Wort-, Morph- und Phrasenwörterbüchern aus den Trainingsdaten, sowie automatisches Wortalignment und Morphzerlegung. Später soll die Übersetzung von Sätzen folgen. Dazu gibt es ein Webinterface. Der Quelltext ist ebenfalls online.
tokenizer-monad und tokenizer-streaming
tokenizer-monad ist eine Bibliothek mit dem Ziel, das Entwickeln von domänenspezifischen Tokenizern in Haskell möglichst stark zu vereinfachen, indem sie eine passende Monade und Hilfsfunktionen bereitstellt.
tokenizer-streaming ergänzt diese durch Unterstützung für eine verbreitete Streaming-Bibliothek. Liegt ein eingehender unendlicher Stream von Text oder Bytes vor, können mit tokenizer-monad geschriebene Tokenizer somit einfach zwischengeschaltet werden, und produzieren dann wieder einen unendlichen Stream von Tokens.
Garble
Garble wird eine Internet-Wayback-Machine zum Selberhosten. Dabei ist das Ziel nicht, annähernd so viel zu archivieren wie das Internet-Archive-Projekt, sondern es geht darum, regelmäßige Momentaufnahmen einiger weniger Seiten zu speichern, die für einen persönlich relevant sind — sei es, um sie zu vergleichen und Unterschiede zu finden, oder um Verfügbarkeit zu überwachen, oder um sich für den Fall wegbrechender Internetverbindung vorzubereiten.