Curriculum Vitæ
| Name: | Valerie Enum Alissa Cohrs |
| Alter | 25 Jahre |
| Kontaktadresse: | hello@enumeration.eu |
| Führerscheinklasse: | B, L, AM |
| Sprachen: |
Deutsch (Erstsprache) Englisch (fließend) Finnisch (B1/B2) |
| Abschlüsse: |
Bachelor of Science (Informatik) Bachelor of Arts (Linguistik) |
Berufserfahrung
| seit 05/2021 |
evocenta GmbH, Gelsenkirchen als Prozessarchitektin Themengebiete bisher: Prozessdokumentation, ISO-27001-Zertifizierung |
| 03/2021 — 05/2021 |
Jobware GmbH, Paderborn als Softwareentwicklerin im Bereich Machine Learning Themengebiet: Extraktion von Bewerbungsdaten aus natürlicher Sprache in PDF-Lebensläufen Unter Verwendung von Haskell und Python |
| 08/2020 — 01/2021 |
Institut für Sprache und Information, HHU Düsseldorf als Programmiererin für neuronale Netze in der Phonologie (WHB, Teilzeit) Themengebiete: Vorhersagung von Wortformen im Maltesischen Tools: Python, pytorch, LSTM/GRU |
| 10/2016 — 03/2018 |
DFG-Sonderforschungsbereich 991, Projekt C10, HHU Düsseldorf als Programmiererin in der computerlinguistischen Forschung (SHK, Teilzeit) Themengebiete: semantisches Clustering von Adjektiven und Nomen, Clustersuche in Graphen, Korpuserstellung Tools: R, Python, igraph, LDA |
| 04/2016 — 07/2016 |
Institut für Informatik, HHU Düsseldorf als Programmiererin für Android-Apps (SHK, Teilzeit) Aufgabe: Entwicklung von Beispielapps für die Lehrvorlesung "Android-Entwicklung" Tools: Android-Studio, ADB, Android-Simulator |
| 01/2016 — 07/2016 |
Institut für Sprache und Information, HHU Düsseldorf als Programmiererin in der phonologischen Forschung (SHK, Teilzeit) Themengebiete: Transkription maltesischer Orthographie nach IPA, Heuristik für potenzielle weitere Wortformen Tools: Haskell, FreePascal |
Hochschulbildung
| 07/2018 — 02/2021 |
Master of Arts in Linguistic Data Science Unterprogramm: Linguistics & Language Technology University of Eastern Finland, Joensuu, Finnland Nicht abgeschlossen, Durchschnittsnote 4,56 (≈ in Deutschland 1,5) |
| 28.01.2019 | FörderLinK-Preis für die beste Bachelorprüfung in Linguistik in Düsseldorf 2018 (Referenz) |
| 10/2015 — 02/2018 |
Bachelor of Arts in Linguistik Schwerpunkt: Computerlinguistik Heinrich-Heine-Universität, Düsseldorf Bachelorarbeit: Computerlinguistische Analyse des Online-Wahlkampfes zur Bundestagswahl 2017 (PDF) Abschlussnote: 1,09 |
| 10/2014 — 03/2018 |
Bachelor of Science in Informatik Schwerpunkt: Logische Programmierung Heinrich-Heine-Universität, Düsseldorf Bachelorarbeit: Statische Prüfung von Prolog-Quellcode (PDF) Abschlussnote: 1,30 |
Veröffentlichungen
| (2019) | Enum Cohrs & Wiebke Petersen. Guessing a tweet author’s political party using weighted n-gram models. In: Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods and Tools, 101–113 (Einzel-PDF). |
| (tbd) | Jessica Nieder, Fabian Tomaschek, Enum Cohrs & Ruben van de Vijver. Modeling Maltese Noun Plural Patterns without Morphemes. Eingereicht für das Journal Language, Cognition and Neuroscience, aktuell im Peer Review (Preprint, Dateien). |
Technische Kenntnisse
| Programmiersprachen: | Haskell, Prolog, Python, R, C#, Pascal, Java |
| Techniken: | Markov-Modelle, neuronale Netze, genetische Programmierung, Erwartungsmaximierung, Fuzzy Logic |
| Weitere Tools: | PostgreSQL, Ansible, Proxmox/LXC, LaTeX, PyTorch, Tensorflow, Git/Darcs |
Persönliche Projekte
Die Quelltexte aller Projekte liegen auf Darcshub.
Karelian language toolbox
Ich entwickle ein statistisches Übersetzungssystem und Hilfsprogramme für das Sprachpaar Finnisch ↔ Olonets-Karelisch (Livvisch). Dafür habe ich einen Parallelcorpus aus bisher ca. 55 000 Sätzen (1 100 000 Tokens) gesammelt.
Aktuell umgesetzt ist die automatische Generierung von Wort-, Morph- und Phrasenwörterbüchern aus den Trainingsdaten, sowie automatisches Wortalignment und Morphzerlegung. Später soll die Übersetzung von Sätzen folgen. Dazu gibt es ein Webinterface. Der Quelltext ist ebenfalls online.
tokenizer-monad und tokenizer-streaming
tokenizer-monad ist eine Bibliothek mit dem Ziel, das Entwickeln von domänenspezifischen Tokenizern in Haskell möglichst stark zu vereinfachen, indem sie eine passende Monade und Hilfsfunktionen bereitstellt.
tokenizer-streaming ergänzt diese durch Unterstützung für eine verbreitete Streaming-Bibliothek. Liegt ein eingehender unendlicher Stream von Text oder Bytes vor, können mit tokenizer-monad geschriebene Tokenizer somit einfach zwischengeschaltet werden, und produzieren dann wieder einen unendlichen Stream von Tokens.
Garble
Garble wird eine Internet-Wayback-Machine zum Selberhosten. Dabei ist das Ziel nicht, annähernd so viel zu archivieren wie das Internet-Archive-Projekt, sondern es geht darum, regelmäßige Momentaufnahmen einiger weniger Seiten zu speichern, die für einen persönlich relevant sind — sei es, um sie zu vergleichen und Unterschiede zu finden, oder um Verfügbarkeit zu überwachen, oder um sich für den Fall wegbrechender Internetverbindung vorzubereiten.