Min oldefar var tvangsindskrevet på tysk side i 1. verdenskrig og...

19. november 2023
#linkedin

Min oldefar var tvangsindskrevet på tysk side i 1. verdenskrig og vi har i familien et tre-generations projekt med hans brevsamling. Det har jeg støvet...

Det har jeg støvet lidt af i weekenden, da jeg havde brug for en case til nogle eksperimenter med Natural Language Processing (NLP).

I den forbindelse er jeg stødt på par stærke danske NLP projekter, som jeg har brugt.

Fra Aarhus Universitet, Center for Humanities Computing DaCy: An efficient and unified framework for danish NLP - https://github.com/centre-for-humanities-computing/DaCy

Fra Alexandra Instituttet DaNLP: a repository for Natural Language Processing resources for the Danish Language: https://github.com/alexandrainst/danlp/

Det er supernemt at komme igang med at analysere danske tekster med disse værktøjer.

Jeg har smidt brevdata/kode/epub/etc her, hvis nogen skulle være interessede: https://github.com/dalager/jernkorsetbreve

(I disse LLM tider er skal det også lige bemærkes at der arbejdes på en dansk foundational model: Danish Foundation Models: https://github.com/centre-for-humanities-computing/danish-foundation-models - "A collaborative project for training foundational Danish language model" (LLM projekt fra AAU) )

Oprindeligt delt på LinkedIn

Forrige: Forestil dig, at du kommer ind til din læge, og vedkommende siger,
Næste: Site reboot med 11ty