Nu skulle det prøves.

17. august 2025
#linkedin

Nu skulle det prøves. Her i weekenden har jeg prøvet træne en OCR-model til at læse min egen håndskrift. Jeg er så gammeldags eller moderne at jeg...

Her i weekenden har jeg prøvet træne en OCR-model til at læse min egen håndskrift.

Jeg er så gammeldags eller moderne at jeg skriver dagbog og oveni er jeg så gammeldags eller moderne at jeg gør det i hånden (e-ink, dog, Ratta Supernote)

Men. Det er ikke det, det handler om.

Jeg vil nemlig gerne komme fra kragetæer til noget mere digitalt, som Obsidian, der er markdown-baseret.

DONT BRING KANONER TO A GRÅSPURVE FIGHT

Indtil videre har jeg løst det ved at kaste siderne efter GPT-4.1 (nu GPT-5) og bede den om, med en møjsommeligt konstrueret prompt, at konvertere til det simple tekstformat Markdown.

Det kan man godt. Og det fungerer udmærket. Men føles lidt for voldsomt. Og med et par few-shot eksempler (dybest set et par spørgsmål-svar som styrer LLM'en i den rigtige retning) og lidt tekstkontekst fra forrige side smidt ind også, ender det med at tage ca 40-60s pr side og nogle cents på OpenAIs pay-as-you-go API.

Så weekendprojektet har været at undersøge om man kan fine tune eller træne en transformers-baseret TrOCR-model til at læse min håndskrift, så man ikke skal brænde alt for mange tokens og CO2 af på navlepillende vås og forsmåede drømme om verdensherredømmet.

FREMGANGSMÅDEN

Man tager en dagbogsside i png-format.
Den splittes op i linjer så man får ca 18 png-filer pr side.
Sammen med Claude Code kan man hurtigt lave et simpelt web-tool til labelling af træningsdata.
Nu bliver det sjovt. Jeg har lavet et autolabelling script, der sender alle linje-billederne efter GPT-5 stykvis så man får en stor LLMs AI-bud på den korrekte tekst.
Nu skal man så være Human-in-the-loop, og i den smarte web labeller, man man reviewe og justere de AI-autoannoterede labels.
Start dit python fine tuning script og vent

Det er lidt en blanding af traditionel machinelearning med lidt generativt AI drysset drysset ind over.

DEN ENDELIGE DOM

Meget lidt anvendeligt. Det virker nemlig ikke rigtigt endnu, og kommer måske ikke til det. Men vanvittigt sjovt, lærerigt og det bedste kaninhul jeg har været nede i længe. Og jeg ved hvad jeg taler om 😺🐰

PS: billedet med det dårlige resultat er også det dårligste resultat, hvor basemodellen var en norsk trocr trænet til historiske manuskripter. Microsofts store handwritten base model klarer sig noget bedre men stadig ubrugelig 🤷‍♂️😁 Er dog ikke færdig med at prøve.

Delt indhold: Nu skulle det prøves.

Oprindeligt delt på LinkedIn

Forrige: Jeg har brugt weekenden på at få Claude til at snakke med min...
Næste: Software-dokumentation efter AI