Pierre Beauguitte und
@osma haben gerade auf der
#swib24 demonstriert, dass automatische Formalerschließung von grauer Literatur mit einem ressourcenschonenden
#SLM (Small Language Model) auf lokalen Geräten (Qwen2 0.5B, nur auf CPU) bis zu 85% akkurate Ergebnisse liefern und dabei auch Katalogisierungskonventionen berücksichtigen kann. Mit einem
#LLM (Mistral Nemo 12B, mit GPU) konnten sie bis zu 92% erreichen. Dabei wichtiges Take-Away: Bibliotheken müssen ihre Trainingsdaten zusammenführen, damit guten Resulate erzielt werden können. Die beiden Nationalbibliotheken Norwegen und Finnland haben das in diesem Fall vorbildhaft gezeigt. Das Trainingsdatenset FinGreyLit ist schon unter CC0 veröffentlicht und wurde auf englischen, finnischen und schwedischen Dokumenten trainiert, die mit Dublin Core erschlossen wurden:
https://github.com/NatLibFi/FinGreyLit#KIinBibliotheken #Bibliotheken #GenerativeKI #LLMs #KI #Erschliessung #Katalogisierung