#71: Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek

May 1, 2025

Die Größe von Sprachmodellen spielt eine überraschende Rolle: Ein kleineres 8B-Modell übertrifft ein 70B-Modell bei Fahrzeugpreisprognosen. Herausforderungen beim Feintuning auf Multi-GPU-Setups auf AWS werden angesprochen, und die Reproduzierbarkeit ist ein heißes Thema. GPUs sind für effizientes Feintuning unerlässlich, während CPU-Inferenzen deutlich langsamer sind. Zudem werden die Vorteile der Quantisierung von Modellen diskutiert, und ein Ausblick auf TabPFN zeigt neue spannende Entwicklungen in der Datenwissenschaft.

Ask episode

AI Snips

Chapters

Transcript

Episode notes

INSIGHT

Modellgröße nicht gleich Qualität

Größere LLMs mit mehr Parametern liefern nicht zwangsläufig bessere Prognosen.
In unserem Fahrzeugpreisprognose-Experiment war ein 8B-Modell besser als ein 70B-Modell.

ADVICE

Modellselektion bei Feintuning

Feintuning-Ergebnisse von LLMs sind oft nicht reproduzierbar, selbst mit gleichem Seed.
Empfehlungen: Mehrfache Feintunings laufen lassen und das beste Modell anhand Validierungsdaten selektieren.

INSIGHT

CPU für Prognosen möglich

Feintuning auf der CPU ist derzeit nicht praktikabel, GPU wird dafür benötigt.
Für Prognosen kann die CPU genutzt werden, ist aber ca. 30-mal langsamer als die GPU.

Get the Snipd Podcast app to discover more snips from this episode

Get the app

In dieser Folge geht's um die Frage: Macht Größe von Large Language Models (LLMs) bei Predictive Analytics wirklich einen Unterschied? Wir vergleichen Open-Source-Modelle mit bis zu 70 Milliarden Parametern – und siehe da, das 8B-Modell schlägt das große Schwergewicht. Außerdem berichten wir vom Finetuning auf einer AWS-Maschine mit 8 A100-GPUs und den Herausforderungen in Bezug auf die Reproduzierbarkeit. Auch das viel diskutierte DeepSeek-Modell haben wir im Autopreis-Benchmark antreten lassen. Und wie immer fragen wir uns: Was ist praktisch und was ist overkill?

**Zusammenfassung**

Modellgröße ≠ bessere Prognosen: Das Llama-3.1-8B übertraf das größere 70B-Modell bei der Fahrzeugpreisprognose
DeepSeek im Benchmark: Das chinesische Modell zeigt bei größeren Trainingsmengen eine ähnlich gute Performance wie das Llama-3.1-8B, ist bei kleinen Datensätzen aber schwächer
Finetuning mit Multi-GPU auf AWS: Für das 70B-Modell war ein Setup mit 8 A100-GPUs nötig
Reproduzierbarkeit bleibt schwierig: Trotz Seed erzeugen wiederholte Finetuning-Runs unterschiedliche Ergebnisse
Modellselektion empfohlen: Um zuverlässige Prognosen zu erhalten, sollte aus mehreren Finetuning-Durchläufen das beste Modell ausgewählt werden
CPU-Inferenz möglich, aber langsam: Im Vergleich zur GPU war die Vorhersage auf der CPU ca. 30-mal langsamer, Quantisierung könnte künftig Abhilfe schaffen
Ausblick auf TabPFN & Quantisierung: Kommende Beiträge widmen sich Erfahrungen mit TabPFN und der praktischen Umsetzung von quantisierten LLMs auf kleineren Maschinen

**Links**

[Begleitender Blogartikel] Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek https://www.inwt-statistics.de/blog/predictive-llms-skalierung-reproduzierbarkeit-und-deepseek
#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://inwt.podbean.com/e/50-predictive-analytics-mit-llms-ist-gpt35-besser-als-xgboost/
#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen https://inwt.podbean.com/e/64-predictive-llms-ubertreffen-open-source-modelle-jetzt-openai-und-xgboost-bei-preisprognosen/
vLLM Framework für schnelle Inferenz: https://github.com/vllm-project/vllm?tab=readme-ov-file
torchtune Finetuning-Framework von PyTorch: https://github.com/pytorch/torchtune
PyTorch Reproducibility: https://pytorch.org/docs/stable/notes/randomness.html
Paper zur Reproduzierbarkeit von QLoRA-Finetuning: S. S. Alahmari, L. O. Hall, P. R. Mouton and D. B. Goldgof, "Repeatability of Fine-Tuning Large Language Models Illustrated Using QLoRA," in IEEE Access, vol. 12, pp. 153221-153231, 2024, doi: 10.1109/ACCESS.2024.3470850 https://ieeexplore.ieee.org/document/10700744
heise online: Komprimierte KI: Wie Quantisierung große Sprachmodelle verkleinert von René Peinl https://www.heise.de/hintergrund/Komprimierte-KI-Wie-Quantisierung-grosse-Sprachmodelle-verkleinert-10206033.html
deepseek-ai/DeepSeek-R1-Distill-Llama-8B auf Huggingface https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B#6-how-to-run-locally
TabPFN: Hollmann, N., Müller, S., Purucker, L. et al. Accurate predictions on small data with a tabular foundation model. Nature 637, 319–326 (2025). https://doi.org/10.1038/s41586-024-08328-6
Feedback, Fragen oder Themenwünsche gern an podcast@inwt-statistics.de