
Data Science Deep Dive
Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.
Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.
Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.
Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.
Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.
Latest episodes

Jul 6, 2023 • 39min
#27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen?
Wir diskutieren den Einsatz von Large Language Models (LLMs) zur Klassifikation tabellarischer Daten, ein bis dato eher unerforschtes Anwendungsfeld. Wir vergleichen die Leistung eines LLMs mit der von XGBoost in einem Projekt zur Vorhersage von Churn. Obwohl XGBoost noch die Nase vorn hat, zeigt das LLM bemerkenswerte Ergebnisse. Wir beleuchten die technische Umsetzung, Herausforderungen sowie Potenziale, und geben einen Ausblick auf die Entwicklung dieses spannenden Anwendungsfeldes.
Links:
OpenAI Fine-Tune for Classification Example: https://github.com/openai/openai-cookbook/blob/main/examples/Fine-tuned_classification.ipynb
TabLLM Paper: https://arxiv.org/abs/2210.10723
Dataset: https://www.kaggle.com/datasets/datazng/telecom-company-churn-rate-call-center-data
Large Language Models in Production Conference: https://home.mlops.community/public/events/llm-in-prod-part-ii-2023-06-20

Jun 22, 2023 • 33min
#26: A/B-Testing: Erkenntnisse statt Bauchgefühl
A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt.
Links:
https://www.inwt-statistics.com/blog/ab-testing
https://www.inwt-statistics.de/blog/multi-armed-bandits-als-alternative-zum-a-b-test

May 25, 2023 • 39min
#25: Feature Store: Features als wiederverwendbares Datenprodukt
Feature Stores sind aktuell ein Trend im Bereich MLOps (Machine Learning Operations). Sie zielen darauf ab das Feature Engineering einfacher und schneller zu machen. Um Features nicht in jedem Projekt neu aufzubauen, bietet ein Feature Store die Möglichkeit sie quasi fertig aus dem Regal zu nehmen. Sinnvoll ist dies besonders wenn eine hohe Data Maturity vorhanden ist, d.h. wenn viele Modelle auf Features zugreifen und es viele Überschneidungen gibt.
Links:
- https://mlops.community/learn/feature-store/
- https://docs.databricks.com/machine-learning/feature-store/online-feature-stores.html

May 11, 2023 • 35min
#24: Explainable AI: Entscheidungen von Black-Box-Modellen verstehen
Explainable Artificial Intelligence (XAI) setzt auf Black-Box-Modelle aus der Welt der künstlichen Intelligenz auf und macht sie interpretierbar. Damit verbindet XAI die Vorteile von KI mit denen der klassischen Statistik. Wie ermöglicht XAI komplexe Entscheidungsprozesse von Black-Box-Modellen zu verstehen und ihnen zu vertrauen? Dieser Frage gehen wir in dieser Folge nach.
Links:
Impact Distillery: "Explainable AI – Vertrauen ist gut, Verständnis ist besser" von Prof. Dr. Steffen Wagner: https://www.impactdistillery.com/de/blog/2020-11-explainable-ai (inklusive der angesprochenen Grafiken)

Apr 27, 2023 • 35min
#23: Unsexy aber wichtig: Tests und Monitoring
Während Tests und Monitoring in der Softwareentwicklung schon lange Standard sind, ist die Data Science-Welt manchmal noch etwas hinterher. Wir schreiben viel Code, der regelmäßig im Produktivbetrieb läuft, u.a. um Prognosen zu berechnen und unseren Kund*innen zur Verfügung zu stellen. Dabei wollen wir sicher sein, dass alles funktioniert und mögliche Fehler zeitnah bemerken. Welche Besonderheiten es im Bereich Data Science dabei gibt, diskutieren wir in dieser Episode.

Apr 13, 2023 • 42min
#22: Sind Makro-Prognosen in Zeiten von Strukturbrüchen noch sinnvoll?
Wir untersuchen, wie sich Strukturbrüche wie Corona und der Ukraine Krieg sowie anhaltende Unsicherheit auf die Prognose makroökonomischer Zielgrößen auswirken. Anlass dafür ist der Financial Times Artikel "CEOs forced to ditch decades of forecasting habits" über Ikea. Wir diskutieren, wie man Makro-Prognosen nutzen kann, um auch in diesen unsicheren Zeiten einen wirtschaftlichen Mehrwert zu erzielen, und welche Rolle Expertise und Plausibilitätschecks bei der Modellierung spielen.
Links:
Financial Times Artikel: CEOs forced to ditch decades of forecasting habits von Anne-Sylvaine Chassany https://www.ft.com/content/456baa69-83df-4c7f-af7b-49e6451a1183
Prophet von Facebook https://facebook.github.io/prophet/

Mar 30, 2023 • 58min
#21: Machine Learning Operations (MLOps)
Software in Form eines Machine Learning Modells bringt zusätzliche Komplexität mit sich, denn die Algorithmen sind nicht deterministisch, sondern stochastischer Natur. Das bedeutet es braucht Expert*innen,
die bei der Entwicklung des Modells beteiligt waren, um es produktiv zu bringen. Wir sprechen über die Anforderungen an MLOps auf dem Weg in die Produktivumgebung: Monitoring, CI/CD, Reusability und Modellentwicklung.
Links:
MLOps: Market Map & Thesis by Rachit Kansal https://medium.com/@rachit.kansal.19/mlops-market-map-thesis-f5e403780953
MLOps Community https://mlops.community/

Mar 16, 2023 • 46min
#20: Ist Continuous Integration (CI) ein Muss für Data Scientists?
Continuous Integration (CI) ist zwar ein Konzept aus der Softwareentwicklung, aber aus dem Bereich Data Science nicht mehr wegzudenken. Wir diskutieren wie wichtig CI für Data Scientists ist und wie es genutzt werden kann um Data Science Workflows zu verbessern.

Mar 2, 2023 • 30min
#19: Data Science und Story Telling
Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können.
Links:
Episode #18: Big Data Erfolgsgeschichten https://inwt.podbean.com/e/18-big-data-erfolgsgeschichten/
Episode #12: Use Case - Luftschadstoffprognose für Berlin https://inwt.podbean.com/e/12-use-case-luftschadstoffprognose-fur-berlin/
Die vorgestellten Konzepte basieren auf dem Buch von Claus Wilke: "Fundamentals of Data Visualization":https://clauswilke.com/dataviz/
Screenshot der Karte: Unterschätzung der Schadstoffbelastung am Passivsammler Hermannplatz https://i.imgur.com/1t75Ryf.png

Feb 16, 2023 • 39min
#18: Big Data Erfolgsgeschichten
In dieser Episode erforschen wir 3 vermeintliche Erfolgsgeschichten von Big Data. Wir diskutieren die Herausforderung solche Geschichten richtig zu interpretieren und welche Fragen man sich in diesem Bezug eigentlich stellen sollte.
Links:
inwt Blog https://www.inwt-statistics.de/blog/tag/Big-Data.html
Episode #1: Big Data Hype https://www.podbean.com/ew/pb-dgbkn-12350e3
Big Five (Fünf-Faktoren-Modell) https://de.wikipedia.org/wiki/Big_Five_(Psychologie)
Google Flu Trendshttps://en.wikipedia.org/wiki/Google_Flu_Trends
Target Story: How companies Learn Your Secrets by Charles Duhigg https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html
Cambridge Analytica https://de.wikipedia.org/wiki/Cambridge_Analytica
Ingo Dachwitz - netzpolitik.org - Abschlussbericht der Datenschutzbehörde: Nein, der Cambridge-Analytica-Skandal fällt nicht in sich zusammen https://netzpolitik.org/2020/abschlussbericht-der-datenschutzbehoerde-nein-der-cambridge-analytica-skandal-faellt-nicht-in-sich-zusammen/
Der Fall Cambridge Analytica - WDR https://www.ardmediathek.de/video/planet-wissen/der-fall-cambridge-analytica/wdr/Y3JpZDovL3dkci5kZS9CZWl0cmFnLTY5N2RmYTYwLTA1ZTktNGY0Ni1hZTg1LWQyYmY0Njk1YTNmNw