Data Science Deep Dive cover image

Data Science Deep Dive

Latest episodes

undefined
Jul 6, 2023 • 39min

#27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen?

Wir diskutieren den Einsatz von Large Language Models (LLMs) zur Klassifikation tabellarischer Daten, ein bis dato eher unerforschtes Anwendungsfeld. Wir vergleichen die Leistung eines LLMs mit der von XGBoost in einem Projekt zur Vorhersage von Churn. Obwohl XGBoost noch die Nase vorn hat, zeigt das LLM bemerkenswerte Ergebnisse. Wir beleuchten die technische Umsetzung, Herausforderungen sowie Potenziale, und geben einen Ausblick auf die Entwicklung dieses spannenden Anwendungsfeldes.   Links:  OpenAI Fine-Tune for Classification Example: https://github.com/openai/openai-cookbook/blob/main/examples/Fine-tuned_classification.ipynb TabLLM Paper: https://arxiv.org/abs/2210.10723 Dataset: https://www.kaggle.com/datasets/datazng/telecom-company-churn-rate-call-center-data Large Language Models in Production Conference: https://home.mlops.community/public/events/llm-in-prod-part-ii-2023-06-20
undefined
Jun 22, 2023 • 33min

#26: A/B-Testing: Erkenntnisse statt Bauchgefühl

A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt.  Links: https://www.inwt-statistics.com/blog/ab-testing https://www.inwt-statistics.de/blog/multi-armed-bandits-als-alternative-zum-a-b-test
undefined
May 25, 2023 • 39min

#25: Feature Store: Features als wiederverwendbares Datenprodukt

Feature Stores sind aktuell ein Trend im Bereich MLOps (Machine Learning Operations). Sie zielen darauf ab das Feature Engineering einfacher und schneller zu machen. Um Features nicht in jedem Projekt neu aufzubauen, bietet ein Feature Store die Möglichkeit sie quasi fertig aus dem Regal zu nehmen. Sinnvoll ist dies besonders wenn eine hohe Data Maturity vorhanden ist, d.h. wenn viele Modelle auf Features zugreifen und es viele Überschneidungen gibt.  Links: - https://mlops.community/learn/feature-store/ - https://docs.databricks.com/machine-learning/feature-store/online-feature-stores.html
undefined
May 11, 2023 • 35min

#24: Explainable AI: Entscheidungen von Black-Box-Modellen verstehen

Explainable Artificial Intelligence (XAI) setzt auf Black-Box-Modelle aus der Welt der künstlichen Intelligenz auf und macht sie interpretierbar. Damit verbindet XAI die Vorteile von KI mit denen der klassischen Statistik. Wie ermöglicht XAI komplexe Entscheidungsprozesse von Black-Box-Modellen zu verstehen und ihnen zu vertrauen? Dieser Frage gehen wir in dieser Folge nach.  Links: Impact Distillery: "Explainable AI – Vertrauen ist gut, Verständnis ist besser" von Prof. Dr. Steffen Wagner: https://www.impactdistillery.com/de/blog/2020-11-explainable-ai (inklusive der angesprochenen Grafiken)
undefined
Apr 27, 2023 • 35min

#23: Unsexy aber wichtig: Tests und Monitoring

Während Tests und Monitoring in der Softwareentwicklung schon lange Standard sind, ist die Data Science-Welt manchmal noch etwas hinterher. Wir schreiben viel Code, der regelmäßig im Produktivbetrieb läuft, u.a. um Prognosen zu berechnen und unseren Kund*innen zur Verfügung zu stellen. Dabei wollen wir sicher sein, dass alles funktioniert und mögliche Fehler zeitnah bemerken. Welche Besonderheiten es im Bereich Data Science dabei gibt, diskutieren wir in dieser Episode.
undefined
Apr 13, 2023 • 42min

#22: Sind Makro-Prognosen in Zeiten von Strukturbrüchen noch sinnvoll?

Wir untersuchen, wie sich Strukturbrüche wie Corona und der Ukraine Krieg sowie anhaltende Unsicherheit auf die Prognose makroökonomischer Zielgrößen auswirken. Anlass dafür ist der Financial Times Artikel "CEOs forced to ditch decades of forecasting habits" über Ikea. Wir diskutieren, wie man Makro-Prognosen nutzen kann, um auch in diesen unsicheren Zeiten einen wirtschaftlichen Mehrwert zu erzielen, und welche Rolle Expertise und Plausibilitätschecks bei der Modellierung spielen. Links: Financial Times Artikel: CEOs forced to ditch decades of forecasting habits von Anne-Sylvaine Chassany https://www.ft.com/content/456baa69-83df-4c7f-af7b-49e6451a1183 Prophet von Facebook https://facebook.github.io/prophet/
undefined
Mar 30, 2023 • 58min

#21: Machine Learning Operations (MLOps)

Software in Form eines Machine Learning Modells bringt zusätzliche Komplexität mit sich, denn die Algorithmen sind nicht deterministisch, sondern stochastischer Natur. Das bedeutet es braucht Expert*innen,  die bei der Entwicklung des Modells beteiligt waren, um es produktiv zu bringen. Wir sprechen über die Anforderungen an MLOps auf dem Weg in die Produktivumgebung: Monitoring, CI/CD, Reusability und Modellentwicklung. Links: MLOps: Market Map & Thesis by Rachit Kansal https://medium.com/@rachit.kansal.19/mlops-market-map-thesis-f5e403780953 MLOps Community https://mlops.community/
undefined
Mar 16, 2023 • 46min

#20: Ist Continuous Integration (CI) ein Muss für Data Scientists?

Continuous Integration (CI) ist zwar ein Konzept aus der Softwareentwicklung, aber aus dem Bereich Data Science nicht mehr wegzudenken. Wir diskutieren wie wichtig CI für Data Scientists ist und wie es genutzt werden kann um Data Science Workflows zu verbessern. 
undefined
Mar 2, 2023 • 30min

#19: Data Science und Story Telling

Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können. Links: Episode #18: Big Data Erfolgsgeschichten https://inwt.podbean.com/e/18-big-data-erfolgsgeschichten/ Episode #12: Use Case - Luftschadstoffprognose für Berlin https://inwt.podbean.com/e/12-use-case-luftschadstoffprognose-fur-berlin/ Die vorgestellten Konzepte basieren auf dem Buch von Claus Wilke: "Fundamentals of Data Visualization":https://clauswilke.com/dataviz/ Screenshot der Karte: Unterschätzung der Schadstoffbelastung am Passivsammler Hermannplatz https://i.imgur.com/1t75Ryf.png
undefined
Feb 16, 2023 • 39min

#18: Big Data Erfolgsgeschichten

In dieser Episode erforschen wir 3 vermeintliche Erfolgsgeschichten von Big Data. Wir diskutieren die Herausforderung solche Geschichten richtig zu interpretieren und welche Fragen man sich in diesem Bezug eigentlich stellen sollte. Links: inwt Blog https://www.inwt-statistics.de/blog/tag/Big-Data.html Episode #1: Big Data Hype https://www.podbean.com/ew/pb-dgbkn-12350e3 Big Five (Fünf-Faktoren-Modell) https://de.wikipedia.org/wiki/Big_Five_(Psychologie) Google Flu Trendshttps://en.wikipedia.org/wiki/Google_Flu_Trends Target Story: How companies Learn Your Secrets by Charles Duhigg https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html Cambridge Analytica https://de.wikipedia.org/wiki/Cambridge_Analytica Ingo Dachwitz - netzpolitik.org - Abschlussbericht der Datenschutzbehörde: Nein, der Cambridge-Analytica-Skandal fällt nicht in sich zusammen https://netzpolitik.org/2020/abschlussbericht-der-datenschutzbehoerde-nein-der-cambridge-analytica-skandal-faellt-nicht-in-sich-zusammen/ Der Fall Cambridge Analytica - WDR https://www.ardmediathek.de/video/planet-wissen/der-fall-cambridge-analytica/wdr/Y3JpZDovL3dkci5kZS9CZWl0cmFnLTY5N2RmYTYwLTA1ZTktNGY0Ni1hZTg1LWQyYmY0Njk1YTNmNw

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!
App store bannerPlay store banner
Get the app