Name: Data 2030 Summit 2025, Riyadh
Start: 2025-11-03T00:00:00+00:00
End: 2025-11-03T23:59:59+00:00
Location: Crowne Plaza Riyadh RDC Hotel & Convention

Session Outline

Training an LLM model in a multi-node setup is a complex and expensive process. Training failures can’t be eliminated, but downtime can be reduced. In this talk at the Data Innovation Summit 2024, Filipp Fisin from Nebius AI, provides an overview of techniques for more resilient training that they’ve found useful in their JAX-based multi-node training setup.

Key Takeaways

Multi-node training orchestration in Kubernetes via Argo with automatic failure recovery
A special type of Kubernetes health-checks to detect if a training process is stuck – techniques to efficiently save and load terabyte-scale checkpoints
XLA compilation cache
GPU node monitoring and auto-cordoning

Fail Fast & Recover Faster: Infrastructure Resilience of Multi-Node LLM Training – Filipp Fisin, Nebius AI

Session Outline

Key Takeaways

Leave a Reply Cancel reply

Read more

Harness Power of AI Models with Nvidia and Lenovo – Leif Nordlund, Lenovo, Carl Moberg, Avassa & Terje Lindholm, Arrow AI Lab EMEA

Cloudera: Generative AI for the Enterprise – Jake Bengtson, Cloudera

Overview of Large Scale Recommender Systems – Aditya Guglani, Meta

The Art of Speed: Unleashing Peak Performance in Generative AI – Ekaterina Sirazitdinova, NVIDIA

Extracting Value from Text: Are LLMs Always the Best Solution? – Didac Fortuny, Adevinta

News Classification with LLMs: Building Reliable Evaluation Datasets – Trine Engelund, JP/Politiken Media Group

Data 2030 Summit 2025, Stockholm

Nordic Data Science and Machine Learning Summit 2025, Stockholm

Chief AI Officer | Riyadh

Chief AI Officer | Dubai

Data 2030 Summit 2025, Riyadh