Производительность и экономика при инференсе LLM
На вебинаре разберём, из чего складывается стоимость инференса и какие решения при проектировании снижают бюджет на порядок
Разработать решение на базе ИИ — это половина дела. Вторая половина — запустить его так, чтобы экономика сходилась. Эксплуатация LLM в продакшене — это GPU-серверы за миллионы рублей в месяц. И на каждом шаге — решение, которое меняет итоговый счёт: какую модель взять, как сконфигурировать железо, как масштабировать под нагрузку. Выбор модели, архитектуры и конфигурации GPU может изменить стоимость инфраструктуры на порядок — как в плюс, так и в минус.
На вебинаре разберём, из чего складывается стоимость инференса и какие решения при проектировании снижают бюджет на порядок. С одной стороны — глубоко закопаемся в технические детали и способы оптимизации инференса (будет очень полезно для технарей), с другой стороны будем говорить про деньги и делиться конкретными бенчмарками про финансы/железо (будет полезно бизнесу)
Программа
Экономика инференса LLM-моделей: метрики, unit-экономика и подход к проектированию
Обсудим финансовую сторону инференса LLM-моделей. На какие метрики следует обращать внимание и как они связаны с Unit-экономикой продутка. Какие есть решения для оптимизации экономики при инференсе и какой стратегии при проектировании следует придерживаться, чтобы сходилась экономика при инференсе
Владислав КирпинскийПроизводительность при инференсе: как устроен инференс, способы оптимизации производительности, выбор LLM-модели и конфигурации GPU
Глубокий технический разбор того, как устроен инференс LLM изнутри — от механики генерации токенов до оптимизаций на уровне памяти и вычислений. Покажем, как выбор модели и конфигурации GPU меняет стоимость инфраструктуры на порядок. Сравним GPU на реальных бенчмарках под нагрузкой и посчитаем, что выгоднее.
Олег Казаков
Про спикеров

Владислав Кирпинский
Занимается развитием бизнеса Data и ML в Selectel. Вместе с командой развивает ML-платформу для обучения и развертывания ML-моделей

Олег Казаков
Занимается DevOps, DevSecOps, построением архитектуры и инфраструктуры, безопасностью, Observability, AI
Вебинар будет полезен для CTO, архитекторов, руководителей продуктов и разработчиков, которые строят LLM-решения и хотят понимать экономику их эксплуатации