Jak Netflix ví, co chcete sledovat dřív než vy?

Délka:

6 min

Publikováno:

29. dubna 2025

Jak Netflix ví, co chcete sledovat dřív než vy?

Věděli jste, že Netflix má obrovský tým výzkumníků a že až 80 % toho, na co se na Netflixu díváte, ovlivňuje jejich systém pro doporučování titulů? Zajímalo vás někdy, jak doporučování funguje?

Doporučení, která vidíte, jsou výsledkem výkonných doporučovacích modelů. Původně měla každá sekce, například „Pokračovat v přehrávání“ a „Příště si nenechte ujít“, vlastní model. Bral sice data ze stejných zdrojů jako ostatní, ale trénoval se zvlášť. Udržovat a vylepšovat jednotlivé modely bylo čím dál náročnější a dražší.

Netflix se letos začíná posouvat k jednotnému a ucelenému systému. Staví výkonný foundation model (základní model), který rozumí chování a preferencím uživatelů a dokáže tato data sdílet napříč všemi doporučovacími systémy.

Z mnoha modelů jeden supermodel 👀

Původně měl Netflix spoustu menších modelů a každý se trénoval samostatně. Jeden si například pamatoval, co máte rádi z akčních filmů, jiný doporučoval pořady, které jsou zrovna populární. Modely spolu ale nekomunikovaly. To dělalo problémy hlavně při aktualizacích a kdykoli bylo třeba je vylepšit.

Nový přístup Netflixu vychází z toho, jak fungují velké jazykové modely (= large language models, zkráceně LLM). Místo spousty malých modelů teď Netflix staví jeden velký, který chápe vaše sledovací návyky jako celek. Ten pak pomáhá ostatním systémům tím, že sdílí, co se naučil, buď přímo, nebo skrz opakovaně použitelné embeddings.

Tokenizace aneb proměna sledovacích návyků na tokeny

Netflix je profesionální stalker. Sleduje každou vaši interakci: co sledujete, jak dlouho, co přeskočíte, dokonce i na jakém zařízení a v jakém jazyce. Jen surová (unlabeled) data sama o sobě ale nestačí. Netflix proto tyto (inter)akce převádí na tokeny (tokens), tedy jednotky chování, například „sledoval Stranger Things 40 minut na telefonu večer“.

Model těmito tokeny krmíte, aby se naučil, jak se uživatelé chovají v čase. Tady nastává další výzva, protože uživatelé dělají spoustu věcí. Netflix proto musí najít způsob, jak se rozhodnout, kolik detailů si zachová, a zároveň zařídit, aby se data zpracovala rychle.

Model se učí jako člověk, ne jen jako stroj

Jak už jsme zmínili, Netflix se inspiroval u LLM, které předpovídají další slovo neboli token. Netflix chce ale předpovídat další akci, kterou by uživatel mohl udělat. Akcí je spousta, a tak jim musí přikládat různou váhu. Sledování celého filmu má například větší váhu a význam než to, že se podíváte na tříminutový trailer. Model se tak učí vnímat, co je důležité, a díky tomu lépe doporučuje pořady, které by se vám mohly líbit.

Řešení problému „nový pořad“

Když vyjde nový film nebo seriál a nikdo ho ještě neviděl, jak ho Netflix může začít doporučovat?

Řeší to dvěma způsoby:

Incremental training (inkrementální trénování). Novým titulům přiřadí embeddings (dala by se říct iniciální data) podle podobných existujících titulů v databázi a postupně je zařadí už na základě reálných interakcí od uživatelů.
Metadata. I když pořad ještě nikdo neviděl, model zná žánr, jazyk a atmosféru a podle těchto informací odhadne, kam ho nejlépe zařadit.

Díky tomu se úplně nové pořady objeví ve vašich doporučeních hned první den. Dál už se ale pořad zařazuje podle toho, jak s ním uživatelé interagují.

Embeddings, tajná přísada

Embeddings jsou jako digitální otisky každého pořadu, uživatele nebo žánru. Zachycují jemné vzorce chování a preferencí. Tyto vektory pak Netflix sdílí s dalšími nástroji, například při hledání podobných pořadů, predikci dalšího sledování nebo personalizaci domovské stránky.

Má to ale háček. Embeddings se mění při každém novém trénování modelu. Netflix proto používá speciální matematické transformace, které vezmou staré embeddings a přetvoří je na nové. Vektory tak zůstávají co nejstabilnější a ostatní systémy s nimi mohou dál pracovat.

Závěr

Cílem Netflixu je, abyste v ideálním případě vůbec nic nehledali. Snaží se věci objevovat za vás a brát přitom v potaz vaše preference. Ty se tvoří podle toho, jak se na Netflixu chováte, ale i podle toho, jak se chovají uživatelé s podobnou historií.

Jejich foundation model je významný krok k jednotnému systému místo mnoha malých nástrojů. Stojí na centralizaci dat, inspiraci principy LLM a využití embeddings.

Model se lépe učí, rychleji se přizpůsobuje a dává kvalitnější doporučení. Stejně jako velké jazykové modely změnily práci s textem, může i tento přístup proměnit fungování doporučovacích systémů. Co to znamená pro nás? Přesnější doporučení a víc pořadů, na které se opravdu chceme dívat, aniž bychom je museli hledat.

Zdroje

Související články

TL;DR nejpoužívanějších AI pojmů - Ztrácíte se v názvosloví ze světa AI? Pak je tenhle článek pro vás. Dali jsme dohromady nejvyhledávanější a nejpoužívanější pojmy, které souvisejí s umělou inteligencí.
Let's talk about AI: #1 The yin and yang of AI - Discover the benefits and potential drawbacks of AI, including its impact on healthcare, education, the tech industry, job displacement, and security risks.
Let's talk about AI: #2 The Top 5 AI Tools for Technical Writers - Supercharge productivity: Jenni, Bearly, Fireflies, Synthesia, ChatGPT.
Let's talk about AI: #3 AI-Powered Solutions for Real-World Challenges - The last piece in this series will examine how to use AI technologies to optimize performance on a variety of tasks.
The Intersection of AI and Developer Experience - Artificial Intelligence (AI) has been making waves in various industries, and software development is no exception.

Zpět na postřehy

Chcete být o krok napřed?

Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.