Do sada ste videli tri primera koji se odnose na nadgledane algoritme za mašinsko učenje. U pitanju su K-najbliži sused, regresiona analiza i Naive Bayes a oni se bez ikakve sumnje najčešće koriste za klasifikaciju podataka. Pored toga ste bili u prilici da vidite kako funkcioniše K-Means grupisanje, koje se inače koristi za nenadgledano učenje i klastering. Zapamtite da svaki od ovih algoritama predstavlja samo alat koji je dizajniran da izvršava specifične zadatke, što znači da se od vas očekuje da budete kreativni i pronađete najbolji način za njegovo korišćenje.
Zato je uobičajeno da stručnjaci za obradu podataka kombinuju pomenute tehnike i formiraju nešto što se zove modeliranje ansambla. Ako ste glumac ili ljubitelj muzike, verovatno ste čuli za termin ansambl. On označava zajednički nastup većeg broja izvođača a isti princip se može primeniti i za algoritme mašinskog učenja.
Postoji nekoliko različitih načina za stvaranje ansambala a među najpopularnije spada tzv. pakovanje i slaganje (Bagging and Stacking). U prvom slučaju se koristi nekoliko verzija istog algoritma za mašinsko učenje a slaganje predstavlja upotrebu više različitih algoritama koji se zatim nadovezuju jedan na drugog.
Nekada sam radio za veliku prodavnicu kućne opreme. Jedan od najvećih problema je predstavljao izbor robe koja bi trebalo da se nalazi blizu kase. Ukoliko smatrate da to nije bitno, sigurno ćete se iznenaditi kada čujete koliko trgovci zarađuju na prodaji koja se obavlja u poslednjem trenutku. Sve ovo je predstavljalo veliki izazov, pa je bilo neophodno stvoriti čitav ansambl algoritama za mašinsko učenje. Pre konačnog izbora sam morao da razmotrim nekoliko mogućnosti a prva od njih je da se korišćenjem istog algoritma dođe do različitih rezultata. Obzirom da ova kompanija raspolaže sa više prodavnica, nije bilo teško prikupiti podatke za obuku koji potiču iz nasumičnih izvora a zatim iskoristiti K-najbližeg suseda za njihovu klasifikaciju. U sledećem koraku bi se ti rezultati objedinili i tim bi pokušao da uoči neki trend. U izvesnom smislu, to predstavlja način da se dođe do tačnog rezultata mada postoji mogućnost da se preciznost podigne na još viši nivo. To podrazumeva postepeno uvođenje novih podataka što u ovom slučaju predstavlja set za obuku koji obuhvata samo najpopularnije artikle. Pod pretpostavkom da je njihov najprodavaniji predmet bio čekić, mogli bi da koristimo K-najbližeg suseda i proverimo šta se uz njega najčešće kupuje. To bi trebalo da budu ekseri a bez obzira što većina ljudi intuitivno zna za ovu vezu, to neće biti dovoljno da ih odmah postavimo blizu kase. Zato ćemo iskoristiti drugi algoritam npr. Naive Bayes jer on ne pretpostavlja da su prediktori međusobno povezani. Dakle, on ne pretpostavlja da će vam, ako kupujete čekić biti potrebni i ekseri. Umesto toga, postoji mogućnost da će vaš izbor pasti na nešto sasvim nepovezano kao što su npr. čokoladice.
Mešanje i usklađivanje algoritama za mašinsko učenje će vam omogućiti da steknete različiti uvid u postojeće podatke. U svakom slučaju, tačnost predviđanja će zavisiti od kreativnosti vašeg tima za njihovu obradu.