Čihuahua ar bandelė? Mano paieška geriausios kompiuterinės vizijos API

Šis populiarus interneto memas rodo nerimą keliantį panašumą tarp chihuahuų ir bandelių. Šie vaizdai dažniausiai dalijami dirbtinio intelekto (AI) pramonės pristatymuose (įskaitant ir mane).

Tačiau vienas klausimas, kurio nemačiau nė vieno atsakymo, yra toks, kaip gerai šiuolaikinis dirbtinis intelektas pašalina netikrumą dėl vaizdo, kuris galėtų būti panašus į chihuahua ar bandelę? Jūsų pramogoms ir švietimui aš šiandien nagrinėsiu šį klausimą.

Dvejetainis klasifikavimas buvo įmanomas nuo perceptrono algoritmo išradimo 1957 m. Jei manote, kad dabar dirbtinis intelektas yra prikimštas, „ New York Times “ 1958 m. Pranešė, kad išradimas buvo kompiuterio, kuris „galėtų vaikščioti, kalbėti, matyti, rašyti, daugintis ir suvokti savo egzistavimą “. Nors perceptron mašinos, kaip ir „Mark 1“, buvo skirtos atpažinti vaizdus, ​​iš tikrųjų jos gali įžvelgti tik linijiškai atskiriamus modelius. Tai neleidžia jiems išmokti sudėtingų modelių, randamų daugumoje vaizdinių laikmenų.

Nenuostabu, kad pasaulis nusivylė ir prasidėjo dirbtinio intelekto žiema. Nuo to laiko daugiasluoksnis suvokimas (populiarus devintajame dešimtmetyje) ir konvoliuciniai neuroniniai tinklai (1998 m. Pradininkai - Yannas LeCunas), atpažindami vaizdo atpažinimo užduotis, gerokai pranoko vieno sluoksnio suvokimą.

Turėdami didelius paženklintus duomenų rinkinius, tokius kaip „ImageNet“, ir galingą GPU skaičiavimą, pažangesnės neuroninio tinklo architektūros, tokios kaip „AlexNet“, „VGG“, „Inception“ ir „ResNet“, pasiekė aukščiausią kompiuterio regėjimo našumą.

Kompiuterio regėjimo ir atpažinimo API

Jei esate mašinų mokymosi inžinierius, lengva eksperimentuoti ir tiksliai sureguliuoti šiuos modelius, naudojant iš anksto apmokytus modelius ir svorius „Keras / Tensorflow“ arba „PyTorch“. Jei jums nepatogu patobulinti nervinius tinklus, jums pasisekė. Praktiškai visi pirmaujantys technologijų gigantai ir perspektyvūs startuoliai teigia, kad „demokratizuoja dirbtinį intelektą“, siūlydami lengvai naudojamas kompiuterio vizijos API.

Kuris yra geriausias? Norėdami atsakyti į šį klausimą, turėtumėte aiškiai apibrėžti savo verslo tikslus, produktų naudojimo atvejus, bandymo duomenų rinkinius ir sėkmės metriką, kad galėtumėte palyginti sprendimus tarpusavyje.

Vietoj rimto tyrimo galime bent jau aukšto lygio suvokti skirtingą kiekvienos platformos elgesį, išbandydami juos su žaislų problema - atskirti čihuahua nuo bandelės.

Testo atlikimas

Norėdami tai padaryti, aš padalinau kanoninę memą į 16 bandomųjų vaizdų. Tada aš naudoju inžinieriaus Gauravo Oberoi parašytą atvirojo kodo kodą, kad įtvirtinčiau skirtingų API rezultatus. Kiekvienas paveikslėlis perduodamas per šešias aukščiau išvardytas API, kurios prognozuoja labai patikimas etiketes. Išimtis yra „Microsoft“, kuri pateikia tiek etiketes, tiek antraštę, ir „Cloudsight“, kuri naudoja žmogaus ir dirbtinio intelekto hibridinę technologiją, kad grąžintų tik vieną antraštę. Štai kodėl „Cloudsight“ gali pateikti klaikiai tikslius sudėtingų vaizdų antraštes, tačiau apdorojimas užtrunka 10–20 kartų.

Žemiau pateikiamas išvesties pavyzdys. Norėdami pamatyti visų 16 chihuahua, palyginti su bandelėmis, rezultatus, spustelėkite čia.

Kaip gerai sekėsi API? Išskyrus „Microsoft“, kuri supainiojo šį bandelę su iškamša, kiekviena kita API pripažino, kad vaizdas yra maistas. Tačiau nebuvo susitarta, ar maistas buvo duona, pyragas, sausainiai ar bandelės. „Google“ buvo vienintelė API, kuri sėkmingai nustatė bandeles kaip labiausiai tikėtiną etiketę.

Pažvelkime į chihuahua pavyzdį.

Vėlgi, API pasirodė gana gerai. Visi jie suprato, kad vaizdas yra šuo, nors keli iš jų pasigedo tikslios veislės.

Vis dėlto būta neabejotinų nesėkmių. „Microsoft“ tris kartus grąžino akivaizdžiai neteisingą užrašą, kuriame bandelė apibūdinta kaip iškamša arba meškiukas.

„Google“ buvo pagrindinis bandelių identifikatorius, suteikiantis „muffin“ kaip didžiausią patikimumo etiketę 6 iš 7 bandymų rinkinyje esančių bandelių vaizdų. Kitos API negrąžino „muffin“ kaip pirmos bandelių nuotraukos etiketės, o grąžino mažiau aktualias etiketes, tokias kaip „duona“, „sausainis“ ar „cupcake“.

Tačiau, nepaisant daugybės sėkmių, „Google“ nesugebėjo sukurti šio konkretaus bandelės atvaizdo, kaip prognozę pateikdama „snukį“ ir „šunų veislių grupę“.

Net pažangiausias mašininio mokymosi platformas pasaulyje užklumpa mūsų sudėtingas čihuahua ir bandelės iššūkis. Žmogus ir vaikas pradeda giliai mokytis, kai reikia išsiaiškinti, kas yra maistas ir kas yra Fido.

Taigi kuri kompiuterio vizijos API yra geriausia?

Norėdami sužinoti atsakymą į šią nepagaunamą paslaptį, turėsite pereiti prie „TOPBOTS“, kad perskaitytumėte visą originalų straipsnį!