Chihuahua või muffin? Minu otsing parimat arvutivisiooni API-d

See populaarne internetimeem demonstreerib murettekitavat sarnasust, mida jagavad chihuahuad ja kuklid. Neid pilte jagatakse tavaliselt tehisintellekti (AI) tööstuse esitlustes (kaasa arvatud mina).

Kuid üks küsimus, mida ma pole kedagi vastanud, on see, kui hea on kaasaegne tehisintellekt, eemaldades ebakindluse pildist, mis võiks sarnaneda chihuahuaga või muffiniga? Teie meelelahutuse ja hariduse huvides uurin seda küsimust täna.

Binaarne klassifikatsioon on olnud võimalik alates perceptroni algoritmi leiutamisest 1957. aastal. Kui te arvate, et tehisintellekt on nüüd hüpotees, teatas New York Times 1958. aastal, et leiutis oli arvuti algus, mis oleks võimeline kõndima, rääkima, nägema, kirjutada, paljundada ennast ja olla teadlik oma olemasolust. " Kui perceptroni masinad, nagu ka Mark 1, olid mõeldud pildi tuvastamiseks, suudavad nad tegelikkuses eristada ainult lineaarselt eraldatavaid mustreid. See takistab neil õppimast enamikus visuaalsetes meediumites leiduvaid keerukaid mustreid.

Pole ime, et maailm pettus ja järgnes tehisintellekti talv. Sellest ajast alates on mitmekihiline taju (populaarne 1980. aastatel) ja konvolutsioonilised närvivõrgud (mille pioneeriks oli Yann LeCun 1998. aastal) on kujutise tuvastamise ülesannetes ühekihilist tajumist kõvasti edestanud.

Suurte siltidega andmekogumitega, nagu ImageNet, ja võimsa GPU-andmetöötlusega on arenenud närvivõrgu arhitektuurid, nagu AlexNet, VGG, Inception ja ResNet, saavutanud arvutinägemuses tipptasemel jõudluse.

Arvuti nägemise ja pildituvastuse API-d

Kui olete masinõppeinsener, on nende mudelitega katsetamine ja täpsustamine lihtne, kasutades eelnevalt koolitatud mudeleid ja kaalu Keras / Tensorflow või PyTorch. Kui teil pole endal mugav närvivõrke kohandada, on teil õnne. Praktiliselt kõik juhtivad tehnoloogiahiidud ja paljulubavad idufirmad väidavad, et nad "demokratiseerivad tehisintellekti", pakkudes hõlpsasti kasutatavaid arvutinägemise API-sid.

Milline neist on parim? Sellele küsimusele vastamiseks peate enne lahenduste üksteisega võrdlemist selgelt määratlema oma ärieesmärgid, toote kasutamise juhtumid, testiandmekogumid ja edukuse mõõdikud.

Tõsise uurimise asemel saame vähemalt saada kõrgetasemelise ülevaate iga platvormi erinevast käitumisest, katsetades neid oma mänguasjaprobleemiga - eristades chihuahua muffinist.

Katse läbiviimine

Selleks jagasin kanoonilise meemi 16 testpildiks. Seejärel kasutan erinevate API-de tulemuste konsolideerimiseks insener Gaurav Oberoi kirjutatud avatud lähtekoodi. Iga pilt lükatakse läbi kuue eespool loetletud API-d, mis tagavad ennustustena suure usaldusväärsusega sildid. Erandiks on Microsoft, mis tagastab nii sildid kui ka pealdised, ja Cloudsight, mis kasutab inimese ja tehisintellekti hübriidtehnoloogiat, et tagastada ainult üks pealkiri. Seetõttu võib Cloudsight anda keeruliste piltide jaoks õudselt täpsed pealdised, kuid selle töötlemine võtab aega 10–20 korda.

Allpool on toodud väljundi näide. Kõigi 16 chihuahua versus muffinipildi tulemuste nägemiseks klõpsake siin.

Kui hästi API-d läksid? Peale Microsofti, kes ajas selle muffini topise segi, tunnistas iga teine ​​API, et pilt oli toit. Kuid polnud kokkulepet selle kohta, kas toit oli leib, kook, küpsised või kuklid. Google oli ainus API, mis tuvastas muffini edukaks märgiseks kõige tõenäolisemalt.

Vaatame chihuahua näidet.

Jällegi läksid API-d üsna hästi. Kõik nad mõistsid, et pilt on koer, ehkki vähesed neist jätsid täpse tõu vahele.

Kindlaid ebaõnnestumisi oli siiski. Microsoft tagastas kolmel korral räige vale pealdise, kirjeldades muffini kas topisena või kaisukaruna.

Google oli ülim muffini identifikaator, tagastades testikomplekti 7 muffinipildi kuue jaoks kõrgeima usaldusväärsusega sildi „muffin”. Teised API-d ei tagastanud ühegi muffinipildi esimese märgisena teksti „muffin”, vaid tagastasid selle asemel vähem asjakohased sildid nagu „leib”, „küpsis” või „koogikook”.

Kuid vaatamata oma edule, kukkus Google selle konkreetse muffinipildi osas läbi, tagastades ennustusteks "koon" ja "koeratõugude rühm".

Isegi maailma kõige arenenumad masinõppe platvormid komistavad meie keerulise chihuahua versus muffini väljakutsega. Inimese väikelaps võidab sügavat õppimist, kui on vaja teada saada, mis on toit ja mis on Fido.

Milline arvutivisiooni API on parim?

Sellele raskesti mõistetavale mõistatusele vastuse leidmiseks peate originaalartikli täielikuks lugemiseks minema TOPBOTSi juurde!