Tip:
Highlight text to annotate it
X
Translator: Dimitra Papageorgiou Reviewer: Helena Bedalli
Më lejoni t'ju tregoj dicka.
(Video) Vajza: Kjo është një mace e ulur në krevat.
Djali po përkëdhel elefantin.
Janë njerëz që po shkojnë drejt një aeroplani.
Eshtë një aeroplan i madh.
Fei-Fei Li: Ky është një fëmijë tre-vjeçar
duke përshkruar atë që sheh në një seri fotosh.
Ajo mund të ketë ende shumë për të mësuar rreth botës,
por ajo është tashmë mjeshtre në një detyrë shumë të rëndësishme:
të kuptojë se çfarë po sheh.
Shoqëria jonë është më shumë se kurrë e avancuar teknologjikisht.
Ne dërgojmë njerëz në hënë, i bëjmë telefonat të komunikojnë me ne
apo i përshtasim stacionet e radios të luajnë muzikën që na pëlqen.
Prapë, makinat dhe kompjuterët tanë më të avancuar
e kanë të vështirë këtë punë.
Jam sot këtu t'ju *** një raport të ecurisë
mbi zhvillimet më të fundit në kërkimet tona në vizionin kompjuterik,
një nga teknologjitë më të reja dhe potencialisht revolucionare
në shkencat kompjuterike.
Po, kemi krijuar prototipe të makinave që vetë-drejtohen
por pa një vizion inteligjent, ato nuk mund ta gjejnë ndryshimin
midis një qese letre të zhubrosur në rrugë, mbi të cilën mund të kalosh,
dhe një guri po të të njejtave përmasa, i cili duhet shmangur.
Ne kemi krijuar kamera me rezolucion të lartë,
por nuk i kemi dhënë shikim të verbërve.
Avionët e telekomanduar fluturojnë gjatë dhe mbi hapsira masive ***,
por teknologjia vizive nuk është e mjaftueshme
për të monitoruar ndryshimet e pyjeve tropikale.
Kamerat e sigurisë janë kudo,
por nuk na lajmërojnë kur një fëmijë është duke u mbytur në pishinë.
Fotot dhe videot po bëhen një pjesë e pandashme e jetës globale.
Ata po gjenerohen me një ritëm aq të shpejtë, sa është e pamundur që
një individ, apo një grup individësh t'i shohë të gjitha,
dhe unë bashkë me ju po kontribojmë për këtë qëllim në TED.
Megjithatë, programet tona më të avancuara e kanë të vështirë ta kuptojnë
dhe menaxhojnë këtë sasi kaq të madhe informacioni.
Pra, me fjalë të tjera, bashkarisht si shoqëri,
ne jemi disi të verbër,
pasi makinat tona më inteligjente janë akoma të verbra.
"Pse është kaq e vështirë?" do të pyesnit ju.
Kamerat mund të kapin foto si kjo këtu
duke i shndërruar dritat në një matricë numrash
të njohura si piksela,
por këto janë thjesht numra pa jetë.
Nuk mbartin ndonjë kuptim në vetvete.
Njësoj si të dëgjuarit nuk është njësoj si ta kuptosh atë që dëgjon,
ashtu dhe të kapësh foto nuk është njësoj si të shohësh,
dhe me shikimin, ne nënkuptojmë dhe të kuptuarin e asaj që shohim.
Në fakt, Nënës Natyrë iu deshën 540 milionë vjet
për ta bërë këtë gjë,
dhe pjesa më e madhe e mundit
shkoi për zhvillimin e aparatit të përpunimit vizual në trurin tonë,
e jo vetëm për sytë.
Pra shikimi fillon me sytë,
por në të vërtetë zhvillohet në tru.
Kështu për 15 vjet, duke filluar me doktoraturën në Caltech
dhe më pas në krye të Vision Lab në Stanford,
kam punuar me mentorët, bashkëpunuesit dhe studentët e mi
për t'i mësuar kompjuterat të shohin.
Fusha jonë kërkimore quhet computer vision dhe machine learning.
Është pjesë e fushës së përgjithshme të inteligjencës artificiale.
Përfundimisht, ne duam t'i bëjmë kompjuterat të shohin ashtu si vetë ne:
të emërtojnë objekte, të identifikojnë njerëz, t'i shohin gjërat me 3 dimensione,
të kuptojnë marrdhëniet, emocionet, veprimet dhe qëllimet.
Ne thurim së bashku histori të tëra mbi njerëz, vende dhe sende
momentin e parë kur i hedhim një vështrim.
Hapi i parë drejt këtij qëllimi është t'i mësojmë kompjuterat të shohin objekte,
baza për ndërtimin e botës vizuale.
Në kushtet më të thjeshta, imagjinojeni këtë proces
si t'i tregosh kompjuterave disa imazhe të një objekti të caktuar
për shembull, imazhe te maceve,
dhe të ndërtosh një model që trajnohet dhe mëson nga këto imazhe.
Sa e vështirë mund të jetë?
Në fund të fundit, një mace është thjesht një grumbull formash dhe ngjyrash,
dhe me këtë mendim ecëm në ditët e hershme të modelimit të objekteve.
Ne do të përdornim matematikën për t'i treguar algoritmit kompjuterik
se një mace ka fytyrë të rrumbullakët, një trup topolak,
dy veshë me majë, dhe një bisht të gjatë,
dhe çdo gjë dukej mirë.
Po a do të funksiononte me këtë mace?
(Të qeshura)
Është komplet e ngatërruar.
Në këtë rast duhet t'i shtojmë një formë dhe këndvështrim tjetër modelit të objektit.
Po nëqoftëse macet janë të fshehura?
Po këto mace qesharake? (Të qeshura)
Tani besoj se e kuptoni ku e kam fjalën.
Edhe diçka kaq e thjeshtë sa një kafshë shtëpiake
përfaqësohet nga variacione të panumërta për të krijuar modelin e objektit,
dhe ky është vetëm një rast.
Pra rreth tetë vjet më parë,
një vrojtim mjaft i thjeshtë dhe i thellë ndryshoi mënyrën time të të menduarit.
Një fëmije askush nuk i mëson si të shohë,
veçanërisht në vitet e para të jetës.
Ato mësojnë përmes eksperiencave dhe shembujve.
Nëse i mendojmë sytë e një fëmije
si aparate fotografike biologjike,
ato kapin një foto çdo 200 millisekonda,
që është shpejtësia mesatare e lëvizjes së syrit.
Kështu deri në moshën tre-vjeçare, një fëmijë ka parë qindra miliona foto
të botës reale.
Këto janë shumë shembuj trajnues.
Pra, në vënd që të fokusohemi vetëm te përmirësimi i algoritmave,
ideja ime ishte t'i ushqenim dhe trajnonim algoritmat me atë tip të dhënash
që një fëmijë merr përmes eksperiences
në cilësi dhe sasi.
Me këtë ide,
e dinim se na duhej të mblidhnim një grup të dhënash
që përmban shumë më tepër imazhe seç mund të kemi patur ndonjëherë,
ndoshta njëmijë herë më shumë,
dhe së bashku me Profesorin Kai Li të Universitetit Princeton,
ne nisëm projektin ImageNet në 2007.
Për fat të mirë, nuk na u desh të montonim një aparat fotografik në kokë
dhe të prisnim për shumë vite.
Ne iu drejtuam internetit,
thesari më i madh i fotove që njerëzit kanë krijuar ndonjëherë.
Shkarkuam rreth një bilion imazhe
dhe përdorëm crowdsourcing, teknologjinë e kontributit të përbashkët online
si platformën Amazon Mechanical Turk, për të na ndihmuar në etiketimin e imazheve.
Në majat e veta, ImageNet ishte një nga punëdhënësit më të mëdhenj
të punonjësve të Amazon Mechanical Turk:
së bashku, gati 50,000 punonjës
nga 167 shtete nga e gjithë bota
na ndihmuan të përzgjidhnim, të klasifikonim dhe të etiketonim
rreth nje bilion imazhe potenciale.
Kjo ishte puna që u desh
për kapjen e çdo fraksioni të shëmbëlltyrës
që mendja e një fëmije regjistron në vitet e para të zhvillimit
Në retrospektivë, ideja e përdorimit të "big data"
për trajnimin e algoritmave kompjuterikë mund të duket e qartë tani,
por vite më parë, në 2007, nuk ishte kaq e qartë.
Ne ishim vërtet vetëm në këtë rrugëtim për mjaft kohë.
Disa kolegë të mitë, miqësisht më këshilluan të bëja diçka më të vlefshme,
dhe vazhdimisht luftonim për financimin e kërkimeve.
Njëherë madje, unë bëra shaka me studentët e diplomuar
se do të hapja sërish dyqanin tim të pastrimit kimik për të financuar ImageNet.
Në fund të fundit, ashtu arrita të financoj dhe studimet e mia.
Pra ne vazhduam.
Në 2009-n, projekti ImageNet paraqiti
një databazë me 15 milion imazhe
të klasifikuara në 22,000 klasa objektesh dhe gjërash
të organizuara sipas fjalëve të përdorura në Anglishten e përditshme.
Si në cilësi, ashtu dhe në sasi,
kjo ishte një arritje e paparë.
Si shembull, në rastin e maceve,
kemi më shumë se 62,000 mace
të të gjitha pamjeve, pozicioneve
dhe llojeve të maceve shtëpiake apo të egra.
Ne ishim të ngazëllyer nga puna e bërë me ImageNet,
dhe donim që e gjithë bota kërkimore të përfitonte nga rezultatet,
kështu në një mënyrë të ngjashme me TED, ne ia ofruam të dhënat falas
komunitetit kërkimor në të gjithë botën.
(Duartrokitje)
Tani që i kemi të dhënat për të ushqyer trurin e kompjuterit,
jemi gati t'i rikthehemi algoritmeve.
Rezultoi se, pasuria informative e ofruar nga ImageNet
përkonte në mënyrë të përkryer me një kategori të veçantë algoritmesh
të machine learning, që quhen convolutional neural network,
të aplikuar fillimisht nga Kunihiko Fukushima, Geoff Hinton, dhe Yann LeCun
ne vitet '70 dhe '80.
Ashtu si truri që përbëhet nga miliarda neurone të lidhura ngushtë,
njësia baze operative e një rrjeti neuronesh (neural network)
është një nyje e ngjashme me neuronin.
Ajo merr të dhëna nga nyjet e tjera
dhe i dërgon rezultatin e përpunimit të tjerave.
Për më tepër, këto qindra mijra madje edhe miliona nyje
janë të organizuara në shtresa hierarkike,
gjithashtu të ngjashme me trurin.
Në një rrjet tipik neuronesh për të trajnuar modelin për njohjen e objekteve,
ndodhen 24 milion nyje,
140 milion parametra,
dhe 15 miliardë lidhje.
Ky është një model gjigand.
Falë të dhënave masive ofruar nga ImageNet
dhe CPU-të dhe GPU-të moderne për trajnimin e nje modeli kaq të madh,
rrjeti konvolucional i neuroneve (convolutional neural network)
lulëzoi në një mënyrë që askush se priste.
U kthye në një arkitekturë fitimtare
për gjenerimin e rezultateve të reja në identifikimin e objekteve.
Ky është një kompjuter duke na treguar
se ky imazh përmban një mace
dhe vendin ku macja ndodhet.
Sigurisht ekzistojnë dhe gjëra të tjera përvec maceve,
pra ja një algoritëm komjuterik duke na treguar
se imazhi përmban nje djalë dhe një arush teddy;
një qen, një person, dhe një balonë të vogël në sfond;
apo një imazh shumë i ngarkuar me objekte
si një burrë, një skateboard, kangjella, e kështu me rradhë.
Ndonjëherë, kur kompjuteri nuk është mjaft i sigurt për atë që sheh,
ne e kemi mësuar të tregohet i zgjuar
e të na *** nje përgjigje të ***ët por më të sigurt, në vend që t'ia fusë kot
sic bëjmë ne,
por në raste të tjera, algoritmi ynë është i jashtëzakonshëm kur na tregon
saktësisht se me cilin objekt kemi të bëjmë,
si përbërjen, modelin, vitin e prodhimit të makinave.
Ne e aplikuam këtë algoritëm në miliona imazhe të Google Street View
të qindra qyteteve amerikane,
dhe mësuam dicka shumë interesante:
së pari, konfirmoi atë qe na thotë dhe logjika
cmimet e makinave janë në përpjestim të drejtë
me të ardhurat familjare.
Por per cudi, ato lidhen
dhe me shkallën e krimit në qytete,
apo mënyrën e votimit sipas kodeve postare.
Prit një minutë. Kaq ishte?
Arriti kompjuteri tashmë në të njejtin nivel madje dhe më lart se njeriu?
Jo kaq shpejt.
Deri tani, i kemi mësuar kompjuterit të shohë objekte.
Si të jetë një fëmijë i vogël duke mësuar ca emra.
është një arritje e pabesueshme,
por është vetëm hapi i parë.
Së shpejti do të hidhet një hap tjetër i madh zhvillimi,
dhe fëmijët do të fillojnë të flasin me fjali.
Kështu në vënd që të thonë se këtu në foto është një mace,
ju e dëgjuat tashmë vajzën e vogël duke na treguar se macja është shtrirë në krevat.
Pra, për t'i mësuar kompjuterit të shohë një foto dhe të gjenerojë fjali,
bashkimi i ngushtë mes të dhënave dhe algoritmit
duhet të hedhë një hap tjetër.
Tani, kompjuteri duhet të mësojë edhe nga imazhet
edhe nga gjuha natyrore
e folur nga njerëzit.
Ashtu sic truri integron shikimin me gjuhën,
ne zhvilluam një model që lidh pjesë vizuale të objekteve
si copëza vizuale
me fjalë dhe shprehje në fjali.
Rreth katër muaj më parë,
më në fund i bashkuam të gjitha
dhe prodhuam një nga modelet e para të vizionit kompjuterik
që bën të mundur gjenerimin e fjalive të ngjashme me ato që thonë njerëzit
kur shohin një foto për herë të parë.
Tani, jam gati t'ju tregoj se cfare thotë kompjuteri
kur sheh të njëjtën foto
që vajza e vogël po shihte në fillim të kësaj bisede.
(Video) Kompjuteri: Një njeri po qëndron pranë një elefanti.
Një avjon i madh duke qëndruar në një pistë aeroporti.
FFL: Patjeter, ne po punojmë ende fort për përmirësimin e algoritmave tanë,
dhe kemi ende shumë për t'i mësuar.
(Duartrokitje)
Dhe kompjuteri prapë bën gabime.
(Video) Kompjuteri: Një mace e shtrirë në një krevat në një batanije.
FFL: Sigurisht, kur sheh kaq shumë mace,
mendon pastaj që cdo gjë mund të duket si mace.
(Video) Kompjuteri: Një djalë i vogël duke mbajtur një shkop bejzbolli.
(Të qeshura)
FFL: Nëse s'ka parë kurrë furcë dhëmbësh, e ngatërron atë me një shkop bejzbolli
(Video) Kompjuteri: Një burrë hipur mbi kalë në një rrugë pranë një ndërtese.
(Të qeshura)
FFL: Ende nuk i kemi mësuar art kompjuterave.
(Video) Kompjuteri: Një zebra duke qëndruar në një fushë me bar
FFL: Dhe ende nuk ka mësuar të çmojë bukurinë mahnitëse të natyrës
ashtu siç bëjmë ne.
Pra ka qenë një udhëtim i gjatë.
Ishte mjaft vështirë të shkonim nga mosha zero në tre.
Sfida e vërtetë është të shkojmë nga tre në 13 e më tej.
Më lini t'ju risjell këtë foto të djalit me tortën.
Deri tani, ne i kemi mësuar kompjuterave të shohin sende
madje dhe të na tregojnë histori të thjeshta duke parë një foto.
(Video) Kompjuteri: Nje person i ulur pranë tavolinës me një tortë.
FFL: Por ka shumë më tepër në këtë foto
sesa thjesht një person dhe një tortë.
Kompjuteri nuk mund të shohë se kjo është një tortë e vecantë italiane
që shërbehet vetëm në kohën e Pashkëve.
Djali ka veshur bluzën e tij të preferuar
të cilën ia ka dhuruar i ati, pas një udhëtimi ne Sidney,
dhe ne mund ta shohim se sa i lumtur është ai
dhe cfarë i kalon nëpër mend në ato momente.
Ky është im bir, Leo.
Në kërkimin tim për inteligjencë vizuale,
mendoj për Leon vazhdimisht
dhe për botën e së ardhmes ku ai do të jetojë.
Kur një makineri do të mund të shohë,
doktorët dhe infermjerët do të kenë një palë sy të palodhur shtesë
për t'i ndihmuar të përcaktojnë diagnoza dhe të kujdesen për pacientët.
Makinat do të vozitin në mënyrë më inteligjente dhe më të sigurtë
Robotët, jo vetëm njerëzit,
do të na ndihmojnë të deportojmë në zonat e fatkeqësive, të shpëtojmë të plagosurit
Ne do të zbulojmë specie të reja, materiale më të mira,
dhe do të eksplorojmë kufij të padukshëm me ndihmën e kompjuterave
Dalë ngadalë, po i japim kompjuterit aftësinë për të parë.
Në fillim i mësojmë të shohin.
Më pas, ata na ndihmojnë ne të shohim më mirë.
Për herë të parë, sytë njerëzorë, nuk do të jenë të vetmit
që do të shohin dhe eksplorojnë botën.
Nuk do t'i përdorim kompjuterat vetëm për inteligjencën,
por do të bashkëpunojmë me to në mënyra që as nuk mund t'i imagjinojmë.
Ky është qëllimi im:
t'i japim kompjuterave inteligjencë vizuale
dhe të krijojmë një të ardhme më të mirë për Leon dhe botën.
Faleminderit.
(Duartrokitje)