Computational Linguistics, by Lucas Freitas

>> Lucas Freitas: Hey. Mirë se vini të gjithë. Emri im është Lucas Freitas. Unë jam një i vogël në [padëgjueshme] studiuar shkenca kompjuterike me një fokus në gjuhësi kompjuterike. Pra mesëm im është në gjuhën dhe teoria gjuhësore. Unë jam i gëzuar me të vërtetë për të mësuar ju djema pak pak për këtë fushë. Kjo është një zonë shumë emocionuese për të studiuar. Gjithashtu me shumë potencial për të ardhmen. Pra, unë jam i gëzuar me të vërtetë se ju djema janë marrë parasysh projekte në gjuhësi kompjuterike. Dhe unë do të jenë më se të lumtur për të këshilluar ndonjë nga ju, nëse ju vendosni të ndjekin një nga ata. >> Pra, në radhë të parë se cilat janë kompjuterike gjuhësi? Pra, gjuhësi kompjuterike është ndërprerje midis linguistikës dhe shkenca kompjuterike. Pra, çfarë është gjuhësi? Çfarë është shkenca kompjuterike? Pra nga gjuhësi, çfarë kemi marrë janë gjuhë. Pra, gjuhësi është në të vërtetë studimi e gjuhës natyrore në përgjithësi. Gjuha kaq e natyrshme - ne flasim për Gjuha që ne në fakt përdorin të komunikuar me njëri tjetrin. Pra, ne nuk jemi duke folur saktësisht në lidhje me C apo Java. Ne jemi duke folur më shumë për gjuhën angleze dhe Gjuhët kineze dhe të tjera që ne përdorim për të komunikuar me njëri tjetrin. >> Gjë e vështirë në lidhje me atë është se tani ne kemi gati 7,000 Gjuhët në botë. Pra, ka një shumëllojshmëri mjaft të larta e gjuhëve që ne mund të studiojnë. Dhe pastaj ju mendoni se kjo është ndoshta shumë e vështirë për të bërë, për shembull, Përkthimi nga një gjuhë në tjetër, duke marrë parasysh se ju keni pothuajse 7,000 prej tyre. Pra, nëse ju mendoni se e bën të përkthimit nga një gjuhë në tjetrën ju kanë pothuajse më shumë se një milion kombinime të ndryshme që ju mund të kanë nga gjuha në gjuhë. Pra, është e vërtetë e vështirë për të bërë disa lloj sistemi shembull i përkthimit për çdo gjuhë të vetme. >> Pra, letërsi trajton me sintaksë, semantikë, Pragmatikë. Ju djema nuk kanë nevojë pikërisht të dinë se çfarë janë ata. Por gjë shumë interesante është se si një Gjuha amtare, kur ju të mësoni Gjuha si fëmijë, ju në të vërtetë të mësojnë të gjitha ato gjëra - semantikë sintakse dhe pragmatics - me veten. Dhe askush nuk ka për të mësuar ju sintaksë për ju të kuptoni se si dënimet janë strukturuar. Pra, kjo është me të vërtetë interesante, sepse kjo është diçka që vjen shumë intuitive. >> Dhe çfarë jeni duke marrë nga shkenca kompjuterike? E pra, gjëja më e rëndësishme që ne të kanë në shkenca kompjuterike është parë e gjitha, inteligjencës artificiale dhe të mësuarit e makinës. Pra, ajo që ne jemi duke u përpjekur për të bërë gjuhësi kompjuterike është i mësojnë kompjuterin tuaj si të bëjë diçka me gjuhën. >> Kështu, për shembull, në makinë përkthim. Unë jam duke u përpjekur për të mësuar se si kompjuterin tim të dinë se si të kalojnë nga një gjuhë të tjera. Pra, në thelb të doja të mësimdhënies një kompjuter dy gjuhë. Nëse unë bëjë përpunimin e gjuhës natyrore, e cila është rasti për shembull të Facebook Grafiku Kërkim, ju mësojnë kompjuterin tuaj se si për të kuptuar pyetje e mirë. >> Pra, nëse ju thoni "fotot e mia miqtë. "Facebook nuk trajtojnë që si një varg të tërë që ka vetëm një bandë e fjalëve. Ajo në fakt kupton relacionin midis "fotot" dhe "miqtë e mi" dhe e kupton se "fotot" janë ***ë e "miqve të mi." >> Pra, kjo është pjesë e, për shembull, të përpunimit të gjuhës natyrore. Ajo është duke u përpjekur për të kuptuar se çfarë është raporti ndërmjet fjalët në një fjali. Dhe pyetja e madhe është, ju mund të mësojnë se si një kompjuter për të folur një gjuhë në përgjithësi? E cila është një pyetje shumë interesante për të mendojnë, si në qoftë se ndoshta në të ardhmen, ju jeni do të jetë në gjendje të flisni në telefonin tuaj celular. Lloj si ajo që ne bëjmë me Siri, por diçka më shumë si, ju mund të vërtetë thonë çfarë të doni dhe telefoni do të kuptojnë çdo gjë. Dhe kjo mund të ketë ndjekur deri pyetje dhe vazhdoni të flisni. Kjo është diçka me të vërtetë emocionuese, sipas mendimit tim. >> Pra, diçka në lidhje me gjuhët natyrore. Diçka me të vërtetë interesante në lidhje me gjuhët natyrore është se, dhe kjo është kredia për gjuhësi profesori im, Maria Polinsky. Ajo jep një shembull dhe unë mendoj kjo është me të vërtetë interesante. Sepse ne mësojnë gjuhën nga kur ne jemi lindur dhe pastaj amtare ynë Gjuha lloj rritet mbi ne. >> Dhe në thelb ju mësojnë gjuhën nga input minimal, apo jo? Ju jeni vetëm duke marrë të dhëna nga tuaj prindërit e asaj që tingëllon gjuhën tuaj pëlqen dhe ju vetëm të mësojnë atë. Pra, kjo është interesante, sepse në qoftë se ju shikoni në ato fjali, për shembull. Ju shikoni, "Mary e vë në një pallto çdo Ora ajo largohet nga shtëpia. " >> Në këtë rast, është e mundur që të ketë Fjala "ajo" i referohet Marisë, e drejtë? Ju mund të thoni "Mary e vë në një pallto çdo herë Mary lë shtëpi. "kështu që kjo është në rregull. Por atëherë në qoftë se ju shikoni në fjalinë "Ajo e vë në një pallto çdo herë Mary lë shtëpinë. "ju e dini se është e pamundur të thuhet se "ajo" është duke iu referuar Marisë. >> Nuk ka asnjë mënyrë për të thënë se "Mary vë në një pallto çdo herë Mary lë shtëpi. "Pra, kjo është interesante për shkak se kjo është lloj i intuitës se çdo Gjuha amtare ka. Dhe askush nuk u mësoi se kjo është mënyra se punon sintaksë. Dhe që ju vetëm mund të keni këtë "ajo" duke iu referuar Marisë në këtë rastin e parë, dhe në fakt në këtë tjetrin shumë, por jo në këtë një të tillë. Por të gjithë llojet e merr në të njëjtën përgjigje. Të gjithë janë dakord me këtë. Pra, është me të vërtetë interesante se si edhe pse ju nuk e dini të gjitha rregullat në gjuhën tuaj ju lloj i kuptoni se si funksionon gjuha. >> Pra Gjëja interesante në lidhje e natyrshme Gjuha është që ju nuk keni për të di ndonjë sintaksë të dini nëse një fjali është gramatikor ose ungrammatical për shumicën e rasteve. Cili ju bën të mendoni se ndoshta ajo që ndodh është që nëpërmjet jetës tuaj, ju vetëm i mbajnë duke marrë gjithnjë e më shumë Dënimet thënë për ju. Dhe pastaj ju mbani memorizimin të gjitha të dënimeve. Dhe pastaj kur dikush ju tregon diçka, ju dëgjoni atë dënim dhe ju shikoni në fjalorin tuaj e dënimeve dhe të shohim nëse se dënimi është atje. Dhe në qoftë se ajo është atje ju thonë se është e gramatikor. Nëse nuk është që ju thoni se është ungrammatical. >> Pra, në këtë rast, ju do të thoni, oh, kështu që ju keni një listë të madhe të të gjithë dënimet e mundshme. Dhe atëherë kur dëgjoni një fjali, ju e dini nëse është e gramatikore apo nuk bazohet në atë. Gjë është se në qoftë se ju shikoni në një dënim, për shembull, " pesë koka CS50 NGP gatuar të verbërit oktapod duke përdorur një gotë e madhe DAPA. "Kjo është definitivisht jo një dënim që keni dëgjuar më parë. Por në të njëjtën kohë ju e dini se është shumë e shumë gramatikore, e drejtë? Nuk ka gabime gramatikore dhe ju mund të them se kjo është një fjali e mundur. >> Pra, kjo na bën të mendojmë se në të vërtetë mënyrë që ne të mësojmë gjuhë nuk është vetëm duke pasur një bazë të madhe të mundur fjalë apo fjali, por më shumë i kuptuar lidhjen midis Fjalët në këto fjali. A ka kjo kuptim? Pra, atëherë pyetja është, mund të kompjutera të mësojnë gjuhë? A mund të mësojnë gjuhën në kompjuter? >> Pra, le të mendojnë për ndryshim në mes të një Gjuha amtare e një gjuhe dhe një kompjuter. Pra, çfarë ndodh me folësit? E pra, Gjuha amtare mëson një Gjuha nga ekspozimi ndaj saj. Zakonisht vitet e saj të hershme të fëmijërisë. Pra, në thelb, ju vetëm keni një fëmijë, dhe ju vazhdoni të flisni me të, dhe ajo vetëm të mëson se si të flas gjuha, apo jo? Pra, ju jeni në thelb duke i dhënë input për fëmijën. Pra, atëherë ju mund të argumentojnë se një kompjuter mund të bëjë të njëjtën gjë, apo jo? Ju vetëm mund të jepni gjuhën si input në kompjuter. >> Sa për shembull një bandë e dosjeve që kanë libra në gjuhën angleze. Ndoshta kjo është një mënyrë që ju ndoshta mund të mësojnë një kompjuter Anglisht, apo jo? Dhe në fakt, në qoftë se ju mendoni rreth saj, ajo ju merr ndoshta një çift ditë për të lexuar një libër. Për një kompjuter që e merr një të dytë për të shikojmë në të gjitha fjalë në një libër. Kështu që ju mund të mendoni se mund të jetë vetëm kjo Argumenti i input nga rreth jush, kjo nuk mjafton për të thënë se kjo është diçka që vetëm njerëzit mund të bëjnë. Ju mund të mendoni kompjutera gjithashtu mund të marrë të dhëna. >> Gjëja e dytë është se native speakers gjithashtu kanë një tru që ka aftësi mësimi i gjuhës. Por nëse ju mendoni rreth saj, një tru është një gjë e ngurta. Kur ju jeni të lindur, është vendosur tashmë - kjo është truri juaj. Dhe si ju rriten, ju vetëm të merrni më shumë kontributin e gjuhës dhe ndoshta ushqyesve dhe sende të tjera. Por shumë e shumë trurin tuaj është një gjë e ngurta. >> Kështu që ju mund të them, mirë, ndoshta ju mund të të ndërtuar një kompjuter që ka një bandë e Funksionet dhe metoda që vetëm imitojnë aftësi mësimi i gjuhës. Pra, në këtë kuptim, ju mund të thoni, mirë, unë mund të ketë një kompjuter që ka të gjitha gjëra që unë duhet të mësojnë gjuhën. Dhe gjëja e fundit është se një vendas Gjuha mëson nga gjykimi dhe gabim. Pra, në thelb një tjetër gjë e rëndësishme në mësimi i gjuhës është që ju lloji i mësojnë gjërat duke i bërë përgjithësimet e asaj që ju dëgjoni. >> Kështu si ju janë në rritje deri të mësoni se disa fjalë janë më shumë si nouns, disa të tjera janë mbiemra. Dhe ju nuk duhet të ketë ndonjë njohja e gjuhësisë për të kuptuar se. Por ju vetëm e di se ka disa fjalë janë pozicionuar në një pjesë të dënimi dhe disa të tjera në të tjera pjesë të fjalisë. >> Dhe se kur ju bëni diçka që është si një dënim që nuk është e saktë - ndoshta për shkak të një mbi përgjithësimin për shembull. Ndoshta kur ju jeni duke u rritur, vëreni se shumësi është zakonisht formuar duke vendosur një S në fundi i fjalës. Dhe pastaj ju të përpiqet të bëjë shumësin e "dre" si "deers" ose "dhëmb" si "tooths." Kështu, pra, prindërit tuaj ose dikush ju korrigjon dhe të thotë, jo, shumësi i "dre" është "dreri," dhe shumësi i "dhëmb" është "dhëmbët." Dhe pastaj ju mësojnë ato gjëra. Kështu që ju të mësoni nga gjykimi dhe gabim. >> Por ju gjithashtu mund të bëjë që me një kompjuter. Ju mund të keni diçka të quajtur mësuarit përforcim. Cili është në thelb si duke i dhënë një kompjuter shpërblim sa herë që ajo ka diçka e saktë. Dhe duke i dhënë asaj të kundërtën e një shpërblim dhe kur e bën diçka të gabuar. Ju në fakt mund të shihni se në qoftë se ju shkoni për Google Translate dhe ju të përpiqet të të përkthyer një fjali, ajo ju pyet për reagime. Pra, nëse ju thoni, oh, ka një të mirë përkthim për këtë fjali. Ju mund të shtypni atë dhe pastaj në qoftë se një shumë e njerëz të mbajtur duke thënë se është një më të mirë përkthim, ai thjesht mëson se ajo duhet të përdorin atë në vend të përkthimit e ai ishte duke i dhënë. >> Pra, kjo është një pyetje shumë filozofike për të parë nëse kompjuterat do të jenë të në gjendje për të folur apo jo në të ardhmen. Por unë kam shpresa të mëdha që ata të mund të vetëm bazuar në këto argumente. Por kjo është vetëm shumë e një filozofike pyetje. >> Kështu, ndërsa kompjuterët ende nuk mund të flas, cilat janë gjërat që ne mund të bëjmë? Disa gjëra janë me të vërtetë të ftohtë Klasifikimi i të dhënave. Kështu, për shembull, ju djema e di se shërbimet e email bëjë, për shembull, spam filtering. Pra, sa herë që ju të merrni spam, ajo përpiqet për të filtruar në një tjetër kuti. Pra, si e bën atë të bëjë këtë? Ajo nuk është si kompjuter vetëm e di adresat e-mail janë çfarë dërgimin e spam. Kështu që është më shumë i bazuar në përmbajtjen e mesazhi, ose ndoshta titulli, ose ndoshta disa model që ju keni. >> Pra, në thelb, ajo që ju mund të bëni është të merrni një shumë të dhënave e-mail që janë të bllokuara, email që nuk janë të bllokuara, dhe të mësojnë se çfarë lloj modele që keni në ato që janë të bllokuara. Dhe kjo është pjesë e kompjuterike gjuhësi. Ajo që quhet klasifikim të dhënave. Dhe ne jemi në të vërtetë do të shohim një shembull se në slides ardhshme. >> Gjëja e dytë është gjuha e natyrshme përpunimin e cila është gjë që Grafiku Kërko është duke bërë të lënë ju shkruani një dënim. Dhe kjo ka besim tek ju e kuptoni se çfarë është kuptimi dhe jep ju një rezultat më të mirë. Në fakt, në qoftë se ju shkoni në Google apo Bing dhe ju të kërkoni diçka si Lady Lartësia Gaga, ju jeni në të vërtetë duke shkuar për të marrë 5 '1 "në vend të informacionit prej saj, sepse ai në të vërtetë e kupton atë që ju jeni duke folur për. Pra, kjo është pjesë e natyrshme të përpunimit të gjuhës. >> Ose edhe kur ju jeni duke përdorur Siri, së pari ju keni një algoritmi që përpiqet të përkthejnë atë që ju jeni duke thënë në fjalë, në tekst. Dhe atëherë ajo përpiqet për të përkthyer që në kuptimin. Pra, kjo është e gjitha pjesë e natyrshme të përpunimit të gjuhës. >> Pastaj ju keni përkthim mekanik - e cila është në fakt një nga të preferuarat e mia - e cila është vetëm përkthimin nga një gjuhë në një tjetër. Kështu që ju mund të mendoni se kur ju jeni duke bërë përkthim makinë, ju keni mundësitë e pafund e fjalive. Pra, nuk ka asnjë mënyrë për të vetëm ruajtjen çdo përkthimi të vetëm. Kështu që ju duhet të dalë me interesante algoritme të jenë në gjendje të përkthejnë çdo të vetme fjali në një farë mënyre. >> Ju djema keni ndonjë pyetje deri më tani? Nuk ka? OK. >> Pra, çfarë do të shkojmë të shohim sot? Para së gjithash, unë jam do të flasim për problemi klasifikimit. Pra, ai që isha duke thënë se për spam. Ajo që unë jam duke shkuar për të bërë është, lyrics dhënë në një këngë, ju mund të përpiqen të kuptoj se me probabilitet të lartë kush është këngëtari? Le të thonë se unë kam këngë nga Lady Gaga dhe Katy Perry, në qoftë se unë ju *** një kantik të ri, mund të kuptoj se në qoftë se kjo është Katy Perry apo Lady Gaga? >> E dyta, unë jam vetëm do të flasim për problemin copëzim. Kështu që unë nuk e di nëse ju djema e di, por Kineze, japoneze, të tjera të Azisë Lindore gjuhë, dhe gjuhë të tjera në përgjithësi, nuk kanë hapësirat midis fjalëve. Dhe pastaj në qoftë se ju mendoni për mënyrën se lloj kompjuteri juaj të përpiqet për të kuptojnë përpunimit të gjuhës natyrore, kjo duket nga fjalët dhe përpiqet për të kuptuar marrëdhëniet mes tyre, e drejtë? Por atëherë në qoftë se ju keni Kinezisht, dhe ju të ketë zero hapësira, është e vërtetë e vështirë për të të gjetur se çfarë është lidhja midis fjalë, për shkak se ata nuk kanë ndonjë Fjalët në fillim. Kështu që ju duhet të bëni diçka të quajtur Segmentimi i cili vetëm do të thotë vënien hapësirat midis asaj që ne do të thërrasë Fjalët në këto gjuhë. Kuptim? >> Dhe pastaj ne do të flasim për sintaksë. Pra vetëm pak mbi natyrore të përpunimit të gjuhës. Ajo do të jetë vetëm një përmbledhje. Pra sot, në thelb ajo që unë dua të bëj po ju *** djema një pak e një brenda të cilat janë mundësitë që ju mund të bëni me kompjuterike gjuhësi. Dhe pastaj ju mund të shihni se çfarë mendoni është e ftohtë në mesin e atyre gjërave. Dhe ndoshta ju mund të mendoj për një projekt dhe të vijnë të bisedoni me mua. Dhe unë mund të ju japin këshilla se si ta zbatojnë atë. >> Pra Sintaksa do të jetë pak rreth Grafiku Kërkoni dhe makinë përkthim. Unë jam vetëm duke shkuar për të dhënë një shembull se si ju mund, për shembull, të përkthyer diçka nga portugalisht në anglisht. Tinguj e mirë? >> Pra, së pari, problemi klasifikimi. Unë do të them se kjo pjesë e seminarit do të jetë më i vështirë e vetëm sepse atje është duke ndodhur të jetë disa coding. Por ajo do të jetë Python. Unë e di ju djema nuk e di Python, kështu Unë jam vetëm duke shkuar për të shpjeguar më lartë nivelit ajo që unë jam duke bërë. Dhe ju nuk keni për të kujdesit të vërtetë shumë shumë për sintaksë sepse kjo është diçka që ju djema mund të mësojnë. OK? Tingëllon mirë. >> Pra, çfarë është problemi klasifikimi? Pra, ju jeni duke i dhënë disa tekst kënge për të një këngë, dhe ju doni të mendoj i cili është kënduar atë. Dhe kjo mund të jetë për çdo lloj e problemeve të tjera. Pra, ajo mund të jetë, për shembull, ju keni një Fushata presidenciale dhe ju keni një të folurit, dhe ju doni të gjeni nëse ajo ishte, për shembull, Obama apo Mitt Romney. Ose ju mund të ketë një bandë e-mail dhe të ju doni të kuptoj se në qoftë se ata janë të spam apo jo. Pra, kjo është vetëm klasifikimin e disa të dhënat në bazë të fjalëve të se ju keni atje. >> Pra, për të bërë këtë, ju duhet të bëjnë disa supozime. Pra, shumë për gjuhësi kompjuterike është duke bërë supozime, Supozimet zakonisht i zgjuar, në mënyrë që ju mund të merrni rezultate të mira. Duke u përpjekur për të krijuar një model për të. Dhe pastaj provoni atë dhe të shohim nëse ajo punon, në qoftë se ajo ju jep saktësi të mirë. Dhe nëse bën atë, atëherë ju të përpiqet për të përmirësuar atë. Në qoftë se kjo nuk ka, ju jeni si, OK, ndoshta unë duhet të bëjë një supozim të ndryshme. >> Pra, supozimi se ne do të të bëjë është që një artist zakonisht këndon rreth një herë temë të shumta, dhe ndoshta përdor fjalë shumë herë vetëm sepse ata janë mësuar me të. Ju vetëm mund të mendoj e mikut tuaj. Unë jam i sigurt të gjithë ju djema keni miq që thonë se fraza e tyre nënshkrim, fjalë për fjalë për çdo fjali të vetme - si disa fjalë të veçanta ose disa specifike fraza që ata thonë për çdo fjali të vetme. >> Dhe çfarë mund të them është se në qoftë se ju shihni një fjali që ka një nënshkrim fraza, ju mund të mendoj që ndoshta miku juaj është një duke thënë atë, e drejtë? Kështu që ju të bëni atë supozim dhe pastaj kjo është se si keni krijuar një model. >> Shembulli që unë jam duke shkuar për të dhënë është në se si Lady Gaga, për shembull, njerëzit thonë se ajo përdor "fëmijën" për të gjitha e saj numër një këngë. Dhe në fakt kjo është një video që tregon saj duke thënë fjalën "fëmijën" për këngë të ndryshme. >> [VIDEO Playback] >> - (Të kënduarit) Baby. Fëmijë. Fëmijë. Fëmijë. Fëmijë. Babe. Fëmijë. Fëmijë. Fëmijë. Fëmijë. >> [END VIDEO Playback- >> Lucas Freitas: Pra, ka, unë mendoj, 40 këngë këtu në të cilin ajo thotë fjala "fëmijë." Kështu që ju mund të thelb të mendoj se në qoftë se ju shihni një këngë që ka fjala "foshnja", ka disa të lartë probabiliteti që kjo është Lady Gaga. Por le të përpiqemi për të zhvilluar këtë më tej më zyrtarisht. >> Pra, këto janë tekstet të këngëve nga Lady Gaga dhe Katy Perry. Kështu që ju shikoni në Lady Gaga, ju shihni ata kanë shumë ndodhive të "fëmijës", një shumë dukurive të "rrugës." Dhe pastaj Katy Perry ka shumë dukurive të "," Shumë dukurive të "zjarrit." >> Pra, në thelb ajo që ne duam të bëni është, që ju të merrni një lirike. Le të thonë se ju të merrni një lirike për një këngë që është "fëmija," vetëm "fëmijë." Nëse ju vetëm të marrë fjalën "baby," dhe kjo është e gjitha të dhënat që ju keni nga Lady Gaga dhe Katy Perry, të cilët do të ju me mend është personi që e këndon këngën? Lady Gaga apo Katy Perry? Lady Gaga, e drejtë? Për shkak se ajo është i vetmi i cili thotë "Fëmijë." Kjo tingëllon budalla, apo jo? OK, kjo është me të vërtetë e lehtë. Unë jam vetëm duke kërkuar në të dy këngë dhe i Sigurisht, ajo është i vetmi që ka "Fëmijë." >> Por, çfarë nëse ju keni një bandë e fjalëve? Nëse ju keni një lirike aktuale, diçka si, "fëmija, unë vetëm shkoi për të parë një [? CFT?] leksion, "ose diçka të tillë, dhe atëherë ju në të vërtetë duhet të kuptoj se - në bazë të të gjitha atyre fjalëve - kush është artisti që ndoshta këndoi këtë këngë? Pra, le të përpiqemi për të zhvilluar kjo pak më tej. >> OK, kështu që bazuar vetëm në të dhënat që ne mori, duket se Gaga është ndoshta këngëtari. Por si mund ta shkruaj kjo më shumë zyrtarisht? Dhe nuk do të jetë pak më bit e statistikave. Pra, nëse ju merrni humbur, vetëm përpjekje për të kuptuar konceptin. Nuk ka rëndësi nëse ju i kuptoni ekuacionet përkryer edhe. Kjo është e gjitha do të jetë online. >> Pra, në thelb ajo që unë jam llogaritjes është probabiliteti që kjo këngë është duke Lady Gaga duke qenë se - kështu që ky bar do të thotë duke pasur parasysh se - Unë pashë fjalën "fëmijë." A ka kjo kuptim? Kështu që unë jam duke u përpjekur për të llogaritur se probabiliteti. >> Pra, ekziston kjo teoremë quhet Bayes Teorema që thotë se Probabiliteti i një B të dhënë, është Mundësia e dhënë A, B herë probabiliteti i A, mbi probabilitetin e B. Kjo është një ekuacion i gjatë. Por ajo që ju duhet të kuptoni nga që është se kjo është ajo që unë dua të llogaritur, e drejtë? Pra, probabiliteti që kjo këngë është duke Lady Gaga duke qenë se e kam parë fjalën "Fëmijë." >> Dhe tani ajo që unë jam marrë është probabiliteti i fjalës "fëmijë" i dhënë se unë kam Lady Gaga. Dhe çfarë është ajo në thelb? Çfarë kjo do të thotë është, ajo që është Mundësia e parë fjalën "fëmijë" Gaga në tekst? Nëse unë dua të llogaritur se në një shumë të mënyrë e thjeshtë, kjo është vetëm numri i herë unë shoh "fëmijën" mbi numrin e përgjithshëm i fjalëve në tekst Gaga, e drejtë? Cila është frekuenca që unë shoh se fjala në punën Gaga? Kuptim? >> Termi dytë është probabiliteti i Gaga. Çfarë do të thotë kjo? Kjo në thelb do të thotë, çfarë është Mundësia e klasifikimin e disa Lyrics si Gaga? Dhe kjo është lloj i çuditshëm, por le të mendojnë për një shembull. Pra, le të thonë se probabiliteti i që ka "fëmijën" në një këngë është e njëjtë për Gaga dhe Britney Spears. Por Britney Spears ka dy herë më shumë këngë se Lady Gaga. Pra, nëse dikush vetëm rastësisht ju jep Lyrics e "fëmijës", gjëja e parë që ju shikoni në është, çfarë është probabiliteti i që ka "fëmijën" në një këngë Gaga, "fëmijë" në një këngë Britney? Dhe kjo është e njëjta gjë. >> Pra, gjëja e dytë që ju do të shihni është, mirë, çfarë është probabiliteti i kjo lyric vetvetiu qenë një lirike Gaga, dhe çfarë është probabiliteti i duke qenë një lirik Britney? Pra, që nga Britney ka kaq shumë më shumë tekst kënge se Gaga, ju do të ndoshta të themi, edhe, kjo është ndoshta një lirik Britney. Pra, kjo është arsyeja pse ne e kemi këtë quaj të drejtë këtu. Probabiliteti i Gaga. Ka kuptim? E bën këtë? OK. >> Dhe e fundit është vetëm probabiliteti i "fëmijës", e cila nuk ka rëndësi se shumë. Por është probabiliteti i duke parë "fëmijën" në anglisht. Ne zakonisht nuk e kujdesit që shumë për këtë term. A ka kjo kuptim? Pra probabiliteti i Gaga është quajtur probabiliteti para i Gaga të klasës. Për shkak se ai thjesht do të thotë se, ajo që është mundësia e të pasurit që klasë - cila është Gaga - vetëm në përgjithësi, vetëm pa kushte. >> Dhe atëherë kur unë kam mundësinë e Gaga dhënë "fëmijë", ne e quajmë atë plus përlotur një probabilitet për shkak se është mundësia e të pasurit Gaga dhënë disa prova. Kështu që unë jam duke ju dhënë provat që kisha parë fjalën fëmijën dhe këngë kuptim? OK. >> Pra, Nëse unë llogaritur se për çdo nga këngët për Lady Gaga, atë që do të jetë - me sa duket, unë nuk mund të lëvizë këtë. Mundësia e Gaga do të jetë diçka si, 2 mbi 24, herë 1/2, mbi 2 mbi 53. Nuk ka rëndësi në qoftë se ju e dini se çfarë këto shifra janë të ardhur nga. Por kjo është vetëm një numër që është duke shkuar të jetë më shumë se 0, e drejtë? >> Dhe atëherë kur unë bëj Katy Perry, probabiliteti i "fëmijës" është dhënë Katy tashmë 0, e drejtë? Sepse nuk ka asnjë "fëmijë" në Katy Perry. Pra, atëherë kjo bëhet 0, dhe Gaga fiton, që do të thotë se Gaga është ndoshta këngëtari. A ka kjo kuptim? OK. >> Pra, nëse unë dua të bërë këtë zyrtar më shumë, Unë në fakt mund të bëjë një model për fjalë të shumta. Pra, le të themi se unë kam diçka si, "baby, unë jam në zjarr, "ose diçka. Pra, ajo ka fjalë të shumta. Dhe në këtë rast, ju mund të shihni se "fëmija" është në Gaga, por nuk është në Katy. Dhe "zjarri" është në Katy, por nuk është në Gaga, e drejtë? Pra, është duke u komplikuar, apo jo? Për shkak se ajo duket që ju pothuajse kanë një kravatë në mes të dy. >> Pra, çfarë ju duhet të bëni është të marrë pavarësi në mesin e fjalëve. Pra, në thelb ajo që do të thotë është se Unë jam vetëm duke llogaritur se çfarë është Mundësia e parë "fëmijë", ajo që është mundësia e parë "unë," dhe "Me", dhe "," dhe "zjarri" të gjithë veç e veç. Atëherë unë jam duke shumëzuar të gjitha prej tyre. Dhe unë jam duke parë atë që është probabiliteti e duke parë tërë dënimin. Kuptim? >> Pra, në thelb, në qoftë se unë kam vetëm një fjalë, ajo që unë dua të gjej është max arg, që do të thotë, ajo që është klasa që është duke i dhënë me probabilitetin më të lartë? Pra, çfarë është klasa që është duke i dhënë mua probabiliteti më të lartë për Mundësia e klasës dhënë fjalën. Pra, në këtë rast, duke pasur parasysh Gaga "fëmijë." Ose Katy dhënë "fëmijë." Kuptim? >> Dhe vetëm nga Bayes, që ekuacion që kam treguar, kemi krijuar këtë pjesë. E vetmja gjë është që ju të shihni se probabiliteti i fjalës dhënë Ndryshimet e klasës varësi të klasës, apo jo? Numri i "fëmijës"-s që i kanë në Gaga është i ndryshëm nga Katy. Mundësia e klasës gjithashtu Ndryshimet sepse kjo është vetëm numri i këngëve secili prej tyre ka. >> Por probabiliteti i fjalës vetë do të jetë i njëjtë për të gjithë artistë, apo jo? Pra probabiliteti i fjalës është vetëm, atë që është probabiliteti i duke parë atë fjalë në Gjuhës angleze? Kështu që është e njëjtë për të gjithë ata. Pra, pasi që kjo është konstante, ne mund vetëm të rënie këtë dhe nuk kujdesen për të. Pra, kjo do të jetë në të vërtetë ekuacioni ne jemi duke kërkuar për. >> Dhe në qoftë se unë kam fjalë të shumta, unë jam i ende do të ketë para probabiliteti këtu. E vetmja gjë është se unë jam duke shumëzuar probabiliteti i të gjitha fjalët e tjera. Kështu që unë jam duke shumëzuar të gjitha prej tyre. Kuptim? Ajo duket e çuditshme, por në thelb do të thotë, të llogaritur para e klasës, dhe pastaj shumohen me probabilitetin e çdo e fjalëve të qenë në atë klasë. >> Dhe ju e dini se probabiliteti i një Fjala dhënë një klasë do të jetë numri i herë ju shihni atë fjalë në që klasë, ndahet nga numri i Fjalët që ju keni në se klasë në përgjithësi. Kuptim? Është vetëm se si "fëmijë" ishte 2 mbi numri i fjalëve që Unë kisha në lyrics. Pra, vetëm të frekuencave. >> Por ka një gjë. Mos harroni se si unë u treguar se probabiliteti i "fëmijës" duke u tekst nga Katy Perry ishte 0 vetëm për shkak Katy Perry nuk e kanë "fëmijën" në të gjitha? Por kjo tingëllon pak ashpër për të vetëm thjesht thonë se tekstet nuk mund të jetë nga një artist vetëm për shkak se ata nuk kanë që fjalë në veçanti në çdo kohë. >> Kështu që ju mund të them vetëm, mirë, në qoftë se ju nuk e kanë këtë fjalë, unë jam duke shkuar për ju *** një probabilitet më të ulët, por unë jam vetëm do të ju *** 0 menjëherë. Për shkak se ndoshta kjo ishte diçka si, "Zjarr, zjarr, zjarr, zjarr", e cila është krejtësisht Katy Perry. Dhe pastaj "fëmijë", dhe ai shkon vetëm për të 0 menjëherë sepse nuk ishte një "Fëmijë." >> Pra, në thelb ajo që ne bëjmë është diçka quajtur Laplace zbutjes. Dhe kjo thjesht do të thotë se unë jam duke i dhënë disa probabiliteti edhe fjalët që nuk ekzistojnë. Pra, ajo që unë bëj është se kur unë jam llogaritjen këtë, unë gjithmonë shtoni 1 të numëruesi. Pra, edhe në qoftë se fjala nuk ekziston, në këtë rast, në qoftë se kjo është 0, unë jam ende i llogaritur këtë si 1 mbi Numri i përgjithshëm i fjalëve. Përndryshe, unë të marrë sa shumë fjalë Unë kam dhe unë shtoj 1. Kështu që unë jam duke numëruar për të dy rastet. Kuptim? >> Pra, tani le të bëjë disa coding. Unë do të keni për të bërë atë shumë shpejt, por kjo është vetëm e rëndësishme që ju djema kuptoni konceptet. Pra, ajo që ne jemi duke u përpjekur për të bërë pikërisht është zbatuar këtë gjë që unë vetëm se - Unë dua që ju të vendosni tekst kënge nga Lady Gaga dhe Katy Perry. Dhe programi do të jetë në gjendje të thonë se nëse këto këngët e reja janë nga Gaga ose Katy Perry. Kuptim? OK. >> Kështu që unë kam këtë program unë jam duke shkuar për të thirrur classify.py. Pra, kjo është Python. Kjo është një gjuhë programimi e re. Ajo është shumë e ngjashme në disa mënyra për C dhe PHP. Është e ngjashme, sepse në qoftë se ju doni të mësojnë Python pas ditur C, është e me të vërtetë nuk është se shumë nga një sfidë vetëm për shkak Python është shumë më e lehtë se C, para se gjithash. Dhe shumë gjëra janë tashmë të zbatohet për ju. Pra, se sa si PHP ka funksione që lloj një listë, ose append diçka në një grup, ose blah, blah, blah. Python ka të gjithë ata si. >> Kështu që unë jam vetëm do të shpjegojë shpejt se si ne mund të bëjmë klasifikimin problem për këtu. Pra, le të themi se në këtë rast, unë kam Lyrics nga Gaga dhe Katy Perry. Mënyra se kam ato tekst kënge është se fjala e parë e lyrics është emri i artistit, dhe pjesa tjetër është lyrics. Pra, le të themi se unë kam këtë listë në të cilat e para është tekst kënge nga Gaga. Kështu që këtu unë jam në rrugën e duhur. Dhe një tjetër është Katy, dhe ajo ka gjithashtu lyrics. >> Pra, kjo është se si ju të deklarojë një variabël në Python. Ju nuk keni për të dhënë llojin e të dhënave. Ju vetëm shkruani "lyrics," lloj i pëlqen në PHP. Kuptim? >> Pra cilat janë gjërat që kam për të llogaritur të jetë në gjendje për të llogaritur probabilitetet? Unë kam për të llogaritur "Priors" secili prej të ndryshëm Klasat që kam. Unë kam për të llogaritur "posteriors," apo shumë e shumë probabilitetet e secili prej fjalë të ndryshme që Unë mund të ketë për çdo artist. Pra brenda Gaga, për shembull, unë jam duke shkuar që të ketë një listë të se sa herë unë shoh secili prej fjalë. Kuptim? >> Dhe së fundi, unë jam vetëm do të ketë një Lista e quajtur "fjalët" që është vetëm do që të ketë sa shumë fjalë unë kanë për çdo artist. Pra për Gaga, për shembull, kur unë shoh me lyrics, kisha, unë mendoj, 24 Fjalët në total. Pra, kjo listë është vetëm do të ketë Gaga 24, dhe Katy një numër tjetër. Kuptim? OK. >> Deri tani, në të vërtetë, le të shkojnë në kodim. Pra në Python, ju mund të vërtetë kthyer një bandë e ndryshme gjërat nga një funksion. Kështu që unë jam duke shkuar për të krijuar këtë funksion quajtur "kushtëzuar", e cila do të kthehen të gjitha ato gjëra, "Priors," e "probabilitetet," dhe "fjalë". Pra "kushtëzuar", dhe është e do të vënë në "tekst". >> Pra, tani unë dua që ju të vërtetë shkruaj këtë funksion. Kështu që mënyra që unë mund të shkruaj këtë funksion është I përcaktuar vetëm këtë funksionojnë me "def". Kështu që unë e bëri "def kushtëzuar, "dhe është duke marrë "Lyrics." Dhe çfarë kjo do të bëjë është, para së gjithash, unë kam Priors e mia që unë dua për të llogaritur. >> Kështu që mënyra që unë mund ta bëjë këtë është të krijojë një fjalor në Python, i cili është shumë e shumë të njëjtën gjë si një hash tavolinë, ose është si një përsëritës array në PHP. Kjo është se si unë deklaroj një fjalor. Dhe në thelb ajo që kjo do të thotë është se Priors e Gaga është 0.5, për shembull, në qoftë se 50% nga vargjet janë nga Gaga, 50% janë nga Katy. Kuptim? Kështu që unë duhet të kuptoj se si për të llogaritur Priors. >> Ato ardhshëm që kam për të bërë, gjithashtu, janë probabilitetet dhe fjalët. Pra, probabilitetet e Gaga është lista të gjitha probabiliteteve që unë kanë për secilin nga fjalët për Gaga. Pra, nëse unë shkoj në probabilitet Gaga "Baby," për shembull, ajo do të më jepni diçka si 2 mbi 24 në atë rast. Kuptim? Kështu që unë të shkojnë në "probabilitetet," të shkojnë në "Gaga" kovë që ka një listë të të gjitha fjalët Gaga, pastaj të shkoj në "fëmijën", dhe unë shoh probabilitetin. >> Dhe së fundi unë kam këtë "Fjalët" fjalor. Kështu që këtu, "probabilities." Dhe pastaj "fjalë". Pra, në qoftë se bëj "fjalë", "Gaga," çfarë do të ndodhë është se është e do të më jepni 24, duke thënë se unë kemi 24 fjalë në tekst nga Gaga. Ka kuptim? Kështu që këtu, "fjalët" e barabartë me dah-dah-dah. Në rregull >> Pra, ajo që unë jam duke shkuar për të bërë është që unë jam duke shkuar për iterate mbi secilën nga vargjet, kështu secili prej vargjeve që Unë kam në listë. Dhe unë jam duke shkuar për të llogaritur këto gjëra për secilin nga kandidatët. Ka kuptim? Kështu që unë duhet të bëjë një për lak. >> Pra, në Python atë që unë mund të bëj është "për linjë në tekst. "e njëjta gjë si një "Për çdo" deklaratë në PHP. Mos harroni se në qoftë se ajo ishte PHP unë mund të thonë se "për çdo tekst si linjë. "Ka kuptim? Kështu I marr secila nga linjat, në këtë rast, ky varg dhe të ardhshëm string kështu që për secilën nga linjat e asaj që unë jam do të bëni është së pari, unë jam duke shkuar për ndarë këtë linjë në një listë të fjalë të ndara nga hapësira. >> Pra, gjëja e ftohtë në lidhje Python është se ju mund vetëm të Google si "se si do të mundja ndarë një varg në fjalë? "Dhe kjo është do të ju tregojnë se si të bëhet kjo. Dhe mënyra për të bërë atë, është vetëm "linjë = Line.split () "dhe kjo është në thelb do të ju japin një listë me secili prej fjalë këtu. Ka kuptim? Pra, tani që kam bërë se unë dua të di kush është këngëtarja e kësaj kënge. Dhe për të bërë këtë unë vetëm duhet të marrë Elementi i parë i vargut, apo jo? Kështu që unë mund të them vetëm se unë "këngëtar = Linjë (0) "Ka kuptim? >> Dhe pastaj ajo që unë duhet të bëni është, para së të gjithë, unë jam duke shkuar për të rinovuar sa Fjalët Unë kam nën "Gaga." kështu që unë jam vetëm duke shkuar për të llogaritur si shumë fjalë unë kanë në këtë listë, e drejtë? Për shkak se kjo është fjalë sa kam në lyrics dhe unë jam vetëm do të shtoni atë në "Gaga" array. A ka kjo kuptim? A nuk përqëndrohet shumë në sintaksë. Mendoni më shumë për konceptet. Kjo është pjesa më e rëndësishme. OK. >> Pra, ajo që unë mund ta bëjë këtë është në qoftë se "Gaga" është tashmë në atë listë, kështu që "nëse këngëtarja në fjalët "që do të thotë se unë tashmë kanë fjalë nga Gaga. Unë vetëm dua të shtoni shtesë fjalë për se. Pra, ajo që unë bëj është "fjalë (këngëtar) + = Len (linjë) - 1 ". Dhe atëherë unë vetëm mund të bëjë gjatësia e linjës. Pra, si shumë elemente I kanë në rrjet. Dhe unë duhet të bëni minus 1 vetëm për shkak se elementi i parë i vektorit është vetëm një këngëtare dhe ata nuk janë Lyrics. Ka kuptim? OK. >> "Tjetër", kjo do të thotë që unë dua të vërtetë Gaga futur në listë. Kështu që unë vetëm të bëjë "fjalët (këngëtar) = Len (linjë) - 1, "keq. Pra, i vetmi ndryshim në mes të dy Linjat është se kjo, ajo nuk ka ekzistojnë ende, kështu që unë jam vetëm Initializing atë. Kjo Unë jam në të vërtetë duke shtuar. OK. Pra, kjo ishte shtuar në fjalë. >> Tani unë dua të shtoj në Priors. Pra, si mund ta llogarisin Priors? Të Priors mund të llogaritet nga se sa herë. Pra, sa herë që ju të shihni se këngëtar ndër të gjitha që ju këngëtarët keni, apo jo? Pra, për Gaga dhe Katy Perry, në këtë rast, unë shoh Gaga një herë, Katy Perry herë. >> Pra, në thelb Priors për Gaga dhe për Katy Perry do të vetëm të jetë një, e drejtë? Ju vetëm sa herë Unë shoh artist. Pra, kjo është shumë e lehtë për të llogaritur. Unë mund vetëm diçka të ngjashme si si "nëse Këngëtarja në Priors, "Unë jam vetëm duke shkuar për të shtuar 1 në kutinë e tyre Priors. Pra, "Priors (këndojë)" + = 1 "dhe pastaj" tjetër " Unë jam duke shkuar për të bërë "Priors (këngëtarëve) = 1. "Ka kuptim? >> Pra, në qoftë se ajo nuk ekziston unë vetëm vënë si 1, përndryshe unë vetëm të shtoni 1. OK, kështu që tani të gjitha që kam lënë për të bërë është gjithashtu e shtuar secilin nga fjalë të probabilitetet. Pra, unë kam për të numëruar se sa herë Unë shoh secilën prej fjalëve. Kështu që unë vetëm duhet të bëni një tjetër lak në përputhje. >> Gjëja e parë kështu që unë jam duke shkuar për të bërë është kontrolloni nëse Këngëtari tashmë ka një probabilitetet array. Kështu që unë jam duke kontrolluar nëse këngëtari nuk kanë një rrjet të probabilities, unë jam vetëm do të nisja një për ta. Kjo nuk është edhe një koleksion, sorry, kjo është një fjalor. Pra, probabilitetet e këngëtares do të jetë një fjalor të hapur, kështu që unë jam vetëm Initializing një fjalor për të. OK? >> Dhe tani unë në fakt mund të bëjë një për lak për të llogaritur secilën nga fjalët ' probabilitetet. OK. Pra, çfarë mund të bëj është një për lak. Kështu që unë jam vetëm do të iterate mbi array. Kështu që mënyra që unë mund të bëjë që në Python është "për i në varg." Nga 1 sepse unë dua të fillojë në pjesën e dytë element shkak e parë është Emri këngëtar. Pra, nga një deri në gjatësia e linjës. Dhe kur unë të shkojnë në të vërtetë të shkojnë nga si here nga 1 deri len e linjë minus 1. Pra, tashmë e bën atë gjë e bërë n minus 1 për të vargjeve të cilat është shumë e përshtatshëm. Ka kuptim? >> Pra, për secilin prej tyre, atë që unë jam duke shkuar për të bëni është, ashtu si në një tjetër, Unë jam duke shkuar për të parë në qoftë se fjala në këtë Pozita në linjë është tashmë në probabilitetet. Dhe pastaj si kam thënë këtu, probabilities fjalë, si në kam vënë "probabilitetet (këngëtar)". Pra, emri i këngëtares. Pra, në qoftë se është tashmë në "Probabilit (këngëtar)", kjo do të thotë se unë doni të shtoni 1 në të, kështu që unë jam duke shkuar për të bëjë "probabilities (e këngëtarëve të)", dhe Fjala është quajtur "Vija (i)". Unë jam duke shkuar për të shtuar 1 dhe "tjetër" Unë jam vetëm do të nisja atë në 1. "Line (i)". Ka kuptim? >> Pra, unë llogaritur të gjitha vargjeve. Pra, tani të gjitha që më duhet të bëj për kjo është vetëm "kthehet Priors, probabilitetet dhe fjalët. "Le të parë nëse ka ndonjë, OK. Duket çdo gjë është duke punuar deri tani. Pra, kjo ka kuptim? Në një farë mënyre? OK. Deri tani unë kam të gjitha probabilities. Deri tani e vetmja gjë që kam lënë është vetëm që të ketë atë gjë që llogarit produkt i të gjitha probabilitetet kur unë të marrë lyrics. >> Pra, le të themi se unë dua të telefononi tani ky funksion "të klasifikuar ()" dhe gjë që funksion merr është vetëm një argument. Le të thonë se "Baby, unë jam në zjarr", dhe është e do të kuptoj se çfarë është probabiliteti që kjo është Gaga? Cili është probabiliteti se kjo është e Katie? Tinguj e mirë? Kështu që unë jam vetëm do të duhet për të krijuar një Funksioni i ri i quajtur "të klasifikuar ()" dhe ajo do të marrë disa Lyrics si. Dhe përveç kësaj lyrics Unë gjithashtu kanë për të dërguar Priors, probabilitetet dhe fjalët. Kështu që unë jam duke shkuar për të dërguar lyrics, Priors, probabilitetet, fjalë. >> Pra, kjo është duke marrë lyrics, Priors, probabilitetet, fjalë. Pra, çfarë e bën këtë? Kjo në thelb do të kalojnë nëpër të gjitha kandidatët e mundshme që ju kanë si këngëtare. Dhe ku janë ata kandidatë? Ata janë Në Priors, e drejtë? Pra, unë kam të gjithë ata atje. Kështu që unë jam i do të ketë një fjalor e të gjithë kandidatëve të mundshëm. Dhe më pas për secilin kandidat në Priors, kështu që do të thotë se ajo do të jetë Gaga, Katie nëse unë kam më shumë ajo do të jetë më. Unë jam duke shkuar për të filluar llogaritjen ky probabilitet. Probabiliteti siç e pamë në PowerPoint është herë paraprake Produkti i secilit prej probabilitetet e tjera. >> Kështu që unë mund të bëjë të njëjtën gjë këtu. Unë mund të bëjë vetëm probabiliteti është fillimisht vetëm para. Kështu Priors të kandidatit. E drejtë? Dhe tani më duhet të iterate mbi të gjitha fjalët që të kam në lyrics të jetë në gjendje për të shtuar probabilitetin për secilin prej tyre, OK? Pra, "për fjalë në tekst" atë që unë jam duke shkuar për të bërë është, në qoftë se fjala është në "probabilitetet (kandidate)", të cilat do të thotë se kjo është një fjalë që Kandidati ka në tekst kënge e tyre - për shembull, "fëmija" për Gaga - ajo që unë jam duke shkuar për të bërë është që probabiliteti do të jetë shumëzuar me 1 plus probabilitetet e kandidat për atë fjalë. Dhe ajo që quhet "Fjala". Kjo e ndarë me numrin e fjalëve që unë kam për atë kandidat. Numri i përgjithshëm i fjalëve që unë kam për këngëtaren që unë jam duke kërkuar në. >> "Else." kjo do të thotë se është një fjalë të re kështu ajo do të jetë si për shembull "Zjarri" për Lady Gaga. Kështu që unë vetëm dua të bëj 1 mbi "Fjala (kandidat)". Kështu që unë nuk dua të vënë këtë term këtu. >> Pra, ajo do të jetë në thelb kopjimi dhe pasting këtë. Por unë jam duke shkuar për të fshirë këtë pjesë. Pra, kjo është vetëm do të jetë 1 mbi këtë. Tinguj e mirë? Dhe tani në fund, unë jam vetëm do të shtypura emrin e kandidatit dhe probabiliteti që ju keni të pasur S në tekst kënge e tyre. Ka kuptim? Dhe unë në fakt as nuk nevojë për këtë fjalor. Ka kuptim? >> Pra, le të shohim nëse kjo në të vërtetë punon. Pra, nëse unë të drejtuar këtë, ajo nuk ka punë. Prisni një të dytë. "Fjalë (kandidate)", "fjalë (kandidate)", kjo është Emri i array. OK Pra, ajo thotë se ka disa bug për kandidat në Priors. Më lejoni vetëm të qetësohuni pak. OK. Le të provoni. OK. >> Kështu që i jep Katy Perry ka këtë Mundësia e kjo herë 10 deri minus 7, dhe Gaga ka këtë 10 herë në minus 6. Kështu që ju shihni tregon se Gaga ka një probabilitet më të lartë. Pra "Baby, unë jam në zjarr" është ndoshta një këngë Gaga. Ka kuptim? Pra, kjo është ajo që ne e bëmë. >> Ky kod do të jetë postuar në internet, kështu që ju djema mund të kontrolloni atë. Ndoshta përdorin një pjesë e saj për në qoftë se ju doni të të bëjë një projekt apo diçka të ngjashme. OK. Kjo ishte vetëm për të treguar çfarë kompjuterike Kodi gjuhësi duket si. Por tani le të shkojnë në më shumë gjëra të nivelit të lartë. OK. >> Pra, problemet e tjera I ishte duke folur për - problemi Segmentimi është i pari i tyre. Kështu që ju keni këtu japonisht. Dhe pastaj ju shihni se nuk ka hapësira. Pra, kjo është në thelb do të thotë se është e maja e karrige, e drejtë? Ti flet japonisht? Është maja e karrige, e drejtë? >> STUDENT: Unë nuk e di se çfarë kanji atje është. >> Lucas Freitas: Është [Duke folur Japanese] OK. Kështu që në thelb do të thotë kryetar i lartë. Pra, nëse keni pasur për të vënë një hapësirë do të ishte këtu. Dhe atëherë ju keni [? Ueda-san. ?] E cila në thelb do të thotë z Ueda. Dhe ju shihni se "Ueda" dhe ju keni një hapësirë dhe pastaj "san." Kështu që ju të shihni se këtu ju "Ue" është si në vetvete. Dhe këtu ka karakter të tjetër për të. >> Pra, nuk është si në ato gjuhë karaktere që do të thotë një fjalë atë në mënyrë ju vetëm vënë një shumë të hapësirave. Figurë lidhen me njëri-tjetrin. Dhe ata mund të jenë së bashku si dy, tre, e. Pra, ju në të vërtetë keni për të krijuar një lloj e mënyrë për të vënë këto hapësira. >> Dhe kjo gjë është se sa herë që ju të merrni të dhënat nga këto gjuhë aziatike, çdo gjë vjen unsegmented. Sepse askush nuk i cili shkruan Japanese ose kinez shkruan me hapësira. Kurdo që jeni të shkruar Kinezisht, Japanese ju vetëm të shkruani çdo gjë pa hapësira. Ajo nuk ka edhe kuptim për të vënë hapësira. Pra, atëherë kur ju merrni të dhëna nga, disa Gjuha e Azisë Lindore, në qoftë se ju doni të në të vërtetë të bëjë diçka me atë ju duhet të segmentit të parë. >> Mendoni për të bërë shembullin e lyrics pa hapësira. Pra, vetëm tekstet që ju keni will be fjali, apo jo? Të ndara nga periudha. Por pastaj duke pasur vetëm e dënimit do të jo të vërtetë të ndihmojë në dhënien e informacionit të cilët ato janë Lyrics nga. E drejtë? Kështu që ju duhet të vë hapësira parë. Pra, si mund ta bëni këtë? >> Kështu pastaj vjen ideja e një gjuhe model i cili është diçka me të vërtetë rëndësishme për kompjuterike gjuhësi. Pra, një model i gjuhës është në thelb një Tabela e probabiliteteve që tregon para së gjithash ajo është probabiliteti e ka fjalën për një gjuhë? Pra, duke treguar se si të shpeshta një fjalë është. Dhe pastaj edhe duke treguar lidhjen në mes të fjalëve në një fjali. >> Pra, ideja kryesore është, në qoftë se një i huaj erdhi për ju dhe tha një fjali të ju, çfarë është probabiliteti që, për shembull, "kjo është motra ime [? GTF"?] ishte dënimi që personi i ka thënë? Pra, padyshim disa fjali janë më të zakonshme se të tjerët. Për shembull, "mëngjes të mirë," ose "të mirë natën, "ose" hej atje, "është shumë më tepër zakonshme se shumica e dënimeve se ne kemi një anglisht. Pra, pse janë ato fjali më të shpeshta? >> Para së gjithash, kjo është për shkak se ju keni fjalë që janë më të shpeshta. Kështu, për shembull, në qoftë se ju thonë, qen është i madh, dhe qeni është gjigant, ju zakonisht ndoshta dëgjoni qeni është i madh më shpesh për shkak se "i madh" është më e të shpeshta në gjuhën angleze se "gjigant." Pra, një nga gjëra është frekuenca fjala. >> Gjëja e dytë e cila është me të vërtetë e rëndësishme është vetëm Rendi i fjalëve. Pra, është e zakonshme për të thënë "cat është brenda kutisë ". por ju nuk e bëni zakonisht shohin në "kutinë brenda është cat." kështu ju të shihni se ka një rëndësi në rendin e fjalëve. Ju nuk mund të them vetëm se këto të dyja Dënimet kanë të njëjtin probabilitet vetëm për shkak se ata kanë të njëjtat fjalë. Ju në fakt duhet të kujdesit për mënyrë si. Kuptim? >> Pra, çfarë bëjmë ne? Pra, ajo që unë mund të përpiqen për të marrë ju? Unë jam duke u përpjekur për të marrë ju atë që ne telefononi modelet e n-gram. Pra modele n-gram në thelb të marrë se për çdo fjalë që ju keni në një fjali. Kjo është mundësia e të pasurit që Fjala nuk varet jo vetëm nga Frekuenca e kësaj fjale në gjuhën, por edhe në fjalët që janë që lidhen me të. >> Kështu për shembull, zakonisht kur ju shihni diçka si në ose në ju jeni ndoshta do të shohim një noun pas atë, e drejtë? Sepse kur ju keni një parafjalë zakonisht kjo merr një emër pas saj. Ose në qoftë se ju keni një folje që është kalimtare ju zakonisht do të kanë një frazë nominale. Pra, kjo do të ketë një emër diku rreth tij. >> Pra, në thelb, ajo që bën është se ajo konsideron mundësinë e të pasurit Fjalët pranë njëri-tjetrit, kur ju jeni llogaritjen mundësia e një dënimi. Dhe kjo është ajo që një gjuhë Modeli është në thelb. Vetëm duke thënë se çfarë është probabiliteti të paturit e një specifik fjali në një gjuhë? Pra, pse është se e dobishme, në thelb? Dhe para së gjithash ajo që është një model n-gram, atëherë? >> Pra, një model n-gram do të thotë se çdo fjalë varet nga N tjetër minus 1 fjalë. Pra, në thelb, kjo do të thotë se në qoftë se unë shoh, për shembull, në TF CS50 kur Unë jam duke llogaritur probabilitetin e dënimi, ju do të jetë si " mundësia e të pasurit fjalën "" herë mundësia e të pasurit " CS50 "herë mundësia e të pasurit "TF CS50." Pra, në thelb, unë numërimin të gjitha mënyrat e mundshme të shtrihen atë. >> Dhe pastaj zakonisht kur jeni duke bërë këtë, si në një projekt, të vendosni N të jetë një vlerë të ulët. Pra, zakonisht kanë bigrams apo trigrams. Kështu që ju vetëm të mbështeteni dy fjalë, a Grupi nga dy fjalë, apo tri fjalë, vetëm për çështjet e performancës. Dhe gjithashtu për shkak se ndoshta në qoftë se ju keni diçka si "The CS50 TF." Kur ju kanë "TF", është shumë e rëndësishme që "CS50" është pranë tij, e drejtë? Këto dy gjëra janë zakonisht të pranë njëri-tjetrit. >> Nëse ju mendoni se e "TF", është ndoshta do të kenë çfarë klasë është e TF'ing për. Gjithashtu "" është me të vërtetë e rëndësishme për CS50 TF. Por në qoftë se ju keni diçka si "The CS50 TF shkoi në klasë dhe i dha tyre Nxënësit disa karamele. "" Candy "dhe" " nuk kanë lidhje me të vërtetë, e drejtë? Ata janë kaq të largët nga njëri-tjetri që kjo nuk ka rëndësi se çfarë Fjalët që ju keni. >> Pra, duke bërë një bigram ose një trigram, ajo thjesht do të thotë se ju jeni të kufizuar veten për disa fjalë të që janë përreth. Kuptim? Pra, kur ju doni të bëni ndarje, në thelb, ajo që ju doni të bëni është të shikoni çfarë janë të gjitha mënyrat e mundshme që ju mund segment dënimin. >> I tillë që ju të shihni se çfarë është Mundësia e secilit prej këtyre dënimeve ekzistuese në gjuhën? Pra, atë që bëni ju është si, mirë, le të unë të përpiqet për të vënë një hapësirë këtu. Pra, ju vendosni një hapësirë atje dhe ju të shihni se çfarë është Mundësia e këtij dënimi? Pastaj ju jeni si, OK, ndoshta se nuk ishte se e mirë. Kështu që unë vë një hapësirë atje dhe një hapësirë e atje, dhe ju të llogaritur probabiliteti tani, dhe ju të shihni se kjo është një probabilitet më të lartë. >> Pra, kjo është një algoritmi të quajtur TANGO Segmentimi algorithm, e cila është në fakt diçka që do të jetë me të vërtetë ftohtë për një projekt, i cili në thelb merr tekstin unsegmented cilat mund të jetë japoneze apo kineze apo ndoshta English pa hapësira dhe të përpiqet për të vënë hapësirat midis fjalëve dhe ajo ka se duke përdorur një model të gjuhës dhe duke u përpjekur për të parë se çfarë është më e larta probabiliteti që ju mund të merrni. OK. Pra, kjo është segmentimit. >> Tani sintaksë. Pra, sintaksa është duke u përdorur për kaq shumë gjëra tani. Pra, për Graph Kerko, për Siri për shumë e shumë çdo lloj natyrore përpunimin e gjuhës që ju keni. Pra cilat janë të rëndësishme gjëra në lidhje me sintaksë? Pra, dënime në përgjithësi kanë ajo që ne e quajmë zgjedhësit. Cilat janë lloj si grupet e fjalëve që kanë një funksion në fjali. Dhe ata nuk mund të jetë me të vërtetë pavarësisht nga njëri-tjetri. >> Pra, në qoftë se unë them, për shembull, "e do Lauren Milo. "Unë e di se" Lauren "është një përbërëse dhe pastaj "dashuritë Milo "është edhe një tjetër. Sepse ju nuk mund të them si "Lauren Milo e do "që të kenë të njëjtin kuptim. Kjo nuk do të ketë njëjtin kuptim. Ose unë nuk mund të them si "Milo Lauren e do. "Jo çdo gjë ka të njëjtën që do të thotë duke bërë atë. >> Kështu dy gjërat më të rëndësishme në lidhje Sintaksa janë llojet leksikore që është në thelb funksion që ju kanë për fjalë me veten e tyre. Kështu që ju duhet të dini se "Lauren" dhe "Milo" janë emra. "Dashuria" është një folje. Dhe gjëja e dytë e rëndësishme është se ata janë llojet frazore. Pra, ju e dini se "e do Milo" është në fakt një frazë verbal. Pra, kur them "Lauren," Unë e di se Lauren është duke bërë diçka. Ç'farë është duke bërë ajo? Ajo është dashur Milo. Pra, kjo është një gjë e tërë. Por komponentët e tij janë të një emër dhe një folje. Por së bashku, ata bëjnë një frazë folje. >> Pra, çfarë mund të bëjë në fakt me gjuhësi kompjuterike? Pra, në qoftë se unë kam diçka për shembull "miqtë e Allison." Unë po të shoh nëse unë vetëm ka një pemë sintaktik unë do të di se "Miqtë" është një frazë noun kjo është një n dhe pastaj "i Allison" është një frazë parafjalor në të cilat "i" është një propozim dhe "Allison" është një emër. Ajo që unë mund të bëni është të mësojnë kompjuterin tim se kur unë kam një frazë Noun një dhe pastaj një frazë parafjalor. Pra, në këtë rast, "miqtë" dhe pastaj "i Milo "Unë e di se kjo do të thotë se NP2, e dyta, zotëron NP1. >> Kështu që unë mund të krijojë një lloj lidhje, një lloj funksioni për të. Pra, sa herë që unë shoh këtë strukturë, e cila përputhet saktësisht me "shokët e Allison, "Unë e di se Allison zotëron miqtë. Pra, miqtë janë diçka se Allison ka. Ka kuptim? Pra, kjo është në thelb ajo që Grafiku Kërkim i bën. Ajo vetëm krijon rregulla për shumë gjëra. Kështu "miqtë e Allison", "miq e mi të cilët jetojnë në Kembrixh, "" miqtë e mi të cilët shkojnë në Harvard. "Ajo krijon rregullat për të gjitha ato gjëra. >> Tani përkthimi makinë. Pra, përkthimi makinë është gjithashtu diçka statistikor. Dhe në të vërtetë në qoftë se ju të përfshiheni në gjuhësi kompjuterike, shumë stuff tuaj do të jetë e statistikave. Pra, si unë ishte duke bërë shembullin me një shumë e probabiliteteve që unë kam qenë llogaritjen, dhe pastaj ju merrni për këtë numër shumë i vogël që është i formës së prerë probabiliteti, dhe kjo është ajo që ju jep përgjigje. Përkthimi Machine gjithashtu përdor një model statistikor. Dhe në qoftë se ju doni të mendoni se e makinës përkthim në më të thjeshtë të mundshme mënyrë, atë që ju mund të mendoni se është vetëm përkthehet fjalë për fjalë, e drejtë? >> Kur ju jeni mësuar një gjuhë për herë të parë, kjo është zakonisht ajo që ju bëni, apo jo? Nëse ju dëshironi, ju përktheni një fjali në gjuhën tuaj me gjuhën ju jeni mësuar, zakonisht së pari, ju përkthejnë secili nga fjalët individualisht, dhe pastaj ju provoni për të vënë fjalët në vend. >> Pra, nëse kam kërkuar për të përkthyer këtë, [Duke folur PORTUGALISË] që do të thotë "mace e bardhë iku." Në qoftë se unë të kërkuar për të përkthyer atë nga Portugalisht në anglisht, atë që kam mund të bëni është, së pari, unë vetëm përkthehet fjalë për fjalë. Kështu "O" është "," "gato", "mace" "Branco," "e bardhë", dhe pastaj "fugio" është "Iku." >> Pra, atëherë unë kam të gjitha fjalët këtu, por ata nuk janë në rregull. Është si "të bardhë cat ikën" cila është ungrammatical. Pra, atëherë unë mund të ketë një hap të dytë, i cili do të jetë gjetur idealin pozita për secilën nga fjalët. Kështu që unë e di se unë në fakt duan të kenë "Mace e bardhë" në vend të "bardhë cat." Kështu ajo që unë mund të bëni është, metoda më naiv do të ishte për të krijuar të gjithë permutations e mundshme të fjalë, të pozicioneve. Dhe pastaj të parë që e ka probabilitet më të lartë sipas për modelin tim të gjuhës. Dhe atëherë kur unë të gjeni një që ka probabiliteti më të lartë se, e cila është ndoshta "mace e bardhë ikën," kjo është përkthimi im. >> Dhe kjo është një mënyrë e thjeshtë për të shpjeguar se si shumë machine translation algoritme të punojnë. A ka kjo kuptim? Kjo është gjithashtu diçka me të vërtetë emocionuese se ju djema mund të ndoshta të eksplorojnë për një Projekti final, vërtet? >> STUDENT: E pra, ju tha se ishte e mënyrë naive, kështu që çfarë është mënyrë jo-naiv? >> Lucas Freitas: Mënyra jo-naiv? OK. Pra, gjëja e parë që është e keqe për kjo metodë është se unë vetëm të përkthyera Fjalë, fjalë për fjalë. Por ndonjëherë ju keni fjalë se mund të ketë përkthime të shumta. Unë do të përpiqen për të menduar e diçka. Për shembull, "manga" në portugalisht kanaçe të jetë ose "sakatoj" ose "mëngë." Kështu kur jeni duke u përpjekur për të përkthyer fjalën me fjalë, ajo mund të jetë duke ju dhënë diçka që nuk ka kuptim. >> Pra, ju në të vërtetë doni të shikoni në të gjitha përkthimet e mundshme të fjalët dhe të shihni, para së gjithash, çfarë është urdhri. Ne ishim duke folur për permutating gjërat? Për të parë të gjitha urdhrat e mundshme dhe zgjidhni një me më të lartë probabiliteti? Ju gjithashtu mund të zgjidhni të gjitha të jetë e mundur përkthime për çdo Fjala dhe pastaj të shohim - kombinuar me permutations - e cila e ka probabilitetin më të lartë. >> Plus, ju gjithashtu mund të shikoni në nuk vetëm fjalë por frazat. kështu që ju mund të analizuar marrëdhëniet midis fjalët dhe pastaj të marrë një përkthim më të mirë. Gjithashtu diçka tjetër, kështu që ky semestër Unë jam në të vërtetë duke bërë hulumtime në Kineze-Anglisht përkthim makinë, kështu përkthimin nga Kineze në anglisht. >> Dhe diçka që ne bëjmë është, përveç duke përdorur një model statistikor, i cili është vetëm duke parë probabilities e parë disa pozita në një fjali, unë jam i në fakt edhe duke shtuar disa sintaksë për të tim model, duke thënë, oh, në qoftë se unë shoh këtë lloj e ndërtimit, kjo është ajo që unë dua për të ndryshuar atë në kur unë të përkthyer. Kështu që ju mund të shtoni disa lloj element i sintaksës për të bërë përkthim më të efektshme dhe më të saktë. OK. >> Pra, si mund të merrni filluar, në qoftë se ju doni për të bërë diçka në kompjuterike gjuhësi? >> Së pari, ju zgjidhni një projekt që përfshin gjuhët. Pra, nuk ka aq shumë atje. Ka kaq shumë gjëra që ju mund të bëni. Dhe pastaj mund të mendojnë për një model të që ju mund të përdorni. Zakonisht kjo do të thotë të menduarit e supozimet, si si, oh, kur isha si të menduarit e lyrics. Unë kam qenë si, dhe, në qoftë se unë dua të kuptoj nga një i cili shkroi këtë, unë ndoshta dëshironi për të parë në fjalët personi të përdorura dhe të parë që përdor këtë fjalë shumë shpesh. Kështu që të përpiqet për të bërë supozime dhe përpiqen të mendojnë për modele. Dhe pastaj ju mund të kërkoni në internet për lloj problemi që ju keni, dhe ajo do të sugjeroj për ju modeleve që ndoshta modeluar atë gjë mirë. >> Dhe gjithashtu ju gjithmonë mund të email mua. me@lfreitas.com. Dhe unë vetëm mund të përgjigjet në pyetjet tuaja. Ne mund edhe mund të takohen deri kështu që unë mund të japin sugjerime mbi mënyrat e zbatimin e projektit tuaj. Dhe Unë do të thotë në qoftë se ju merrni përfshirë me gjuhësi kompjuterike, ajo do të jetë i madh. Ju jeni do të shohim atje është aq shumë potencial. Dhe industria dëshiron të punësojë ju aq keq për shkak të kësaj. Kështu që unë shpresoj se ju djema gëzuar këtë. Nëse ju djema keni ndonjë pyetje, ju mund të më pyesni pas kësaj. Por ju falënderoj.