Adam, czyli nie jednemu psu na imię Burek

Microsoft Research to dział firmy z Redmond zajmujący się badaniami i rozwojem. Warto mieć na uwadze, że firma ta wydaje na R&D więcej niż jakikolwiek przedstawiciel ich konkurencji. Do tej pory jednak, owoce pracy MSR często nie trafiały do komercyjnych rozwiązań – wyjątkiem był między innymi Kinect.

Ambicje Microsoftu są jednak dużo większe. Nowy prezes chce, żeby pomysły z MSR trafiały do zastosowań masowych dużo szybciej i na dużo większą skalę. Podczas piętnastej corocznej konwencji Microsoft Research zaprezentowano możliwości nowych narzędzi do głębokiego uczenia maszynowego, wbudowanych w Cortanę. Uczenie maszynowe – a co to takiego? Jest to mechanizm oparty na sieciach neuronowych (symulujących działanie ludzkiego mózgu), który na podstawie danych uczących (np milionów zdjęć czy tekstów) jest w stanie „nauczyć się” rozpoznawania przedmiotów, tłumaczenia tekstów czy formułowania prognoz.

msft-dog-recognition-210

Człowiek nie ma sobie równych w rozpoznawaniu wzorców. Mowa, obrazy, dźwięk – komputery nadal nie mogą się zbliżyć do nas pod tym względem. Projekt „Adam” ma zrobić krok naprzód i przenieść rozpoznawanie i klasyfikację obrazu na kolejny poziom. Wszystko za sprawą jeszcze „głębszych” sieci neuronowych. Rozpoznawanie tekstu idzie komputerom bardzo dobrze. Głównie z uwagi na to, że maszyny „wiedzą” czego się spodziewać – mamy zamknięty (ograniczony) zbiór cyfr i liter. Co jednak z rozpoznawaniem przedmiotów z życia codziennego? Np ras psów. Odpowiednio wyszkolony człowiek nie ma z tym problemów. A komputer? Z pomocą przychodzą właśnie sieci neuronowe. Zamiast wkodować w maszynę zestaw cech buldoga francuskiego, sieć neuronowa „uczy się” czym jest buldog francuski na podstawie setek tysięcy zdjęć z internetu (flickr, facebook, instagram…) oznaczonych odpowiednimi tagami. Za proces uczenia odpowiada Bing, a właściwie silnik za nim stojący, czyli Satori.

Nowa struktura głębokich sieci neuronowych pozwoliła zmniejszyć trzydziestokrotnie liczbę zastosowanych klastrów obliczeniowych i przyspieszyć generowanie wyników (w czasie rzeczywistym) nawet pięćdziesięciokrotnie. Nic jednak nie działa tak na wyobraźnie jak prezentacja na żywo. Na scenę zaproszono hodowcę z dalmatyńczykiem i zapytano Cortanę co to za rasa. Cortana poprosiła o zrobienie zdjęcia i po chwili poprawnie odpowiedziała, że to dalmatyńczyk. Poprawnie rozpoznała również rodezjana.

To tylko przykładowe rozwiązanie będące początkiem tego projektu. W przyszłości możemy oczekiwać, że zrobimy zdjęcie naszego posiłku, a Cortana powie nam co jemy i jaka jest tego wartość odżywcza (kalorie i makroskładniki). System ma pomagać również w diagnozowaniu schorzeń, np raka skóry. Robi wrażenie? Z pewnością. Sądząc po integracji z Cortaną, można spodziewać się, że projekt dość szybko trafi do konsumentów – podobnie jak system tłumaczenia na żywo rozmów Skype, również oparty na głębokich sieciach neuronowych.

Czy Microsoft wreszcie nauczył się, że dział R&D ma sens tylko wtedy, gdy projekty tam powstające trafiają do odbiorcy końcowego? Mam nadzieję, że tak.

PS: Spodziewajcie się więcej newsów o Microsofcie w najbliższyc dniach – z uwagi na trwający WPC i MSR Summit. Spokojnie – to tylko chwilowe.