Studia podyplomowe

Big Data - przetwarzanie i analiza dużych zbiorów danych

BRAK MIEJSC

O studiach

Przetwarzanie dużych zbiorów danych (Big Data) stało się kluczową umiejętnością specjalistów z obszaru Data Science. Coraz więcej firm z sektora prywatnego, takich jak banki, czy sieci handlowe, ale też agencji rządowych i instytucji publicznych korzysta z rezultatów osiągniętych dzięki analizie dużych zbiorów danych.

Efektywne przetwarzanie danych tego typu wymaga posiadania odpowiedniego repretuaru metod i narzędzi, które dostosowane są do specyfiki Big Data. Tego rodzaju zestaw kompetencji pozwala wspierać firmy i organizacje mające do czynienia z dużą ilością danych w podejmowaniu decyzji biznesowych, przewidywaniu kluczowych dla nich parametrów i wyciąganiu wniosków na podstawie danych historycznych.

Cel studiów

Celem studiów jest zdobycie praktycznych umiejętności analizy dużych zbiorów danych, zrozumienie podstaw, celu i obszaru zastosowania rezultatów takiej analizy. W czasie studiów słuchacze zapoznają się z najważniejszymi współczesnymi narzędziami i technologiami związanymi z zagadnieniami Big Data: Apache Hadoop i Spark w ujęciu programistycznym (MapReduce), analitycznym (Pig i Hive) i administracyjnym, a także bazy NoSQL, elementy programowania współbieżnego w językach funkcyjnych oraz podstawy uczenia maszynowego w kontekście przetwarzania dużych ilości danych.

Dla kogo są przeznaczone nasze studia?

Studia przeznaczone są dla osób, które zainteresowane są wykorzystaniem potencjału analizy dużych zbiorów danych w celu wspierania procesu podejmowania decyzji: w biznesie, nauce i innych obszarach działalności. Od uczestników wymagana jest podstawowa umiejętność programowania w języku Java oraz podstawowa znajomość zagadnień związanych z bazami danych i językiem SQL.

Dlaczego warto studiować Big Data na PW?

Studia prowadzone są przez praktyków: osoby na co dzień stosujące narzędzia i metody analizy dużych zbiorów danych w celu rozwiązania konkretnych problemów. Kadrę stanowią zarówno osoby pracujące w biznesie, jak w Instytucie Informatyki Politechniki Warszawskiej, który ma wieloletnie doświadczenie w obszarze eksploracji danych, implementacji systemów eksploracji tekstu, budowy ontologii, wyszukiwania informacji, sztucznej inteligencji.

Zobacz jaki obszar zagadnień obejmuje Big Data

Program studiów Big Data

Studia obejmują 201 godzin zajęć realizowanych w większości w trybie warsztatów w trakcie zjazdów weekendowych w ciągu 2 semestrów. Ukończenie studiów następuje po obronie pracy końcowej. Szczegółowy terminarz zajęć znajduje się tutaj.

Słuchacze zdobędą podstawową wiedzę dotyczącą problemów skali Big Data.

Nauczysz się:

Podejścia do problemów skali Big Data, algorytm MapReduce, koncepcja BigTable, NoSQL oraz rozproszone systemy plikowe HDFS

Wykorzystasz:

Apache Hadoop

Słuchacze zostaną zapoznani z tradycyjnymi modelami realizacji współbieżności, które następnie zostaną skontrastowane z nowoczesnymi podejściami takimi jak, programowanie asynchroniczne oraz model aktorów.

Nauczysz się:

Programowanie współbieżne w Javie i w Scali, model aktorów, struktury danych i wzorce projektowe dla programowania współbieżnego

Wykorzystasz:

Java, Scala

Słuchacze zdobędą ogólną wiedzę dotyczącą baz typu NoSQL, ich funkcjonalnościach, zastosowaniach i ograniczeniach. Dzięki temu będą mogli wybrać właściwą bazę danych dla swoich projektów.

Nauczysz się:

Model danych BigTable oraz jego realizację w bazie Cassandra, struktura przechowywania danych i poziom fizycznego dostępu do nich, mechanizmy zapewniające wysoką dostępność i wydajność oraz kompromisy jakie się z tym wiążą

Wykorzystasz:

Baza Cassandra, baza HBase

Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.

Nauczysz się:

Projektować i dobierać odpowiednie rozwiązania Big Data do zadanego problemu

Wykorzystasz:

Apache Hadoop, Apache Spark

Słuchacze zdobędą przekrojową wiedzę dotyczącą przetwarzania danych w paradygmacie MapReduce, wykorzystania narzędzi analitycznych Pig i Hive, a także zdobędą podstawową wiedzę na temat administracji Apache Hadoop.

Nauczysz się:

Implementacja algorytmów w paradygmacie MapReduce, narzędzia analityczne Pig i Hive

Wykorzystasz:

Apache Hadoop, Pig, Hive

W ramach przedmiotu przedstawiony zostanie podstawowy zbór problemów Big Data i ich rozwiązania z pomocą narzędzi rodziny Apache Spark. Ponadto, słuchacze będą świadomi zalet i wad Apache Spark w podejściu do ich rozwiązania ich problemów biznesowych.

Nauczysz się:

Rozwiązywać problemy przetwarzania dużych zbiorów danych za pomocą Apache Spark

Wykorzystasz:

Apache Spark

Prezentacje w ramach przedmiotu obejmują przegląd komercyjnego wykorzystania wybranych metod z obszaru Data Science i Big Data, w szczególności następujące zagadnienia:

Data Science jako proces
Rola Data Science w firmie, Kompetencje i narzędzia Data Science, Zarządzanie procesem analityki danych, Wnioskowanie na podstawie danych, Rodzaje problemów analitycznych i modeli, Projektowanie eksperymentu i prezentacja wyników.

Wyzwania w pracy Data Scientist w organizacji
Błędy poznawcze w prezentacji i wizualizacji danych, Błędy poznawcze w zbieraniu i przygotowywaniu danych, Walka z manipulacją, Pozyskiwanie danych w organizacji, Ograniczenia prawne i formalne w pracy z danymi, Moralne aspekty pracy z danymi

Rekomendacja i personalizacja w serwisach internetowych
Systemy rekomendacji/personalizacji danych. Learning to rank - jak nauczyć wyszukiwarkę rankingowania? Jak zbierać informacje o użytkownikach serwisów internetowych?

Analityka Big Data w banku
Rodzaje danych gromadzonych przez banki. Źródła danych zewnętrznych, Architektura klastra Hadoop na przykładzie mBanku, Przykłady analiz z wykorzystaniem metod Big Data (Hive/Spark), Techniki oraz przykłady wizualizacji danych (R Shiny), Rys regulacyjny dotyczący przechowywania i przetwarzania danych dotyczących klientów oraz potencjalnych klientów.

Wykorzystanie zasobów informacji niestrukturalnej w dużych przedsiębiorstwach
Architektura informacji, Architektura systemów wyszukiwania Przetwarzania języka naturalnego, Podstawowe zastosowania biznesowe w przedsiębiorstwach: zarządzanie wiedzą, portal dostępu do informacji, aplikacje specjalizowane oparte na sinikach wyszukiwania.

SAS Viya to otwarta platforma analityczna umożliwiająca superszybkie obliczenia dla operacji na danych, eksploracji oraz zaawansowanej analityki. Sercem platformy jest silnik SAS Cloud Analytics Services (CAS) przetwarzający dane in-memory. Pozwala wielu użytkownikom jednocześnie na bezpieczną pracę z tymi samymi danymi, dzięki czemu unika się redundancji danych a zasoby klastra są optymalniej wykorzystane. Serwer obsługuje zarówno mniejsze zbiory danych jak i duże wolumeny o rozmiarach przekraczających dostępną pamięć RAM. CAS zapewnia wsparcie dla Hadoop Distributed File System (HDFS) jako źródła danych i miejsca do ich zapisu. Otwarte API pozwala użytkownikom na pracę z CAS za pomocą języków Python, Java, Lua czy R co znacznie skraca czas nauki tej technologii.

Nauczysz się:

Jednego z najlepszych komercyjnych rozwiązań chmurowych na rynku typu Enterprise do zaawansowanej analityki dla Big Data.

Wykorzystasz:

Server Cloud Analytics Services do eksploracji, przygotowania i analizy danych oraz język Python do komunikacji z CAS.

W ramach przedmiotu omawiana jest problematyka uczenia maszynowego w kontekście dużych zbiorów danych, paradygmatu Map Reduce oraz technologii Apache Hadoop i Spark.

Nauczysz się:

Dobierać odpowiednie podejścia do rozwiązywania problemów uczenia maszynowego w kontekście dużych zbiorów danych

Wykorzystasz:

Apache Mahout, Spark MLib

Wykładowcy

Piotr Florczyk

Absolwent Politechniki Warszawskiej na Wydziale Elektroniki i Technik Informacyjnych. W SAS Institute od 2011 roku jako Technical Training Consultant. Posiada wieloletnie doświadczenie w prowadzeniu szkoleń z oprogramowania SAS jak i obszarów, które oprogramowania SAS adresuje. Wiedzę i umiejętności zdobył w licznych projektach podczas implementacji rozwiązań SAS zarówno w aspekcie technologicznym, jak i biznesowym.

Łukasz Kobyliński

Chief Science Officer w Sages oraz adiunkt w Instytucie Podstaw Informatyki PAN, gdzie prowadzi projekty w Zespole Inżynierii Lingwistycznej. Od wielu lat zajmuje się analizą danych i uczeniem maszynowym, początkowo w odniesieniu do obrazów - w roku 2012 obronił doktorat na Politechnice Warszawskiej z tego zakresu - a obecnie w zastosowaniu do przetwarzania języka naturalnego. Szczególnie zainteresowany lingwistyką korpusową, morfologią i semantyką tekstu, a także efektywnym przetwarzaniem dużych zbiorów danych.

Piotr Nazimek

Piotr Nazimek pracuje zawodowo od 2003 roku, głównie w projektach wykorzystujących karty elektroniczne takich jak systemy płatnicze i transportowe. Posiada stopień doktora nauk technicznych w dziedzinie informatyki nadany przez Wydział Elektroniki i Technik Informacyjnych PW. Zakres jego zainteresowań obejmuje szeroko pojęte bezpieczeństwo systemów komputerowych oraz inżynierię oprogramowania. Bierze udział w pracach Komitetu Technicznego Nr 172 ds. Kart Identyfikacyjnych przy Polskim Komitecie Normalizacyjnym. Jest autorem lub współautorem kilkunastu publikacji i wystąpień konferencyjnych. Prowadzi szkolenia z zakresu praktycznego stosowania kryptografii w systemach komputerowych.

Jakub Nowacki

Absolwent Politechniki Gdańskiej oraz Uniwersytetu Bristolskiego, gdzie obronił doktorat z matematyki stosowanej. Na co dzień łączy umiejętności analityczne i programistyczne. Najbardziej interesuje się rozproszonym przetwarzaniem i analizą dużych zbiorów danych. Zaczynał przygodę z programowaniem w językach C i C++, jednak obecnie najlepiej czuje się w świecie Javy i Pythona.

Radosław Szmit

Absolwent Politechniki Warszawskiej aktualnie pracujący nad rozprawą doktorską z zakresu Big Data i NLP. Twórca polskiej wyszukiwarki internetowej NEKST stworzonej przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Otwartego Systemu Antyplagiatowego realizowanego przez Międzyuniwersyteckie Centrum Informatyzacji. Zawodowo konsultant IT specjalizujący się w rozwiązaniach Java Enterprise Edition, Big Data oraz Business Intelligence, trener IT w firmie Sages, zwolennik Agile oraz Software Craftsmanship, członek Warsaw Java User Group, Warsaw Hadoop User Group, Data Science Warsaw oraz Stowarzyszenia Software Engineering Professionals Polska.

Aleksander Wawer

Adiunkt w Instytucie Podstaw Informatyki PAN, gdzie obronił w 2013 doktorat dotyczączy algorytmów rozpoznawania wydźwięku (ang. sentiment analysis) w języku polskim. Pracuje również w laboratorium Text Mining Samsunga, gdzie zajmuje się praktycznymi implementacjami technologii językowych. Zainteresowania i wieloletnie doświadczenie zawodowe obejmują przetwarzanie języka naturalnego, składniowe i semantyczne. Ostatnio zafascynowany głębokim uczeniem maszynowym i wielowarstwowymi sieciami neuronowymi oraz ich zastosowaniami do rozpoznawania znaczenia fraz i zdań.

Bartłomiej Twardowski

Doktorant na Politechnice Warszawskiej badający systemy rekomendacji oraz metody personalizacji danych. Na co dzień pracujący również w Grupie Allegro - największym portalu e-marketplace w Polsce, gdzie zajmuje się analizą danych, systemami rekomendacji oraz wykorzystaniu uczenia maszynowego do rozwiązywania złożonych problemów. Z racji skali zagadnień - ekosystem Big Data stał się jego codziennym podwórkiem zmagań. Zafascynowany trudnymi projektami wykorzystującymi metody machine learning oraz data mining do praktycznych zastosowań.

Paweł Wróblewski

Absolwent Wydziału Matematyki i Nauk informacyjnych Politechniki Warszawskiej. Od początku swojej kariery zawodowej zajmuje się systemami wyszukiwania i analizy danych. Jest zafascynowany najnowszymi osiągnięciami z zakresu przeszukiwania informacji i ewolucji technologii internetowych. Swoje zafascynowanie stara się przełożyć na budowanie rozwiązań pozwalających na łączne wyszukiwanie i analizę danych tekstowych i strukturalnych, charakteryzujących się wysoką wydajnością i innowacyjnością. Stara się promować nowe ujęcie systemów klasy Business Intelligence czy tzw. Big Data, włączając w nie dane tekstowe i analizy lingwistyczne. Od 2012 roku odpowiada za polski oddział szwedzkiej firmy Findwise, wcześniej pracował dla Asseco Poland, ABG, Acsys.

Kamil Żbikowski

Obecnie Senior IT Manager będący liderem zespołu data science w mBanku. W przeszłości Software Architect współtworzący algorytmiczny fundusz inwestycyjny wykorzystujący metody sztucznej inteligencji oraz data mining. IT Manger w Turbine Analytics, firmie specjalizującej się w dostarczaniu rozwiązań wspierających zarządzanie funduszami oraz ryzykiem dla towarzystw funduszy inwestycyjnych. Współtwórca oraz CTO Bazaar Blockchain Technoglogies Ltd., firmy zajmującej się dostarczaniem w zautomatyzowany sposób płynności dla giełd Bitcoin. Absolwent Wydziału Elektroniki i Technik Informacyjnych Politechniki Warszawskiej na kierunku Informatyka. Równolegle ukończył studia na kierunku Finanse i Rachunkowość SGH. W ramach swoich publikacji posiada pozycje w najlepszych światowych journalach z zakresu sztucznej inteligencji. Jest posiadaczem najwyższego certyfikatu Oracle – Oracle Certified Master, Java EE Enterprise Architect. Zwolennik i propagator Agile.

Rada Programowa

Robert Bembenik

Kierownik Studium

Krzysztof Dąbrowski

CIO/CTO, mBank S.A.

Piotr Gawrysiak

Profesor Nadzwyczajny, Instytut Informatyki PW

Łukasz Kobyliński

Chief Science Officer, Board Member, Sages

Jakub Koperwas

JEE Consultant & Partner, Sages

Radosław Lipiński

Team Manager, Citibank

Mieczysław Muraszkiewicz

Dyrektor ds. Naukowych, Instytut Informatyki PW

Jakub Nowacki

Senior Software Engineer, CodiLime

Andrzej Olękiewicz

Digital R&D Director, TNS Polska SA

Robert Stanikowski

Partner and Managing Director, CEE Technology Advantage Practice Leader, The Boston Consulting Group

Paweł Wróblewski

Regional Manager, Findwise

Rekrutacja i opłaty na semestr zimowy 2017

W studiach podyplomowych mogą uczestniczyć absolwenci studiów wyższych 1. i 2. stopnia. Przyjęcia realizowane są według kolejności zgłoszeń, do wyczerpania limitu miejsc.

Rekrutacja jest przeprowadzana na podstawie:

Wzór umowy zawieranej przez kandydatów na studia z Politechniką Warszawską (do zapoznania) dostępny jest tutaj.

Termin składania dokumentów: 24 maja 2017 - 25 sierpnia 2017 BRAK MIEJSC

Początek zajęć: październik 2017

Dokumenty należy składać w sekretariacie Instytutu Informatyki, pok. 204, Wydział Elektroniki i Technik Informacyjnych, 00-665 Warszawa, Nowowiejska 15/19, w godzinach 9:00 – 15:30.

  • Opłaty

    10 000 PLN / rok
  • I rata - 6 000 PLN
    opłatę należy wnieść do 25 sierpnia 2017
  • II rata - 4 000 PLN
    opłatę należy wnieść do 16 lutego 2018
  • Limit miejsc: 36 osób
  • Minimalna liczba osób: 18
  • Zapisz się

UWAGA 1: Faktury będą wystawiane automatycznie jeśli zgłoszą Państwo taką potrzebę we wniosku. W celu uzyskania szczegółowych wyjaśnień prosimy kontaktować się z księgowością Instytutu Informatyki, tel. 22 234 7664.

UWAGA 2: Z tytułu opłat za studia podyplomowe faktury mogą być wystawione wyłącznie na nabywcę usługi edukacyjnej czyli osobę („Słuchacza” studiów podyplomowych), która zawiera z Uczelnią umowę o warunkach odpłatności za studia podyplomowe w Politechnice Warszawskiej stanowiącą zał. nr 7 do uchwały nr 332/XLVIII/2015 Senatu PW z dnia 23.09.2015 r. W przypadku, gdy opłata za studia podyplomowe wnoszona jest przez firmę, istnieje możliwość, aby na fakturze firma ta została wskazana jako płatnik, a uczestnik studiów podyplomowych jako nabywca usługi edukacyjnej. W takiej sytuacji niezbędne jest przekazanie przez firmę stosownego pisma zawierającego m.in. dokładne dane potrzebne do wystawienia faktury.


Dla słuchaczy

Terminarz zjazdów, edycja 2017L
Semestr I 18-19 mar 1-2 kwi 22-23 kwi 20-21 maj 3-4 cze 24-25 cze 16-17 wrz 30 wrz - 1 paź
Semestr II 21-22 paź 4-5 lis 25-26 lis 9-10 gru 13-14 sty 27-28 sty

Plan zajęć, semestr I 2016/2017L: grupa 1

Plan zajęć, semestr II 2017/2018Z: grupa 1

Terminarz zjazdów, edycja 2017Z
Semestr I 7-8 paź 14-15 paź 28-29 paź 18-19 lis 2-3 gru 16-17 gru 20-21 sty
Semestr II 10-11 mar 24-25 mar 14-15 kwi 12-13 maj 26-27 maj 16-17 cze 30 cze-1 lip

Plan zajęć, semestr I 2017/2018Z: grupa 1, grupa 2

Lokalizacja sal: wejście przez podwórze, wejście przez piwnicę

Praca końcowa

Ukończenie studiów następuje po przygotowaniu i obronie pracy końcowej. W trakcie przygotowania pracy końcowej należy uwzględnić poniższe wskazówki:

Sesja letnia:
- termin złożenia prac końcowych: 28 maja
- termin egzaminu: 10 - 11 czerwca
- harmonogram obron

Sesja jesienna:
- termin złożenia prac końcowych: 15 września
- termin egzaminu: 30 września
- harmonogram obron

  • Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej

    Instytut Informatyki
    ul. Nowowiejska 15/19, 00-665 Warszawa

  • Sekretariat Studiów Podyplomowych
    pok. 204, II piętro

    Bożenna Skalska

    tel.: 22 234 7432
    fax: 22 234 6091
    e-mail: B.Skalska@ii.pw.edu.pl

  • Kierownik
    pok. 302, III piętro

    dr inż. Robert Bembenik

    tel.: 22 234 7715
    e-mail: R.Bembenik@ii.pw.edu.pl

Partnerzy merytoryczni

  • Sages
  • Sas
  • Tableau
  • Allegro
  • Lingaro

Patroni medialni

  • Bulldogjob
  • Otouczelnie
  • Praca
  • Koło Naukowe Informatyków
  • Koło Naukowe Data Science