Studia podyplomowe

Big Data - przetwarzanie i analiza dużych zbiorów danych

REJESTRACJA ZAMKNIĘTA

O studiach

Przetwarzanie dużych zbiorów danych (Big Data) stało się kluczową umiejętnością specjalistów z obszaru Data Science. Coraz więcej firm z sektora prywatnego, takich jak banki, czy sieci handlowe, ale też agencji rządowych i instytucji publicznych korzysta z rezultatów osiągniętych dzięki analizie dużych zbiorów danych.

Efektywne przetwarzanie danych tego typu wymaga posiadania odpowiedniego repretuaru metod i narzędzi, które dostosowane są do specyfiki Big Data. Tego rodzaju zestaw kompetencji pozwala wspierać firmy i organizacje mające do czynienia z dużą ilością danych w podejmowaniu decyzji biznesowych, przewidywaniu kluczowych dla nich parametrów i wyciąganiu wniosków na podstawie danych historycznych.

Cel studiów

Celem studiów jest zdobycie praktycznych umiejętności analizy dużych zbiorów danych, zrozumienie podstaw, celu i obszaru zastosowania rezultatów takiej analizy. W czasie studiów słuchacze zapoznają się z najważniejszymi współczesnymi narzędziami i technologiami związanymi z zagadnieniami Big Data: Apache Hadoop i Spark w ujęciu programistycznym (MapReduce), analitycznym (Pig i Hive) i administracyjnym, a także bazy NoSQL, elementy programowania współbieżnego w językach funkcyjnych oraz podstawy uczenia maszynowego w kontekście przetwarzania dużych ilości danych.

Dla kogo są przeznaczone nasze studia?

Studia przeznaczone są dla osób, które zainteresowane są wykorzystaniem potencjału analizy dużych zbiorów danych w celu wspierania procesu podejmowania decyzji: w biznesie, nauce i innych obszarach działalności. Od uczestników wymagana jest podstawowa umiejętność programowania w języku Java oraz podstawowa znajomość zagadnień związanych z bazami danych i językiem SQL.

Dlaczego warto studiować Big Data na PW?

Studia prowadzone są przez praktyków: osoby na co dzień stosujące narzędzia i metody analizy dużych zbiorów danych w celu rozwiązania konkretnych problemów. Kadrę stanowią zarówno osoby pracujące w biznesie, jak w Instytucie Informatyki Politechniki Warszawskiej, który ma wieloletnie doświadczenie w obszarze eksploracji danych, implementacji systemów eksploracji tekstu, budowy ontologii, wyszukiwania informacji, sztucznej inteligencji.

Zobacz jaki obszar zagadnień obejmuje Big Data

Program studiów Big Data

Studia obejmują 201 godzin zajęć, w tym 110 godzin zajęć praktycznych w 16 zjazdach weekendowych w trakcie 2 semestrów. Szczegółowy terminarz zajęć znajduje się tutaj.

Słuchacze zdobędą podstawową wiedzę dotyczącą problemów skali Big Data.

Nauczysz się:

Podejścia do problemów skali Big Data, algorytm MapReduce, koncepcja BigTable, NoSQL oraz rozproszone systemy plikowe HDFS

Wykorzystasz:

Apache Hadoop

Słuchacze zostaną zapoznani z tradycyjnymi modelami realizacji współbieżności, które następnie zostaną skontrastowane z nowoczesnymi podejściami takimi jak, programowanie asynchroniczne oraz model aktorów.

Nauczysz się:

Programowanie współbieżne w Javie i w Scali, model aktorów, struktury danych i wzorce projektowe dla programowania współbieżnego

Wykorzystasz:

Java, Scala

Słuchacze zdobędą ogólną wiedzę dotyczącą baz typu NoSQL, ich funkcjonalnościach, zastosowaniach i ograniczeniach. Dzięki temu będą mogli wybrać właściwą bazę danych dla swoich projektów.

Nauczysz się:

Model danych BigTable oraz jego realizację w bazie Cassandra, struktura przechowywania danych i poziom fizycznego dostępu do nich, mechanizmy zapewniające wysoką dostępność i wydajność oraz kompromisy jakie się z tym wiążą

Wykorzystasz:

Baza Cassandra, baza HBase

Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.

Nauczysz się:

Projektować i dobierać odpowiednie rozwiązania Big Data do zadanego problemu

Wykorzystasz:

Apache Hadoop, Apache Spark

Słuchacze zdobędą przekrojową wiedzę dotyczącą przetwarzania danych w paradygmacie MapReduce, wykorzystania narzędzi analitycznych Pig i Hive, a także zdobędą podstawową wiedzę na temat administracji Apache Hadoop.

Nauczysz się:

Implementacja algorytmów w paradygmacie MapReduce, narzędzia analityczne Pig i Hive

Wykorzystasz:

Apache Hadoop, Pig, Hive

W ramach przedmiotu przedstawiony zostanie podstawowy zbór problemów Big Data i ich rozwiązania z pomocą narzędzi rodziny Apache Spark. Ponadto, słuchacze będą świadomi zalet i wad Apache Spark w podejściu do ich rozwiązania ich problemów biznesowych.

Nauczysz się:

Rozwiązywać problemy przetwarzania dużych zbiorów danych za pomocą Apache Spark

Wykorzystasz:

Apache Spark

Prezentacje w ramach przedmiotu obejmują przegląd komercyjnego wykorzystania wybranych metod z obszaru Data Science i Big Data, w szczególności następujące zagadnienia:

Data Science jako proces
Rola Data Science w firmie, Kompetencje i narzędzia Data Science, Zarządzanie procesem analityki danych, Wnioskowanie na podstawie danych, Rodzaje problemów analitycznych i modeli, Projektowanie eksperymentu i prezentacja wyników.

Wyzwania w pracy Data Scientist w organizacji
Błędy poznawcze w prezentacji i wizualizacji danych, Błędy poznawcze w zbieraniu i przygotowywaniu danych, Walka z manipulacją, Pozyskiwanie danych w organizacji, Ograniczenia prawne i formalne w pracy z danymi, Moralne aspekty pracy z danymi

Rekomendacja i personalizacja w serwisach internetowych
Systemy rekomendacji/personalizacji danych. Learning to rank - jak nauczyć wyszukiwarkę rankingowania? Jak zbierać informacje o użytkownikach serwisów internetowych?

Analityka Big Data w banku
Rodzaje danych gromadzonych przez banki. Źródła danych zewnętrznych, Architektura klastra Hadoop na przykładzie mBanku, Przykłady analiz z wykorzystaniem metod Big Data (Hive/Spark), Techniki oraz przykłady wizualizacji danych (R Shiny), Rys regulacyjny dotyczący przechowywania i przetwarzania danych dotyczących klientów oraz potencjalnych klientów.

Wykorzystanie zasobów informacji niestrukturalnej w dużych przedsiębiorstwach
Architektura informacji, Architektura systemów wyszukiwania Przetwarzania języka naturalnego, Podstawowe zastosowania biznesowe w przedsiębiorstwach: zarządzanie wiedzą, portal dostępu do informacji, aplikacje specjalizowane oparte na sinikach wyszukiwania.

SAS LASR Server jest analityczną platformą zapewniającą bezpieczne środowisko dla wielu użytkowników w celu jednoczesnego dostępu do danych załadowanych do pamięci. Serwer obsługuje zarówno duże wolumeny danych, jak też mniejsze zbiory danych i pozwala analitykom eksplorować dane i wykrywać relacje w danych z szybkością RAM-u. Architektura została zaprojektowana do optymalnego działania w środowisku rozproszonym. SAS LASR Server zapewnia wsparcie dla Hadoop Distributed File System (HDFS) jako dostawcy danych.

Nauczysz się:

Architektura środowisk Big Data: Distributed vs Non-distributed environments, Systemy plików dla rozwiązań Big Data, Big Data on Hadoop; Usługi Big Data: Zarządzanie procesami, Ładowanie danych, Przygotowanie danych, Zarządzanie dużymi zbiorami danych; Analiza danych: Budowa modeli predykcyjnych w środowisku Big Data, Wielowymiarowa analiza danych, Modele klasyfikacyjne, Analiza szeregów czasowych; Case Study with Big Data: Budowa systemu rekomendacyjnego; Analiza danych nieustrukturyzowanych

Wykorzystasz:

SAS LASR Server

W ramach przedmiotu omawiana jest problematyka uczenia maszynowego w kontekście dużych zbiorów danych, paradygmatu Map Reduce oraz technologii Apache Hadoop i Spark.

Nauczysz się:

Dobierać odpowiednie podejścia do rozwiązywania problemów uczenia maszynowego w kontekście dużych zbiorów danych

Wykorzystasz:

Apache Mahout, Spark MLib

Wykładowcy

Piotr Florczyk

Absolwent Politechniki Warszawskiej na Wydziale Elektroniki i Technik Informacyjnych. W SAS Institute od 2011 roku jako Technical Training Consultant. Posiada wieloletnie doświadczenie w prowadzeniu szkoleń z oprogramowania SAS jak i obszarów, które oprogramowania SAS adresuje. Wiedzę i umiejętności zdobył w licznych projektach podczas implementacji rozwiązań SAS zarówno w aspekcie technologicznym, jak i biznesowym.

Łukasz Kobyliński

Chief Science Officer w Sages oraz adiunkt w Instytucie Podstaw Informatyki PAN, gdzie prowadzi projekty w Zespole Inżynierii Lingwistycznej. Od wielu lat zajmuje się analizą danych i uczeniem maszynowym, początkowo w odniesieniu do obrazów - w roku 2012 obronił doktorat na Politechnice Warszawskiej z tego zakresu - a obecnie w zastosowaniu do przetwarzania języka naturalnego. Szczególnie zainteresowany lingwistyką korpusową, morfologią i semantyką tekstu, a także efektywnym przetwarzaniem dużych zbiorów danych.

Piotr Nazimek

Piotr Nazimek pracuje zawodowo od 2003 roku, głównie w projektach wykorzystujących karty elektroniczne takich jak systemy płatnicze i transportowe. Posiada stopień doktora nauk technicznych w dziedzinie informatyki nadany przez Wydział Elektroniki i Technik Informacyjnych PW. Zakres jego zainteresowań obejmuje szeroko pojęte bezpieczeństwo systemów komputerowych oraz inżynierię oprogramowania. Bierze udział w pracach Komitetu Technicznego Nr 172 ds. Kart Identyfikacyjnych przy Polskim Komitecie Normalizacyjnym. Jest autorem lub współautorem kilkunastu publikacji i wystąpień konferencyjnych. Prowadzi szkolenia z zakresu praktycznego stosowania kryptografii w systemach komputerowych.

Jakub Nowacki

Absolwent Politechniki Gdańskiej oraz Uniwersytetu Bristolskiego, gdzie obronił doktorat z matematyki stosowanej. Na co dzień łączy umiejętności analityczne i programistyczne. Najbardziej interesuje się rozproszonym przetwarzaniem i analizą dużych zbiorów danych. Zaczynał przygodę z programowaniem w językach C i C++, jednak obecnie najlepiej czuje się w świecie Javy i Pythona.

Radosław Szmit

Absolwent Politechniki Warszawskiej aktualnie pracujący nad rozprawą doktorską z zakresu Big Data i NLP. Twórca polskiej wyszukiwarki internetowej NEKST stworzonej przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Otwartego Systemu Antyplagiatowego realizowanego przez Międzyuniwersyteckie Centrum Informatyzacji. Zawodowo konsultant IT specjalizujący się w rozwiązaniach Java Enterprise Edition, Big Data oraz Business Intelligence, trener IT w firmie Sages, zwolennik Agile oraz Software Craftsmanship, członek Warsaw Java User Group, Warsaw Hadoop User Group, Data Science Warsaw oraz Stowarzyszenia Software Engineering Professionals Polska.

Aleksander Wawer

Adiunkt w Instytucie Podstaw Informatyki PAN, gdzie obronił w 2013 doktorat dotyczączy algorytmów rozpoznawania wydźwięku (ang. sentiment analysis) w języku polskim. Pracuje również w laboratorium Text Mining Samsunga, gdzie zajmuje się praktycznymi implementacjami technologii językowych. Zainteresowania i wieloletnie doświadczenie zawodowe obejmują przetwarzanie języka naturalnego, składniowe i semantyczne. Ostatnio zafascynowany głębokim uczeniem maszynowym i wielowarstwowymi sieciami neuronowymi oraz ich zastosowaniami do rozpoznawania znaczenia fraz i zdań.

Bartłomiej Twardowski

Doktorant na Politechnice Warszawskiej badający systemy rekomendacji oraz metody personalizacji danych. Na co dzień pracujący również w Grupie Allegro - największym portalu e-marketplace w Polsce, gdzie zajmuje się analizą danych, systemami rekomendacji oraz wykorzystaniu uczenia maszynowego do rozwiązywania złożonych problemów. Z racji skali zagadnień - ekosystem Big Data stał się jego codziennym podwórkiem zmagań. Zafascynowany trudnymi projektami wykorzystującymi metody machine learning oraz data mining do praktycznych zastosowań.

Paweł Wróblewski

Absolwent Wydziału Matematyki i Nauk informacyjnych Politechniki Warszawskiej. Od początku swojej kariery zawodowej zajmuje się systemami wyszukiwania i analizy danych. Jest zafascynowany najnowszymi osiągnięciami z zakresu przeszukiwania informacji i ewolucji technologii internetowych. Swoje zafascynowanie stara się przełożyć na budowanie rozwiązań pozwalających na łączne wyszukiwanie i analizę danych tekstowych i strukturalnych, charakteryzujących się wysoką wydajnością i innowacyjnością. Stara się promować nowe ujęcie systemów klasy Business Intelligence czy tzw. Big Data, włączając w nie dane tekstowe i analizy lingwistyczne. Od 2012 roku odpowiada za polski oddział szwedzkiej firmy Findwise, wcześniej pracował dla Asseco Poland, ABG, Acsys.

Kamil Żbikowski

Obecnie Senior IT Manager będący liderem zespołu data science w mBanku. W przeszłości Software Architect współtworzący algorytmiczny fundusz inwestycyjny wykorzystujący metody sztucznej inteligencji oraz data mining. IT Manger w Turbine Analytics, firmie specjalizującej się w dostarczaniu rozwiązań wspierających zarządzanie funduszami oraz ryzykiem dla towarzystw funduszy inwestycyjnych. Współtwórca oraz CTO Bazaar Blockchain Technoglogies Ltd., firmy zajmującej się dostarczaniem w zautomatyzowany sposób płynności dla giełd Bitcoin. Absolwent Wydziału Elektroniki i Technik Informacyjnych Politechniki Warszawskiej na kierunku Informatyka. Równolegle ukończył studia na kierunku Finanse i Rachunkowość SGH. W ramach swoich publikacji posiada pozycje w najlepszych światowych journalach z zakresu sztucznej inteligencji. Jest posiadaczem najwyższego certyfikatu Oracle – Oracle Certified Master, Java EE Enterprise Architect. Zwolennik i propagator Agile.

Rada Programowa

Robert Bembenik

Kierownik Studium

Krzysztof Dąbrowski

CIO/CTO, mBank S.A.

Piotr Gawrysiak

Profesor Nadzwyczajny, Instytut Informatyki PW

Łukasz Kobyliński

Chief Science Officer, Board Member, Sages

Jakub Koperwas

JEE Consultant & Partner, Sages

Radosław Lipiński

Team Manager, Citibank

Mieczysław Muraszkiewicz

Dyrektor ds. Naukowych, Instytut Informatyki PW

Jakub Nowacki

Senior Software Engineer, CodiLime

Andrzej Olękiewicz

Digital R&D Director, TNS Polska SA

Paweł Wróblewski

Regional Manager, Findwise

Rekrutacja i opłaty na semestr letni 2017

W studiach podyplomowych mogą uczestniczyć absolwenci studiów wyższych 1. i 2. stopnia. Przyjęcia realizowane są według kolejności zgłoszeń, do wyczerpania limitu miejsc.

Rekrutacja jest przeprowadzana na podstawie:

Wzór umowy zawieranej przez kandydatów na studia z Politechniką Warszawską (do zapoznania) dostępny jest tutaj.

Termin składania dokumentów: 31 stycznia 2017 - 15 lutego 2017 10 marca 2017

Początek zajęć: marzec 2017

Dokumenty należy składać w sekretariacie Instytutu Informatyki, pok. 204, Wydział Elektroniki i Technik Informacyjnych, 00-665 Warszawa, Nowowiejska 15/19, w godzinach 9:00 – 15:30.

  • Opłaty

    10 000 PLN / rok
  • I rata - 6 000 PLN
    opłatę należy wnieść do 28 lutego 2017
  • II rata - 4 000 PLN
    opłatę należy wnieść do 1 września 2017
  • Limit miejsc: 36 osób
  • Minimalna liczba osób: 18
  • Zapisz się
Terminarz zjazdów, edycja 2016Z
Semestr I 15-16 paź 29-30 paź 12-13 lis 26-27 lis 10-11 gru 7-8 sty 21-22 sty 4-5 lut
Semestr II 11-12 mar 25-26 mar 8-9 kwi 6-7 maj 13-14 maj 27-28 maj 10-11 cze

Plan zajęć, semestr I 2016/2017: grupa 1, grupa 2

Plan zajęć, semestr II 2016/2017: grupa 1, grupa 2

Lokalizacja sal: wejście przez podwórze, wejście przez piwnicę

Terminarz zjazdów, edycja 2017L
Semestr I 18-19 mar 1-2 kwi 22-23 kwi 20-21 maj 3-4 cze 24-25 cze 16-17 wrz 30 wrz - 1 paź

Plan zajęć, semestr I 2016/2017L: grupa 1

UWAGA 1: Faktury będą wystawiane automatycznie jeśli zgłoszą Państwo taką potrzebę we wniosku. W celu uzyskania szczegółowych wyjaśnień prosimy kontaktować się z księgowością Instytutu Informatyki, tel. 22 234 7664.

UWAGA 2: Z tytułu opłat za studia podyplomowe faktury mogą być wystawione wyłącznie na nabywcę usługi edukacyjnej czyli osobę („Słuchacza” studiów podyplomowych), która zawiera z Uczelnią umowę o warunkach odpłatności za studia podyplomowe w Politechnice Warszawskiej stanowiącą zał. nr 7 do uchwały nr 332/XLVIII/2015 Senatu PW z dnia 23.09.2015 r. W przypadku, gdy opłata za studia podyplomowe wnoszona jest przez firmę, istnieje możliwość, aby na fakturze firma ta została wskazana jako płatnik, a uczestnik studiów podyplomowych jako nabywca usługi edukacyjnej. W takiej sytuacji niezbędne jest przekazanie przez firmę stosownego pisma zawierającego m.in. dokładne dane potrzebne do wystawienia faktury.


  • Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej

    Instytut Informatyki
    ul. Nowowiejska 15/19, 00-665 Warszawa

  • Sekretariat Studiów Podyplomowych
    pok. 204, II piętro

    Bożenna Skalska

    tel.: 22 234 7432
    fax: 22 234 6091
    e-mail: B.Skalska@ii.pw.edu.pl

  • Kierownik
    pok. 302, III piętro

    dr inż. Robert Bembenik

    tel.: 22 234 7715
    e-mail: R.Bembenik@ii.pw.edu.pl

Partnerzy merytoryczni

  • Sages
  • Sas
  • Tableau

Patroni medialni

  • Bulldogjob
  • Otouczelnie
  • Praca
  • Koło Naukowe Informatyków
  • Koło Naukowe Data Science