Studia podyplomowe

Big Data - przetwarzanie i analiza dużych zbiorów danych

BRAK MIEJSC
Kolejna edycja studiów rozpoczyna się w lutym 2019. Wypełnij formularz, jeśli jesteś nią zainteresowany.

O studiach

Przetwarzanie dużych zbiorów danych (Big Data) stało się kluczową umiejętnością specjalistów z obszaru Data Science. Coraz więcej firm z sektora prywatnego, takich jak banki, czy sieci handlowe, ale też agencji rządowych i instytucji publicznych korzysta z rezultatów osiągniętych dzięki analizie dużych zbiorów danych.

Efektywne przetwarzanie danych tego typu wymaga posiadania odpowiedniego repretuaru metod i narzędzi, które dostosowane są do specyfiki Big Data. Tego rodzaju zestaw kompetencji pozwala wspierać firmy i organizacje mające do czynienia z dużą ilością danych w podejmowaniu decyzji biznesowych, przewidywaniu kluczowych dla nich parametrów i wyciąganiu wniosków na podstawie danych historycznych.

Cel studiów

Celem studiów jest zdobycie praktycznych umiejętności analizy dużych zbiorów danych, zrozumienie podstaw, celu i obszaru zastosowania rezultatów takiej analizy. W czasie studiów słuchacze zapoznają się z najważniejszymi współczesnymi narzędziami i technologiami związanymi z zagadnieniami Big Data: Apache Hadoop i Spark w ujęciu programistycznym (MapReduce), analitycznym (Pig i Hive) i administracyjnym, a także bazy NoSQL, elementy programowania współbieżnego w językach funkcyjnych oraz podstawy uczenia maszynowego w kontekście przetwarzania dużych ilości danych.

Dla kogo są przeznaczone nasze studia?

Studia przeznaczone są dla osób, które zainteresowane są wykorzystaniem potencjału analizy dużych zbiorów danych w celu wspierania procesu podejmowania decyzji: w biznesie, nauce i innych obszarach działalności. Od uczestników wymagana jest podstawowa umiejętność programowania w języku Java oraz podstawowa znajomość zagadnień związanych z bazami danych i językiem SQL.

Dlaczego warto studiować Big Data na PW?

Studia prowadzone są przez praktyków: osoby na co dzień stosujące narzędzia i metody analizy dużych zbiorów danych w celu rozwiązania konkretnych problemów. Kadrę stanowią zarówno osoby pracujące w biznesie, jak w Instytucie Informatyki Politechniki Warszawskiej, który ma wieloletnie doświadczenie w obszarze eksploracji danych, implementacji systemów eksploracji tekstu, budowy ontologii, wyszukiwania informacji, sztucznej inteligencji.

Zobacz jaki obszar zagadnień obejmuje Big Data

Program studiów Big Data

Studia obejmują 201 godzin zajęć realizowanych w większości w trybie warsztatów w trakcie zjazdów weekendowych w ciągu 2 semestrów. Ukończenie studiów następuje po obronie pracy końcowej. Szczegółowy terminarz zajęć znajduje się tutaj.

Słuchacze zdobędą podstawową wiedzę dotyczącą problemów skali Big Data.

Nauczysz się:

Podejścia do problemów skali Big Data, algorytm MapReduce, koncepcja BigTable, NoSQL oraz rozproszone systemy plikowe HDFS

Wykorzystasz:

Apache Hadoop

PROWADZĄCY: dr inż. Jakub Nowacki

W ramach przedmiotu słuchacze rozwiną umiejętności związane z przetwarzaniem i analizą danych.

Nauczysz się:

Obsługi najważniejszych poleceń oraz narzędzi w systemie Linux, poznasz struktury i składni języka programowania Java lub Python, wykorzystania kolekcji danych, obsługi wątków i współbieżnego przetwarzania danych, wykorzystania dedykowanych bibliotek do efektywnego przetwarzania danych.

Wykorzystasz:

Java lub Python

PROWADZĄCY: dr inż. Piotr Nazimek

Słuchacze zdobędą ogólną wiedzę dotyczącą baz typu NoSQL, ich funkcjonalnościach, zastosowaniach i ograniczeniach. Dzięki temu będą mogli wybrać właściwą bazę danych dla swoich projektów.

Nauczysz się:

Model danych BigTable oraz jego realizację w bazie Cassandra, struktura przechowywania danych i poziom fizycznego dostępu do nich, mechanizmy zapewniające wysoką dostępność i wydajność oraz kompromisy jakie się z tym wiążą

Wykorzystasz:

Baza Cassandra, baza HBase

PROWADZĄCY: mgr inż. Tomasz Fortuna

Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.

Nauczysz się:

Projektować i dobierać odpowiednie rozwiązania Big Data do zadanego problemu

Wykorzystasz:

Apache Hadoop, Apache Spark

PROWADZĄCY: dr inż. Jakub Nowacki

SW ramach przedmiotu zostaną przedstawione podstawowe typy usług na chmurach obliczeniowych oraz zastosowania wirtualnych instancji, w tym wykorzystanie rozwiązań platformowych do składowania i przetwarzania danych. Ponadto słuchacze poznają zagadnienia związane z architekturą w oparciu o chmurę oraz z analityką i uczeniem maszynowym w chmurach.

Nauczysz się:

Implementować infrastrukturę jako kod, przetwarzać dane wsadowe i strumieniowe używając usług chmurowych Google Cloud. Poznasz podstawowe techniki projektowania architektury z użyciem usług chmurowych na przykładzie środowiska Google Cloud.

Wykorzystasz:

Google Cloud

PROWADZĄCY: mgr inż. Radosław Szmit

W ramach przedmiotu przedstawiony zostanie podstawowy zbiór problemów Big Data i ich rozwiązania z pomocą narzędzi rodziny Apache Spark oraz Apache Hadoop. Słuchacze będą świadomi zalet i wad tych narzędzi w podejściu do rozwiązania problemów biznesowych.

Nauczysz się:

Formułować zadania algorytmiczne w tym paradygmacie MapReduce, projektować i zaimplementować aplikację z wykorzystaniem Apache Hadoop i Spark, analizować i interpretować dane za pomocą Apache Spark i Apache Hive, przetwarzać dane wsadowe i strumieniowe

Wykorzystasz:

Apache Hadoop, Apache Spark, Hive, Kafka

PROWADZĄCY: mgr inż. Radosław Szmit

Prezentacje w ramach przedmiotu obejmują przegląd komercyjnego wykorzystania wybranych metod z obszaru Data Science i Big Data, w szczególności następujące zagadnienia:

Data Science jako proces
Rola Data Science w firmie, Kompetencje i narzędzia Data Science, Zarządzanie procesem analityki danych, Wnioskowanie na podstawie danych, Rodzaje problemów analitycznych i modeli, Projektowanie eksperymentu i prezentacja wyników.

Wyzwania w pracy Data Scientist w organizacji
Błędy poznawcze w prezentacji i wizualizacji danych, Błędy poznawcze w zbieraniu i przygotowywaniu danych, Walka z manipulacją, Pozyskiwanie danych w organizacji, Ograniczenia prawne i formalne w pracy z danymi, Moralne aspekty pracy z danymi

Rekomendacja i personalizacja w serwisach internetowych
Systemy rekomendacji/personalizacji danych. Learning to rank - jak nauczyć wyszukiwarkę rankingowania? Jak zbierać informacje o użytkownikach serwisów internetowych?

Analityka Big Data w banku
Rodzaje danych gromadzonych przez banki. Źródła danych zewnętrznych, Architektura klastra Hadoop na przykładzie mBanku, Przykłady analiz z wykorzystaniem metod Big Data (Hive/Spark), Techniki oraz przykłady wizualizacji danych (R Shiny), Rys regulacyjny dotyczący przechowywania i przetwarzania danych dotyczących klientów oraz potencjalnych klientów.

Wykorzystanie zasobów informacji niestrukturalnej w dużych przedsiębiorstwach
Architektura informacji, Architektura systemów wyszukiwania Przetwarzania języka naturalnego, Podstawowe zastosowania biznesowe w przedsiębiorstwach: zarządzanie wiedzą, portal dostępu do informacji, aplikacje specjalizowane oparte na sinikach wyszukiwania.

PROWADZĄCY: drr inż. Robert Bembenik

SAS Viya to otwarta platforma analityczna umożliwiająca superszybkie obliczenia dla operacji na danych, eksploracji oraz zaawansowanej analityki. Sercem platformy jest silnik SAS Cloud Analytics Services (CAS) przetwarzający dane in-memory. Pozwala wielu użytkownikom jednocześnie na bezpieczną pracę z tymi samymi danymi, dzięki czemu unika się redundancji danych a zasoby klastra są optymalniej wykorzystane. Serwer obsługuje zarówno mniejsze zbiory danych jak i duże wolumeny o rozmiarach przekraczających dostępną pamięć RAM. CAS zapewnia wsparcie dla Hadoop Distributed File System (HDFS) jako źródła danych i miejsca do ich zapisu. Otwarte API pozwala użytkownikom na pracę z CAS za pomocą języków Python, Java, Lua czy R co znacznie skraca czas nauki tej technologii.

Nauczysz się:

Jednego z najlepszych komercyjnych rozwiązań chmurowych na rynku typu Enterprise do zaawansowanej analityki dla Big Data.

Wykorzystasz:

Server Cloud Analytics Services do eksploracji, przygotowania i analizy danych oraz język Python do komunikacji z CAS.

PROWADZĄCY: mgr inż. Zbigniew Wyszomierski

W ramach przedmiotu omawiana jest problematyka uczenia maszynowego w kontekście dużych zbiorów danych, paradygmatu Map Reduce oraz technologii Apache Hadoop i Spark.

Nauczysz się:

Dobierać odpowiednie podejścia do rozwiązywania problemów uczenia maszynowego w kontekście dużych zbiorów danych

Wykorzystasz:

Apache Mahout, Spark MLib

PROWADZĄCY: dr inż. Aleksander Wawer

Wykładowcy

Piotr Florczyk

Absolwent Politechniki Warszawskiej na Wydziale Elektroniki i Technik Informacyjnych. W SAS Institute od 2011 roku jako Technical Training Consultant. Posiada wieloletnie doświadczenie w prowadzeniu szkoleń z oprogramowania SAS jak i obszarów, które oprogramowania SAS adresuje. Wiedzę i umiejętności zdobył w licznych projektach podczas implementacji rozwiązań SAS zarówno w aspekcie technologicznym, jak i biznesowym.

Łukasz Kobyliński

Chief Science Officer w Sages oraz adiunkt w Instytucie Podstaw Informatyki PAN, gdzie prowadzi projekty w Zespole Inżynierii Lingwistycznej. Od wielu lat zajmuje się analizą danych i uczeniem maszynowym, początkowo w odniesieniu do obrazów - w roku 2012 obronił doktorat na Politechnice Warszawskiej z tego zakresu - a obecnie w zastosowaniu do przetwarzania języka naturalnego. Szczególnie zainteresowany lingwistyką korpusową, morfologią i semantyką tekstu, a także efektywnym przetwarzaniem dużych zbiorów danych.

Piotr Nazimek

Piotr Nazimek pracuje zawodowo od 2003 roku, głównie w projektach wykorzystujących karty elektroniczne takich jak systemy płatnicze i transportowe. Posiada stopień doktora nauk technicznych w dziedzinie informatyki nadany przez Wydział Elektroniki i Technik Informacyjnych PW. Zakres jego zainteresowań obejmuje szeroko pojęte bezpieczeństwo systemów komputerowych oraz inżynierię oprogramowania. Bierze udział w pracach Komitetu Technicznego Nr 172 ds. Kart Identyfikacyjnych przy Polskim Komitecie Normalizacyjnym. Jest autorem lub współautorem kilkunastu publikacji i wystąpień konferencyjnych. Prowadzi szkolenia z zakresu praktycznego stosowania kryptografii w systemach komputerowych.

Jakub Nowacki

Absolwent Politechniki Gdańskiej oraz Uniwersytetu Bristolskiego, gdzie obronił doktorat z matematyki stosowanej. Na co dzień łączy umiejętności analityczne i programistyczne. Najbardziej interesuje się rozproszonym przetwarzaniem i analizą dużych zbiorów danych. Zaczynał przygodę z programowaniem w językach C i C++, jednak obecnie najlepiej czuje się w świecie Javy i Pythona.

Radosław Szmit

Związany z Politechniką Warszawską, aktualnie pracujący nad rozprawą doktorską z zakresu Big Data i NLP. Twórca polskiej wyszukiwarki internetowej NEKST stworzonej przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Otwartego Systemu Antyplagiatowego realizowanego przez Międzyuniwersyteckie Centrum Informatyzacji. Zawodowo konsultant IT specjalizujący się w rozwiązaniach Java Enterprise Edition, Big Data oraz Business Intelligence, trener IT w firmie Sages, zwolennik Agile oraz Software Craftsmanship, członek Warsaw Java User Group, Warsaw Hadoop User Group, Data Science Warsaw oraz Stowarzyszenia Software Engineering Professionals Polska.

Aleksander Wawer

Adiunkt w Instytucie Podstaw Informatyki PAN, gdzie obronił w 2013 doktorat dotyczączy algorytmów rozpoznawania wydźwięku (ang. sentiment analysis) w języku polskim. Pracuje również w laboratorium Text Mining Samsunga, gdzie zajmuje się praktycznymi implementacjami technologii językowych. Zainteresowania i wieloletnie doświadczenie zawodowe obejmują przetwarzanie języka naturalnego, składniowe i semantyczne. Ostatnio zafascynowany głębokim uczeniem maszynowym i wielowarstwowymi sieciami neuronowymi oraz ich zastosowaniami do rozpoznawania znaczenia fraz i zdań.

Bartłomiej Twardowski

Adiunkt w Zakładzie Sztucznej Inteligencji Politechniki Warszawskiej. Posiada stopień doktora nauk technicznych w dziedzinie informatyki, gdzie w ramach badań pracował nad systemami rekomendacji oraz metodami personalizacji danych. Od wielu lat związany z komercyjnym aplikowaniem systemów uczących, metod eksploracji danych (m.in. Grupa Allegro, Adform). Z racji skali zagadnień - ekosystem Big Data stał się jego codziennym podwórkiem zmagań. Zafascynowany trudnymi projektami wykorzystującymi metody sztucznej inteligencji do praktycznych zastosowań oraz badaniami naukowymi w obszarze ML oraz sztucznych sieci neuronowych.

Paweł Wróblewski

Absolwent Wydziału Matematyki i Nauk informacyjnych Politechniki Warszawskiej. Od początku swojej kariery zawodowej zajmuje się systemami wyszukiwania i analizy danych. Jest zafascynowany najnowszymi osiągnięciami z zakresu przeszukiwania informacji i ewolucji technologii internetowych. Swoje zafascynowanie stara się przełożyć na budowanie rozwiązań pozwalających na łączne wyszukiwanie i analizę danych tekstowych i strukturalnych, charakteryzujących się wysoką wydajnością i innowacyjnością. Stara się promować nowe ujęcie systemów klasy Business Intelligence czy tzw. Big Data, włączając w nie dane tekstowe i analizy lingwistyczne. Od 2012 roku odpowiada za polski oddział szwedzkiej firmy Findwise, wcześniej pracował dla Asseco Poland, ABG, Acsys.

Kamil Żbikowski

Obecnie Senior IT Manager będący liderem zespołu data science w mBanku. W przeszłości Software Architect współtworzący algorytmiczny fundusz inwestycyjny wykorzystujący metody sztucznej inteligencji oraz data mining. IT Manger w Turbine Analytics, firmie specjalizującej się w dostarczaniu rozwiązań wspierających zarządzanie funduszami oraz ryzykiem dla towarzystw funduszy inwestycyjnych. Współtwórca oraz CTO Bazaar Blockchain Technoglogies Ltd., firmy zajmującej się dostarczaniem w zautomatyzowany sposób płynności dla giełd Bitcoin. Absolwent Wydziału Elektroniki i Technik Informacyjnych Politechniki Warszawskiej na kierunku Informatyka. Równolegle ukończył studia na kierunku Finanse i Rachunkowość SGH. W ramach swoich publikacji posiada pozycje w najlepszych światowych journalach z zakresu sztucznej inteligencji. Jest posiadaczem najwyższego certyfikatu Oracle – Oracle Certified Master, Java EE Enterprise Architect. Zwolennik i propagator Agile.

Katarzyna Chodarcewicz

Absolwentka Wydzialu Fizyki Politechniki Warszawskiej. Praktyczną wiedzę z zakresu przetwarzania dużych wolumenów danych oraz zastosowania algorytmów Machine Learning zdobyła m.in. pracując dla Microsoftu w Londynie. Obecnie na co dzień pracuje w projektach związanych z szeroko pojętym Data Science w Lingaro, polskiej firmie świadczącej usługi z zakresu IT. Ze względu na rozmiar danych jedną ze stosowanych w projektach technologii, w której się specjalizuje, jest Apache Spark.

Patryk Pilarski

Data Scientist w Lingaro. Entuzjasta Pythona i R, na drodze ku zgłębieniu tajników Scali. Żywo zainteresowany - zarówno zawodowo jak i prywatnie, analizą danych oraz machine learningiem. W pracy zawodowej na co dzień zajmuje się danymi, ich przetwarzaniem oraz stosowaniem na nich algorytmów machine learningowych. Styka się przy tym z różnymi technologiami między innymi Apache Spark.

Rada Programowa

Robert Bembenik

Kierownik Studium

Krzysztof Dąbrowski

CIO/CTO, mBank S.A.

Piotr Gawrysiak

Profesor Nadzwyczajny, Instytut Informatyki PW

Łukasz Kobyliński

Chief Science Officer, Board Member, Sages

Jakub Koperwas

JEE Consultant & Partner, Sages

Radosław Lipiński

Senior Team Manager, Roche

Mieczysław Muraszkiewicz

Dyrektor ds. Naukowych, Instytut Informatyki PW

Jakub Nowacki

Senior Software Engineer, CodiLime

Andrzej Olękiewicz

Digital R&D Director, TNS Polska SA

Robert Stanikowski

Partner and Managing Director, CEE Technology Advantage Practice Leader, The Boston Consulting Group

Paweł Wróblewski

Regional Manager, Findwise

Rekrutacja i opłaty na semestr zimowy 2018

W studiach podyplomowych mogą uczestniczyć absolwenci kierunków ścisłych studiów wyższych 1. i 2. stopnia. W przypadku osób z dyplomem nauk humanistycznych przeprowadzana jest rozmowa rekrutacyjna. Przyjęcia realizowane są według kolejności zgłoszeń, do wyczerpania limitu miejsc.

Rekrutacja jest przeprowadzana na podstawie:

Wzór umowy zawieranej przez kandydatów na studia z Politechniką Warszawską (do zapoznania) dostępny jest tutaj.

Termin składania dokumentów: 21 maja 2018 - 29 czerwca 2018 BRAK MIEJSC

Początek zajęć: październik 2018

Dokumenty należy składać w sekretariacie Instytutu Informatyki, pok. 204, Wydział Elektroniki i Technik Informacyjnych, 00-665 Warszawa, Nowowiejska 15/19, w godzinach 9:00 – 15:30.

  • Opłaty

    10 000 PLN / rok
  • I rata - 6 000 PLN
    opłatę należy wnieść do 10 lipca 2018
  • II rata - 4 000 PLN
    opłatę należy wnieść do 11 lutego 2019
  • Limit miejsc: 36 osób
  • Minimalna liczba osób: 18
  • Zapisz się

UWAGA 1: Faktury będą wystawiane automatycznie jeśli zgłoszą Państwo taką potrzebę we wniosku. W celu uzyskania szczegółowych wyjaśnień prosimy kontaktować się z księgowością Instytutu Informatyki, tel. 22 234 7664.

UWAGA 2: Z tytułu opłat za studia podyplomowe faktury mogą być wystawione wyłącznie na nabywcę usługi edukacyjnej czyli osobę („Słuchacza” studiów podyplomowych), która zawiera z Uczelnią umowę o warunkach odpłatności za studia podyplomowe w Politechnice Warszawskiej stanowiącą zał. nr 7 do uchwały nr 332/XLVIII/2015 Senatu PW z dnia 23.09.2015 r. W przypadku, gdy opłata za studia podyplomowe wnoszona jest przez firmę, istnieje możliwość, aby na fakturze firma ta została wskazana jako płatnik, a uczestnik studiów podyplomowych jako nabywca usługi edukacyjnej. W takiej sytuacji niezbędne jest przekazanie przez firmę stosownego pisma zawierającego m.in. dokładne dane potrzebne do wystawienia faktury.


Dla słuchaczy

Terminarz zjazdów, edycja 2018L
Semestr I 3-4 mar 17-18 mar 7-8 kwi 21-22 kwi 19-20 maj 9-10 cze 23-24 cze
Semestr II 6-7 paź 20-21 paź 17-18 lis 1-2 gru 15-16 gru 19-20 sty 2-3 lut 16-17 lut

Plan zajęć, semestr I 2018L: grupa 1

Plan zajęć, semestr II 2018Z: grupa 1

Terminarz zjazdów, edycja 2018Z
Semestr I 6-7 paź 13-14 paź 27-28 paź 24-25 lis 8-9 gru 12-13 sty 26-27 sty 9-10 lut

Plan zajęć, semestr I 2018Z: grupa 1, grupa 2

Lokalizacja sal: wejście przez podwórze, wejście przez piwnicę

Praca końcowa

Ukończenie studiów następuje po przygotowaniu i obronie pracy końcowej. W trakcie przygotowania pracy końcowej należy uwzględnić poniższe wskazówki:

Prace końcowe należy złożyć w wersji elektronicznej do 14 września 2018, wersję papierową pracy należy dostarczyć do sekretariatu do 24 września 2018. Obrony odbędą się 6 października 2018.

  • Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej

    Instytut Informatyki
    ul. Nowowiejska 15/19, 00-665 Warszawa

  • Sekretariat Studiów Podyplomowych
    pok. 204, II piętro

    Bożenna Skalska

    tel.: 22 234 7432
    fax: 22 234 6091
    e-mail: B.Skalska@ii.pw.edu.pl

  • Kierownik
    pok. 302, III piętro

    dr inż. Robert Bembenik

    tel.: 22 234 7715
    e-mail: R.Bembenik@ii.pw.edu.pl

Partnerzy merytoryczni

  • Sages
  • Sas
  • Tableau
  • Allegro
  • Lingaro

Patroni medialni

  • Bulldogjob
  • Otouczelnie
  • Praca
  • Koło Naukowe Informatyków
  • Koło Naukowe Data Science