Studia podyplomowe

Big Data - przetwarzanie i analiza dużych zbiorów danych

REJESTRACJA OTWARTA

O studiach

Przetwarzanie dużych zbiorów danych (Big Data) stało się kluczową umiejętnością specjalistów z obszaru Data Science. Coraz więcej firm z sektora prywatnego, takich jak banki, czy sieci handlowe, ale też agencji rządowych i instytucji publicznych korzysta z rezultatów osiągniętych dzięki analizie dużych zbiorów danych.

Efektywne przetwarzanie danych tego typu wymaga posiadania odpowiedniego repertuaru metod i narzędzi, które dostosowane są do specyfiki Big Data. Tego rodzaju zestaw kompetencji pozwala wspierać firmy i organizacje mające do czynienia z dużą ilością danych w podejmowaniu decyzji biznesowych, przewidywaniu kluczowych dla nich parametrów i wyciąganiu wniosków na podstawie danych historycznych.

Pierwsza edycja studiów rozpoczęła się w październiku 2016 roku. Nabór prowadzony jest dwa razy w roku.

Dotychczas studia ukończyło blisko 450 osób.

Zobacz jaki obszar zagadnień obejmuje Big Data:

Adresaci

Dla kogo są przeznaczone nasze studia?

Studia przeznaczone są dla osób, które zainteresowane są wykorzystaniem potencjału analizy dużych zbiorów danych w celu wspierania procesu podejmowania decyzji: w biznesie, nauce i innych obszarach działalności. Od uczestników wymagana jest podstawowa umiejętność programowania w dowolnym języku (preferowana Java) oraz podstawowa znajomość zagadnień związanych z bazami danych i językiem SQL.

Dlaczego warto studiować Big Data na PW?

Studia prowadzone są przez praktyków: osoby na co dzień stosujące narzędzia i metody analizy dużych zbiorów danych w celu rozwiązania konkretnych problemów. Kadrę stanowią zarówno osoby pracujące w biznesie, jak w Instytucie Informatyki Politechniki Warszawskiej, który ma wieloletnie doświadczenie w obszarze eksploracji danych, implementacji systemów eksploracji tekstu, budowy ontologii, wyszukiwania informacji, sztucznej inteligencji.

Dowiedz się więcej

Big Data

Radek Szmit o Big Data

O Big Data z rozmowy z wykładowcą na tym kierunku Radosławem Szmitem

PODCAST

Data Science

Dlaczego wszyscy mówią o Data Science?

O tym, dlaczego zainteresowanie Data Science rośnie z każdym rokiem z rozmowy Łukasza Kobylińskiego i Jakuba Nowackiego

PODCAST

Cel studiów

Celem studiów jest zdobycie praktycznych umiejętności analizy dużych zbiorów danych, zrozumienie podstaw, celu i obszaru zastosowania rezultatów takiej analizy. W czasie studiów słuchacze zapoznają się z najważniejszymi współczesnymi narzędziami i technologiami związanymi z zagadnieniami Big Data: Apache Hadoop i Spark w ujęciu programistycznym (MapReduce), analitycznym (Pig i Hive) i administracyjnym, a także bazy NoSQL, elementy programowania współbieżnego w językach funkcyjnych oraz podstawy uczenia maszynowego w kontekście przetwarzania dużych ilości danych.

Czego się nauczysz

Po zakończonej nauce Twoje kompetencje wzbogacą się o umiejętność:

  • programowania w języku Python na potrzeby analityki dużych danych
  • szybkiego i wydajnego przetwarzanie dużych danych
  • podstawowych technik projektowania architektury chmurowej
  • obsługi baz danych typu noSQL
  • trenowania i oceniania modeli uczenia maszynowego
W pakiecie kurs e-learningowy z podstaw Pythona

Jakie technologie poznasz

Na zajęciach prowadzonych w trybie warsztatowym poznasz od strony praktycznej m.in. następujęce technologie i narzędzia:

  • język programowania Python
  • bazy noSQL: Cassandra i Mongo DB
  • chmurę obliczeniową AWS
  • technologie Apache Hadoop i Spark
  • technologie związane ze strumieniowym przetwarzaniem danych Kafka i Flink
  • technologie związane z uczeniem maszynowym Keras i Tensorflow

Dlaczego warto wybrać nasze studia

Zajęcia z praktykami

Wszyscy wykładowcy poza doświadczeniem akademickim na co dzień związani są z projektami komercyjnymi, co w połączeniu daje dostęp do eksperckiej wiedzy i praktycznego know-how.

Warsztatowy charakter zajęć

Wszystkie zajęcia prowadzone są w formie warsztatów ukierunkowanych na rozwijanie kompetencji i praktycznej znajomości poznawanych narzędzi i technologii.

Najnowsze technologie

Dobór narzędzi i technologii oparty jest o analizę obecnie najpopularniejszych rozwiązań w obszarze Big Data.

Renomowana uczelnia

Politechnika Warszawska jest jedną z największych i najlepszych uczelni technicznych w Polsce oraz w Europie Środkowo-Wschodniej. Potwierdzają to wyniki rankingów krajowych oraz zagranicznych, w których uczelnia znajduje się w czołówce klasyfikowanych polskich uczelni technicznych.

Program

Studia obejmują 197 godzin zajęć realizowanych w większości w trybie warsztatów w trakcie zjazdów weekendowych w ciągu 2 semestrów. Ukończenie studiów następuje po obronie pracy końcowej.

Nauczysz się:

Słuchacze poznają historię oraz definicję zagadnienia Big Data, ekosystem stosowanych narzędzi oraz powszechnie wykorzystywanych języków programowania, podział ról i obowiązków spotykany w rozwiązaniach Big Data, różnice pomiędzy przetwarzaniem wsadowym a strumieniowym oraz ich zastosowania.

Główny prowadzący:

Patryk Pilarski

Nauczysz się:

Obsługi najważniejszych poleceń oraz narzędzi w systemie Linux, struktury i składni języka programowania Python, wykorzystania kolekcji oraz dedykowanych bibliotek do efektywnego przetwarzania danych takich jak NumPy, Pandas i Matplotlib.

Wykorzystywane technologie:

Python

Główny prowadzący:

Piotr Nazimek

Nauczysz się:

Uczestnicy w trakcie zajęć poznają rozwiązanie Apache Cassandra - pokrewne Google Bigtable lub Amazon Dynamo. Zarówno na poziomie czysto praktycznym - jak również zagłębiając się w architekturę systemów rozproszonych i analizując jak konieczność zapewnienia wysokiej dostępności wpływa na cały proces modelowania danych.

Wykorzystywane technologie:

Cassandra, Docker, Python / Jupyter notebooks

Główny prowadzący:

Tomasz Fortuna

Nauczysz się:

Po przeprowadzonych zajęciach słuchacze zdobędą umiejętności pozwalające na samodzielną instalacje oraz konfigurację bazy MongoDB. Zostaną zapoznani z hierarchicznym modelem danych oraz jego obsługą poprzez wbudowany w MongoDB język zapytań. Uczestnicy zdobędą umiejętności z zakresu używania Aggregation Framework, który pozwoli im na manipulacje na dużych zbiorach danych. Po zakończonych zajęciach słuchacze zdobędą również wiedzę pozwalająca im na rozpraszanie zbioru danych MongoDB za pomocą replikacji oraz shardingu.

Wykorzystywane technologie:

MongoDB, JSON, JavaScript, Robomongo

Główny prowadzący:

Rafał Kaszczuk

Nauczysz się:

Słuchacze nauczą się implementować infrastrukturę jako kod, przetwarzać dane wsadowe i strumieniowe używając usług chmurowych Amazon Web Services. Poznają podstawowe techniki projektowania architektury z użyciem usług chmurowych na przykładzie środowiska AWS.

Wykorzystywane technologie:

AWS (EC2, EMR, S3, Athena, Lambda, Glue, SageMaker, usługi kognitywne i AI) przeglądowo Google, Azure

Główne zagadnienia:

Wprowadzenie do chmur obliczeniowych. Wprowadzenie do AWS. Pierwsze kroki. Podstawowe usługi. Big Data i analityka danych. Sztuczna Inteligencja. Serverless. Bazy danych. Wyszukiwanie. Data Warehouse & Business Intelligence. ETL. Integracja. Strumienie danych. Konteneryzacja. Zarządzanie. Przegląd innych rozwiązań dostępnych w chmurze publicznej.

Główny prowadzący:

Radosław Szmit

Nauczysz się:

W ramach przedmiotu słuchacze zapoznają się z Apache Spark w sposób prakatyczny i kompleksowy. Poznają problemy w rozwiązaniu których pomaga ta technologia. Uczestnicy nauczą się pracować z danymi wsadowymi i strumieniowymi. Posiądą praktyczną umiejętność przetwarzania dużych danych w sposób szybki i wydajny pisząc zwięzłe i klarowne aplikacje.

Wykorzystywane technologie:

Spark (RDD, DF, streaming), Jupyter, Kafka, EMR i S3

Główne zagadnienia:

Apache Spark. RDD. DataFrame. Streaming.

Główny prowadzący:

Patryk Pilarski

Nauczysz się:

W trakcie zajęc słuchacze poznają w praktyce Hive, będą tworzyli tabele partycjonowane oraz kubełkowane, jak również będą przetwarzać rozproszone dane przy pomocy silników MapReduce oraz Tez. Słuchacze zapoznają się także z najważniejszymi poleceniami rozproszonego systemu plików Hadoop Distributed File System (HDFS), dowiedzą się czym jest YARN oraz jak używać zarządzanych przez niego zasobów oraz zdobęda umiejętności z zakresu tworzenie workflowów w Oozie.

Wykorzystywane technologie:

HDFS, Hive, Yarn, MapReduce, Tez, Oozie, Zeppelin

Główny prowadzący:

Radek Szmit

Nauczysz się:

W ramach zajęć słuchacze nauczą się trenować i oceniać modele uczenia maszynowego we współczesnych środowiskach big data. Metody będą mieć po części charakter uniwersalny, ale w ramach zajęć skupimy się przede wszystkim na problemach przetwarzania tekstów i obrazów. Przykładowe problemy, z jakimi zmierzymy się na laboratoriach to rozpoznawanie obiektów na zdjęciach oraz rozpoznawanie wydźwięku tekstu (opinion mining albo sentiment analysis).

Wykorzystywane technologie:

Python / Jupyter notebooks. Narzędzia: numpy, scikit-learn, Spark MLlib, Keras, Tensorflow

Główny prowadzący:

Aleksander Wawer

Nauczysz się:

Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.

Wykorzystywane technologie:

Apache Hadoop, Apache Spark

Główny prowadzący:

Patryk Pilarski

Nauczysz się:

Budować efektywny system pobierający, przetwarzający i wprowadzający strumienie danych do systemu Big Data.

Wykorzystywane technologie:

Docker, Python, Apache NiFi, Apache Kafka, Apache Flink

Główny prowadzący:

Piotr Florczyk

Prezentacje w ramach przedmiotu obejmują przegląd komercyjnego wykorzystania wybranych metod z obszaru Data Science i Big Data. Przykładowe zagadnienia prezentowane na wcześniejszych edycjach:

Data Science jako proces

Rola Data Science w firmie, Kompetencje i narzędzia Data Science, Zarządzanie procesem analityki danych, Wnioskowanie na podstawie danych, Rodzaje problemów analitycznych i modeli, Projektowanie eksperymentu i prezentacja wyników.

Wyzwania w pracy Data Scientist w organizacji

Błędy poznawcze w prezentacji i wizualizacji danych, Błędy poznawcze w zbieraniu i przygotowywaniu danych, Walka z manipulacją, Pozyskiwanie danych w organizacji, Ograniczenia prawne i formalne w pracy z danymi, Moralne aspekty pracy z danymi

Rekomendacja i personalizacja w serwisach internetowych

Systemy rekomendacji/personalizacji danych. Learning to rank - jak nauczyć wyszukiwarkę rankingowania? Jak zbierać informacje o użytkownikach serwisów internetowych?

Analityka Big Data w banku

Rodzaje danych gromadzonych przez banki. Źródła danych zewnętrznych, Architektura klastra Hadoop na przykładzie mBanku, Przykłady analiz z wykorzystaniem metod Big Data (Hive/Spark), Techniki oraz przykłady wizualizacji danych (R Shiny), Rys regulacyjny dotyczący przechowywania i przetwarzania danych dotyczących klientów oraz potencjalnych klientów.

Wykorzystanie zasobów informacji niestrukturalnej w dużych przedsiębiorstwach

Architektura informacji, Architektura systemów wyszukiwania Przetwarzania języka naturalnego, Podstawowe zastosowania biznesowe w przedsiębiorstwach: zarządzanie wiedzą, portal dostępu do informacji, aplikacje specjalizowane oparte na sinikach wyszukiwania.

W pakiecie kurs e-learningowy z podstaw Pythona

W ramach studiów realizowane są zajęcia z programowania w Pythonie dla początkujących. Ukończony kurs e-learningowy stanowi dobre do nich wprowadzenie oraz ułatwienie w opanowaniu materiału dla osób bez doświadczenia programistycznego.

  • 12 godzin nagrań
  • dla zupełnie początkujących, także dla osób bez doświadczenia programistycznego
  • możliwość pracy we własnym tempie
  • zadania sprawdzające opanowanie materiału

Wprowadzenie do środowiska i podstawowe pojęcia

Algorytmy i struktury danych

Programowanie obiektowe

Zaawansowane aspekty programowania obiektowego

Wyjątki i praca na plikach

Wykładowcy

Nasi wykładowcy na co dzień pracują przy dużych projektach biznesowych. Wielu z nich prowadzi zajęcia od pierwszej edycji studiów, nowi prowadzący wybierani są w ramach starannej selekcji. Każdy z nich poza ekspercką znajomością technologii posiada doskonałe umiejętności dydaktyczne zdobyte na salach szkoleniowych, wykładowych, konferencyjnych.

Jestem absolwentem Politechniki Warszawskiej gdzie aktualnie mam otwarty przewód doktorski z zakresu Big Data i przetwarzania języka naturalnego. Swoją praktykę z Big Data rozpocząłem na początku 2012 roku w projekcie badawczym realizowanym przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Politechnikę Wrocławską. Do dzisiejszego dnia jest to jedno z największych wdrożeń Big Data w skali naszego kraju. W ramach projektu zbudowaliśmy klaster Apache Hadoop w którym są zbierane i analizowane zasoby polskiego internetu. Jednym z systemów powstałych w ramach powyższego projektu jest pierwsza polska semantyczna wyszukiwarka internetowa. Jestem jednym z twórców polskiej wyszukiwarki internetowej NEKST stworzonej przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Otwartego Systemu Antyplagiatowego realizowanego przez Międzyuniwersyteckie Centrum Informatyzacji. Zawodowo jestem konsultantem IT specjalizującym się w rozwiązaniach Java Enterprise Edition, Big Data oraz Business Intelligence, członekiem Warsaw Java User Group, Warsaw Hadoop User Group, Data Science Warsaw oraz Stowarzyszenia Software Engineering Professionals Polska.

Linkedin:
https://www.linkedin.com/in/rszmit/

Specjalizuję się w dziedzinie Data science. Dobrze czuję się w pracy z danymi w każdym rozmiarze – od dużych po małe. Na ścieżce kariery poszukuję interesujących wyzwań oraz możliwości pracy z ciekawymi technologiami, w związku z czym pracowałem w licznych projektach łączących w sobie wyzwania z zakresu analizy i inżynierii danych. Mam doświadczanie w projektach z zakresów: detekcji anomalii na danych sprzedażowych, demand forecasting, segmentacji klientów. Chętnie zgłębiam nowe technologie oraz języki programowania. Na co dzień zajmuję się szeroko pojętym data science: R&D, budowanie modeli, ML engineering, data engineering. Jestem wykładowcą na studiach podyplomowych na Politechnice Warszawskiej na ścieżce Big Data - przetwarzanie i analiza dużych zbiorów danych. Obecnie prowadzę w ramach przedmiotu Przetwarzanie Big Data za pomocą Apache Hadoop i Spark moduł dotyczący technologii Spark oraz zajęcia w ramach przedmiotu Wprowadzenie do technologii Big Data.
Jako trener Sages szkolę z między innymi następujących zakresów: przetwarzanie Big Data z użyciem Apache Spark, Analiza danych z użyciem Apache Spark, Analiza danych tekstowych i języka naturalnego (Python), Bootcamp Data Science.

Linkedin:
https://www.linkedin.com/in/pilarski-patryk/

Swoją przygodę ze światem IT zaczynałem od programowania w Turbo Pascalu podczas wakacji na wsi i hostowania obcym ludziom z IRCa kont shellowych - prosto ze swojej piwnicy. Z jakiegoś powodu uszło mi to na sucho i dzięki temu moje doświadczenia z programowaniem rozszerzyłem o wiele innych języków i technologii, grzebałem w bazach danych, lutowałem elektronikę, tworzyłem architekturę złożonych systemów i prowadziłem szkolenia. W Narodowym Archiwum Cyfrowym byłem odpowiedzialny za tworzenie wyszukiwarek (i migracje baz danych), w Centralnym Ośrodku Informatyki tworzyłem architekturę nowych Rejestrów Państwowych (i migrowałem bazy danych). W Exatelu współtworzyłem zespoły R&D oraz DevOps, zajmujące się agregacją i wyszukiwaniem informacji lub projektowaniem i ochroną sieci. Doprowadziłem do szczęśliwego końca kilka projektów w duchu Agile. Obecnie jestem Security Software Engineer w firmie Exatel.

Linkedin:
https://www.linkedin.com/in/tomasz-fortuna-55b34b60/

Specjalista IT - naukowiec. Ukończył dwa kierunki na Politechnice Warszawskiej. Doktorant w dziedzinie Informatyka. Autor wielu artykułów naukowych o międzynarodowym zasięgu. Programista Java z wieloletnim doświadczeniem. Praktyk Big Data od czasów kiedy w Polsce nie było to jeszcze modne.

Współtwórca pierwszej polskiej wyszukiwarki internetowej NEKST opartej o przetwarzanie dużych zbiorów danych w środowisku Hadoop. Współautor Otwartego Systemu Antyplagiatowego (OSA). Tworzył również oprogramowanie dla takich firm jak T- Mobile, Orange, Synevo, Zain (Arabia Saudyjska), PZU. Wieloletni trener IT z tematyk: Java, TDD, Big Data.

Uczestniczył w wielu projektach w których wykorzystane były takie technologie jak:java, python, mikroserwisy, bazy danych, Hadoop, Kafka, Spark, Elasticsearch i cały ELK Stack, Docker, Kubernetes chmury AWS, Azure.

Uwielbia nowe technologie. Lubi zdobywać wiedzę i dzielić się nią z innymi.

Linkedin:
https://www.linkedin.com/in/arkadiuszcacko/

Jestem programistą .NET z wieloletnim doświadczeniem. W swojej karierze stawiałem czoła całemu spektrum projektów - od systemów księgowych dla branży finansowej po serwery multiplayer obsługujące miliony graczy w branży GameDev. Specjalizuję się w szczególności w tematach rozproszonych systemów SOA z wykorzystaniem ASP .NET oraz WCF. Zawodwo pracuję z bazą MongoDB niemal od początku jej istnienia. Posiadam certyfikaty M101J MongoDB for Java Developers, M101P MongoDB for Developers, M036 New Features and Tools in MongoDB 3.6. Jako trener oraz konsultant wspomagałem kilkadziesiąt firm we wdrażaniu bazy MongoDB. Posiadam duże doświadczenie trenerskie - od 2014 roku przeprowadziłem ponad 500 godzin szkoleń i warsztatów.

Linkedin:
https://www.linkedin.com/in/rkaszczuk/

Jestem adiunktem w Instytucie Podstaw Informatyki PAN, gdzie obroniłem w 2013 doktorat dotyczączy algorytmów rozpoznawania wydźwięku (ang. sentiment analysis) w języku polskim. Pracuję również w laboratorium Text Mining Samsunga, gdzie zajmuję się praktycznymi implementacjami technologii językowych. Moje zainteresowania i wieloletnie doświadczenie zawodowe obejmują przetwarzanie języka naturalnego, składniowe i semantyczne, głębokie uczenie maszynowe i wielowarstwowe sieci neuronowe oraz ich zastosowania do rozpoznawania znaczenia fraz i zdań

Linkedin:
https://www.linkedin.com/in/aleksander-wawer-6307b098/

Jestem inżynierem, w 2012 roku obroniłem rozprawę doktorską z obszaru niezawodności systemów komputerowych na Politechnice Warszawskiej. Interesuję się szeroko pojętym bezpieczeństwem teleinformatycznym oraz inżynierią oprogramowania. Zawodowo pracuję od 2003 roku. Projektuję, implementuję i weryfikuję zabezpieczenia, głównie w projektach systemów transportowych i kontroli dostępu, które wykorzystują sprzętowe moduły bezpieczeństwa. Tworzyłem oprogramowanie dla bankomatów i terminali płatniczych, realizowałem projekty kart miejskich m. in. w Białymstoku, Tarnowie, Poznaniu i Krakowie. Projektowałem i wdrażałem systemy transakcyjne oparte o blockchain. Prowadzę szkolenia od 2012 roku. W tym czasie przeszkoliłem ponad 750 osób z kilkudziesięciu różnych firm. Od 2015 roku jestem trenerem wiodącym w Sages. Specjalizuję się w szkoleniach z zakresu bezpieczeństwa takich jak: zastosowania algorytmów i protokołów kryptograficznych, infrastruktura klucza publicznego, wykorzystanie sprzętowych modułów bezpieczeństwa i bezpieczne programowane. Prowadzę również warsztaty dotyczące technologii blockchain i urządzeń internetu rzeczy (IoT, Internet of Things).

Linkedin:
https://www.linkedin.com/in/pnazimek/

Data Engineer, programistyczny poliglota, absolwent Wydziału Elektroniki i Technik Informacyjnych Politechniki Warszawskiej. Posiada wieloletnie doświadczenie w prowadzeniu szkoleń technicznych z obszarów programowania, przetwarzania danych oraz analityki. Wiedzę i umiejętności zdobył w licznych projektach podczas implementacji rozwiązań zarówno w aspekcie technologicznym jak i biznesowym. Obecnie nadal zajmuje się przetwarzaniem danych z rozszerzeniem o przetwarzanie danych strumieniowych.

Linkedin:
https://www.linkedin.com/in/piotr-florczyk-20806178/

Rada programowa

Aby zapewnić aktualność programu studiów konsultujemy dobór tematyki oraz technologii z ekspertami wywodzącymi się ze środowisk akademickiego oraz biznesowego.

Robert Bembenik

Kierownik Studium

Krzysztof Dąbrowski

CIO/CTO, mBank S.A.

Piotr Gawrysiak

Profesor Nadzwyczajny, Instytut Informatyki PW

Łukasz Kobyliński

Chief Science Officer, Board Member, Sages

Jakub Koperwas

JEE Consultant & Partner, Sages

Radosław Lipiński

Senior Team Manager, Roche

Mieczysław Muraszkiewicz

Profesor, Instytut Informatyki PW

Jakub Nowacki

Senior Software Engineer, CodiLime

Andrzej Olękiewicz

Digital R&D Director, TNS Polska SA

Robert Stanikowski

Partner and Managing Director, CEE Technology Advantage Practice Leader, The Boston Consulting Group

Paweł Wróblewski

Regional Manager, Findwise

Sprawdź zasady rekrutacji i opłaty

Ze względu na duże zainteresowanie studiami zalecamy skorzystanie z formularza rezerwacyjnego, celem przyspieszenia procesu aplikacji.

Dowiedz się więcej

Partnerzy merytoryczni

logo-img
logo-img
logo-img
logo-img