TIBCO Spotfire: Analiza dużych zbiorów danych. Skuteczna business intelligence i jakościowa analiza danych Jak pozyskać dane o klientach

Przystępna praca z Big Data z wykorzystaniem analityki wizualnej

Usprawnij swoją analizę biznesową i rozwiązuj rutynowe problemy, korzystając z informacji ukrytych w Big Data dzięki platformie TIBCO Spotfire. Jako jedyna platforma zapewnia użytkownikom biznesowym intuicyjny, przyjazny interfejs użytkownika, pozwalający na korzystanie z pełnego zakresu technologii analityki Big Data bez konieczności angażowania informatyków czy specjalnego wykształcenia.

Interfejs Spotfire sprawia, że ​​równie wygodna jest praca zarówno z małymi zbiorami danych, jak i wieloterabajtowymi klastrami big data: odczytami czujników, informacjami z sieci społecznościowych, punktami sprzedaży czy źródłami geolokalizacyjnymi. Użytkownicy na wszystkich poziomach umiejętności mogą łatwo uzyskać dostęp do wnikliwych pulpitów nawigacyjnych i analitycznych przepływów pracy, po prostu korzystając z wizualizacji, które są graficzną reprezentacją połączonych miliardów punktów danych.

Analityka predykcyjna polega na uczeniu się poprzez działanie wspólne doświadczenie przedsiębiorstwom podejmowanie bardziej świadomych decyzji. Korzystając ze Spotfire Predictive Analytics, możesz odkrywać nowe trendy rynkowe na podstawie informacji biznesowych i podejmować działania minimalizujące ryzyko, co pozwala poprawić jakość decyzji zarządczych.

Recenzja

Łączność z Big Data na rzecz wysokowydajnych analiz

Spotfire oferuje trzy główne typy analiz z płynną integracją z Hadoop i innymi dużymi źródłami danych:

  1. Analityka na żądanie: wbudowane, konfigurowalne przez użytkownika łączniki danych, które umożliwiają ultraszybką, interaktywną wizualizację danych
  2. Analiza w bazie danych (In-Database Analytics): integracja z rozproszoną platformą obliczeniową, która pozwala na wykonywanie obliczeń danych o dowolnej złożoności w oparciu o big data.
  3. Analiza w pamięć o dostępie swobodnym(In-Memory Analytics): Integracja z platformą analiz statystycznych, która pobiera dane bezpośrednio z dowolnego źródła danych, w tym tradycyjnych i nowych źródeł danych.

Razem te metody integracji stanowią potężne połączenie eksploracji wizualnej i zaawansowanej analityki.
Umożliwia użytkownikom biznesowym dostęp, łączenie i analizowanie danych z dowolnego źródła danych za pośrednictwem wydajnych, łatwych w obsłudze pulpitów nawigacyjnych i przepływów pracy.

Złącza Big Data

Łączniki Spotfire Big Data Connector obsługują wszystkie typy dostępu do danych: w źródle danych, w pamięci i na żądanie. Wbudowane złącza danych Spotfire obejmują:

  • Certyfikowane łączniki danych Hadoop dla Apache Hive, Apache Spark SQL, Cloudera Hive, Cloudera Impala, Databricks Cloud, Hortonworks, MapR Drill i Pivotal HAWQ
  • Inne certyfikowane łączniki Big Data to Teradata, Teradata Aster i Netezza
  • Złącza do danych historycznych i bieżących ze źródeł takich jak czujniki dotykowe OSI PI

Rozproszone przetwarzanie danych w źródle danych

Oprócz wygodnej funkcjonalności Spotfire polegającej na wizualnym wybieraniu operacji dla zapytań SQL uzyskujących dostęp do danych rozproszonych w źródłach danych, Spotfire może tworzyć algorytmy statystyczne i uczenia maszynowego, które działają w obrębie źródeł danych i zwracają tylko wyniki niezbędne do tworzenia wizualizacji w systemie Spotfire.

  • Użytkownicy pracują z dashboardami z funkcjonalnością selekcji wizualnej, która umożliwia dostęp do skryptów wykorzystując wbudowane możliwości języka TERR,
  • Skrypty TERR inicjują pracę funkcjonalności obliczeń rozproszonych w interakcji z Map/Reduce, H2O, SparkR czy Fuzzy Logix,
  • Aplikacje te z kolei uzyskują dostęp do systemów o wysokiej wydajności, takich jak Hadoop lub inne źródła danych,
  • TERR można wdrożyć jako zaawansowany silnik analityczny w węzłach Hadoop zarządzanych za pomocą MapReduce lub Spark. Języka TERR można również używać w przypadku węzłów danych Teradata.
  • Wyniki są wizualizowane w Spotfire.

TERR dla zaawansowanych analiz

TIBCO Enterprise Runtime for R (TERR) – TERR to pakiet statystyczny klasy korporacyjnej, który został opracowany przez TIBCO tak, aby był w pełni kompatybilny z językiem R, wykorzystując dziesięciolecia doświadczenia firmy w zakresie analityki związanej z S+. Umożliwia to klientom dalsze rozwijanie aplikacji i modeli nie tylko przy użyciu otwartego kodu R, ale także integrację i wdrażanie kodu R na solidnej komercyjnie platformie bez konieczności przepisywania kodu. TERR ma wyższą wydajność i niezawodne zarządzanie pamięcią, zapewnia więcej wysoka prędkość przetwarzanie dużych ilości danych w porównaniu do języka R o otwartym kodzie źródłowym.

Łączenie wszystkich funkcjonalności

Połączenie wyżej wymienionych zaawansowanych funkcjonalności oznacza, że ​​nawet w przypadku najbardziej złożonych zadań wymagających wysoce niezawodnych analiz użytkownicy korzystają z prostych, łatwych w obsłudze interaktywnych przepływów pracy. Dzięki temu użytkownicy biznesowi mogą wizualizować i analizować dane oraz udostępniać wyniki analiz bez konieczności znajomości szczegółów architektury danych leżącej u podstaw analizy biznesowej.

Przykład: interfejs Spotfire do konfigurowania, uruchamiania i wizualizacji wyników modelu charakteryzującego utracony ładunek. Korzystając z tego interfejsu, użytkownicy biznesowi mogą wykonywać obliczenia przy użyciu TERR i H2O (rozproszona platforma obliczeniowa), uzyskując dostęp do danych transakcji i przesyłek przechowywanych w klastrach Hadoop.

Przestrzeń analityki Big Data


Zaawansowane i predykcyjne analizy

Użytkownicy korzystają z pulpitów nawigacyjnych Spotfire z funkcją selekcji wizualnej, aby uruchomić bogaty zestaw zaawansowanych możliwości, które ułatwiają przewidywanie, tworzenie modeli i optymalizację ich na bieżąco. Wykorzystując big data, analizę można przeprowadzić wewnątrz źródła danych (In-Datasource), zwracając jedynie zagregowane informacje i wyniki potrzebne do stworzenia wizualizacji na platformie Spotfire.


Nauczanie maszynowe

Na liście wbudowanych funkcji Spotfire dostępnych jest szeroka gama narzędzi do uczenia maszynowego, z których można korzystać jednym kliknięciem. Statystycy mają dostęp do kodu programu napisanego w języku R i mogą rozszerzać wykorzystywaną funkcjonalność. Funkcjonalność uczenia maszynowego można udostępniać innym użytkownikom w celu łatwego ponownego użycia.

Dostępny następujące metody uczenie maszynowe dla ciągłych zmiennych kategorycznych w Spotfire i TERR:

  • Regresja liniowa i logistyczna
  • Drzewa decyzyjne (drzewa decyzyjne), algorytm lasu losowego (las losowy), maszyny wzmacniające gradient (GBM)
  • Uogólnione modele liniowe (addytywne) ( Uogólnione modele addytywne)
  • Sieci neuronowe


Analiza treści

Spotfire zapewnia analitykę i wizualizację danych, z których duża część nie była wcześniej wykorzystywana - jest to tekst nieustrukturyzowany, który jest przechowywany w źródłach takich jak dokumenty, raporty, notatki Systemy CRM, logi stron internetowych, publikacje na portalach społecznościowych i wiele więcej.


Analityka lokalizacji

Mapy wielowarstwowe wysoka rozdzielczość to świetny sposób na wizualizację dużych zbiorów danych. Bogata funkcjonalność map Spotfire umożliwia tworzenie map z dowolną liczbą warstw referencyjnych i funkcjonalnych. Spotfire daje także możliwość korzystania z zaawansowanych analiz podczas pracy z mapami. Oprócz mapy geograficzne system tworzy mapy wizualizujące zachowania użytkowników, magazyny, produkcję, surowce i wiele innych wskaźników.

Ostatnio tyle się mówi i tyle na temat analizy informacji, że można całkowicie zdezorientować się w kwestii problemu. Dobrze, że wiele osób zwraca na to uwagę aktualny temat. Jedyną wadą jest to, że pod tym terminem każdy rozumie, czego potrzebuje, często nie mając ogólnego obrazu problemu. Fragmentacja w tym podejściu powoduje brak zrozumienia tego, co się dzieje i co robić. Wszystko składa się z elementów, które są ze sobą luźno połączone i nie mają wspólnego rdzenia. Prawdopodobnie często słyszałeś wyrażenie „automatyzacja patchworku”. Wiele osób spotkało się z tym problemem już wiele razy i może potwierdzić, że głównym problemem związanym z tym podejściem jest to, że prawie nigdy nie jest możliwe zobaczenie całości sytuacji. Podobnie jest z analizą.

Aby zrozumieć miejsce i cel każdego mechanizmu analizy, spójrzmy na niego całościowo. Zaczniemy od tego, jak człowiek podejmuje decyzje, bo nie jesteśmy w stanie wyjaśnić, jak rodzi się myśl, skoncentrujemy się na tym, jak można w tym procesie wykorzystać technologię informacyjną. Pierwsza opcja polega na tym, że decydent (DM) używa komputera jedynie jako środka do wyszukiwania danych i samodzielnie wyciąga wnioski. Aby rozwiązać tego typu problem, stosuje się systemy raportowania, wielowymiarową analizę danych, wykresy i inne metody wizualizacji. Opcja druga: program nie tylko wyodrębnia dane, ale także przeprowadza różnego rodzaju przetwarzanie wstępne, na przykład czyszczenie, wygładzanie itp. A do przetwarzanych w ten sposób danych stosuje matematyczne metody analizy – grupowanie, klasyfikacja, regresja itp. W tym przypadku decydent otrzymuje nie surowe, ale wysoko przetworzone dane, czyli tzw. osoba pracuje już z modelami przygotowanymi komputerowo.

Ze względu na fakt, że w pierwszym przypadku niemal wszystko, co związane z samymi mechanizmami decyzyjnymi zostaje powierzone osobie, problem wyboru odpowiedniego modelu i wyboru metod przetwarzania zostaje przeniesiony poza granice mechanizmów analizy, tj. Podstawą podejmowania decyzji jest albo instrukcja (na przykład, jak można wdrożyć mechanizmy reagowania na odchylenia), albo intuicja. W niektórych przypadkach to wystarczy, ale jeśli decydenta interesuje wiedza ulokowana dość głęboko, że tak powiem, to proste mechanizmy ekstrakcji danych tu nie pomogą. Wymagane jest poważniejsze przetwarzanie. To już drugi przypadek. Wszystkie zastosowane mechanizmy wstępnego przetwarzania i analizy pozwalają decydentowi pracować na wyższym poziomie wysoki poziom. Pierwsza opcja nadaje się do rozwiązywania problemów taktycznych i operacyjnych, a druga do replikowania wiedzy i rozwiązywania problemów strategicznych.

Idealnym przypadkiem byłaby możliwość wykorzystania obu podejść do analizy. Pozwalają zaspokoić prawie wszystkie potrzeby organizacji w zakresie analizy informacji biznesowych. Różnicując techniki w zależności od zadań, w każdym przypadku będziemy w stanie wycisnąć maksimum z dostępnych informacji.

Ogólny schemat pracy podano poniżej.

Często przy opisie produktu analizującego informacje biznesowe używa się takich terminów jak zarządzanie ryzykiem, prognozowanie, segmentacja rynku... Jednak w rzeczywistości rozwiązanie każdego z tych problemów sprowadza się do zastosowania jednej z opisanych poniżej metod analizy. Na przykład prognozowanie to problem regresji, segmentacja rynku to grupowanie, zarządzanie ryzykiem to połączenie grupowania i klasyfikacji, a możliwe są inne metody. Dlatego ten zestaw technologii pozwala nam rozwiązać większość problemów biznesowych. W rzeczywistości są to elementy atomowe (podstawowe), z których składa się rozwiązanie konkretnego problemu.

Teraz opiszemy każdy fragment obwodu osobno.

Podstawowym źródłem danych powinny być bazy danych systemów zarządzania przedsiębiorstwem, dokumenty biurowe oraz Internet, gdyż niezbędne jest wykorzystanie wszelkich informacji, które mogą być przydatne przy podejmowaniu decyzji. Ponadto mówimy o nie tylko o informacjach wewnętrznych organizacji, ale także o danych zewnętrznych (wskaźniki makroekonomiczne, konkurencyjne środowisko, dane demograficzne itp.).

Hurtownia danych, choć nie implementuje technologii analitycznych, stanowi podstawę, na której można zbudować system analityczny. W przypadku braku hurtowni danych, zebranie i uporządkowanie informacji niezbędnych do analizy zajmie większość czasu, co w dużej mierze zniweczy wszelkie korzyści płynące z analizy. W końcu jeden z kluczowe wskaźniki Każdy system analityczny jest w stanie szybko uzyskać wyniki.

Kolejnym elementem diagramu jest warstwa semantyczna. Niezależnie od tego, w jaki sposób informacje będą analizowane, ważne jest, aby były one zrozumiałe dla decydenta, ponieważ w większości przypadków analizowane dane znajdują się w różnych bazach danych, a decydent nie powinien zagłębiać się w niuanse pracy z SZBD, konieczne jest stworzenie jakiegoś mechanizmu przekształcającego terminy Tematyka w wywołaniach mechanizmów dostępu do baz danych. Zadanie to realizuje warstwa semantyczna. Pożądane jest, aby był taki sam dla wszystkich aplikacji analitycznych, dzięki czemu łatwiej jest zastosować różne podejścia do problemu.

Systemy raportowania są zaprojektowane tak, aby odpowiadać na pytanie „co się dzieje”. Pierwsza opcja jego zastosowania: regularne raporty służą do monitorowania sytuacji operacyjnej i analizy odchyleń. System przygotowuje np. codzienne raporty o stanach towarów w magazynie, a gdy ich wartość jest mniejsza niż średnia tygodniowa sprzedaż, należy na to odpowiedzieć poprzez przygotowanie zamówienia zakupu, czyli w większości przypadków są to ustandaryzowane transakcje handlowe. Najczęściej pewne elementy tego podejścia są wdrażane w takiej czy innej formie w firmach (nawet jeśli tylko na papierze), ale nie należy dopuścić, aby było to jedyne dostępne podejście do analizy danych. Druga możliwość wykorzystania systemów raportowania: przetwarzanie żądań ad hoc. Kiedy decydent chce przetestować jakąkolwiek myśl (hipotezę), musi zdobyć materiał do przemyśleń, który potwierdzi lub obal tę ideę, ponieważ myśli te pojawiają się spontanicznie i nie ma dokładnego pojęcia, jakiego rodzaju informacje są wymagane potrzebne jest narzędzie, które pozwoli szybko i w wygodnej formie uzyskać te informacje. Wyodrębnione dane są zwykle przedstawiane w tabelach lub na wykresach i wykresach, chociaż możliwe są inne prezentacje.

Chociaż do budowy systemów raportowania można stosować różne podejścia, obecnie najbardziej powszechnym jest mechanizm OLAP. Podstawową ideą jest przedstawienie informacji w postaci wielowymiarowych kostek, gdzie osie reprezentują wymiary (np. czas, produkty, klienci), a komórki zawierają wskaźniki (np. wielkość sprzedaży, Średnia cena nabywanie). Użytkownik manipuluje pomiarami i otrzymuje informacje w pożądanym kontekście.

Ponieważ OLAP jest łatwy do zrozumienia i stał się szeroko stosowany jako silnik analizy danych, należy pamiętać, że jego możliwości w zakresie głębszej analizy, takiej jak prognozowanie, są niezwykle ograniczone. Głównym problemem w rozwiązywaniu problemów prognostycznych nie jest możliwość wyodrębnienia interesujących nas danych w postaci tabel i wykresów, ale zbudowanie odpowiedniego modelu. Wtedy wszystko jest całkiem proste. Nowe informacje wprowadzane są na wejście istniejącego modelu, przepuszczane przez nie, a efektem jest prognoza. Ale zbudowanie modelu jest zadaniem zupełnie nietrywialnym. Oczywiście możesz dodać kilka gotowych i proste modele na przykład regresja liniowa lub coś podobnego, dość często dokładnie to robią, ale to nie rozwiązuje problemu. Problemy świata rzeczywistego prawie zawsze wykraczają poza takie proste modele. W rezultacie taki model będzie wykrywał jedynie oczywiste zależności, wartość wykrywania jest znikoma, co jest już dobrze znane, lub będzie dokonywał zbyt przybliżonych przewidywań, co również jest zupełnie nieciekawe. Przykładowo, jeśli analizując cenę akcji na giełdzie, wyjdziesz z prostego założenia, że ​​jutro akcje będą kosztować tyle samo, co dzisiaj, to w 90% przypadków będziesz miał rację. A jak cenna jest taka wiedza? Tylko pozostałe 10% jest przedmiotem zainteresowania brokerów. Modele prymitywne w większości przypadków dają wyniki w przybliżeniu na tym samym poziomie.

Prawidłowe podejście do budowania modeli polega na ich udoskonalaniu krok po kroku. Zaczynając od pierwszego, stosunkowo przybliżonego modelu, należy go udoskonalać w miarę gromadzenia nowych danych i stosowania modelu w praktyce. Rzeczywiste zadanie tworzenia prognoz i tym podobnych wykracza poza mechanizmy systemów raportowania, więc nie należy czekać w tym kierunku pozytywne rezultaty podczas korzystania z OLAP-u. Do rozwiązywania problemów głębszej analizy wykorzystuje się zupełnie inny zestaw technologii, zjednoczonych pod nazwą Knowledge Discovery in Databases.

Odkrywanie wiedzy w bazach danych (KDD) to proces przekształcania danych w wiedzę. KDD obejmuje zagadnienia przygotowania danych, doboru cech informacyjnych, czyszczenia danych, zastosowania metod Data Mining (DM), postprocessingu danych, interpretacji wyników. Data Mining to proces odkrywania w „surowych” danych wcześniej nieznanej, nietrywialnej, praktycznie użytecznej i dającej się zinterpretować wiedzy niezbędnej do podejmowania decyzji w różnych obszarach działalności człowieka.

Atrakcyjność tego podejścia polega na tym, że niezależnie od tematyki stosujemy te same operacje:

  1. Wyodrębnij dane. W naszym przypadku wymaga to warstwy semantycznej.
  2. Wyczyść dane. Wykorzystanie do analizy „brudnych” danych może całkowicie zanegować stosowane w przyszłości mechanizmy analityczne.
  3. Przekształcaj dane. Różne metody analizy wymagają danych przygotowanych w specjalnej formie. Na przykład gdzieś jako dane wejściowe mogą być wykorzystywane wyłącznie informacje cyfrowe.
  4. Przeprowadź właściwą analizę – Data Mining.
  5. Zinterpretuj uzyskane wyniki.

Proces ten powtarza się iteracyjnie.

Data Mining z kolei rozwiązuje jedynie 6 problemów – klasyfikację, grupowanie, regresję, asocjację, analizę sekwencji i odchyleń.

To wszystko, co trzeba zrobić, aby zautomatyzować proces wydobywania wiedzy. Ekspert, zwany także decydentem, podejmuje już dalsze kroki.

Interpretacja wyników przetwarzania komputerowego należy do człowieka. Tylko różne metody dostarczają różnych przemyśleń. W samym prosty przypadek– są to tabele i diagramy, a w bardziej skomplikowanych – modele i reguły. Nie da się całkowicie wykluczyć udziału człowieka, gdyż ten czy inny wynik nie ma znaczenia, dopóki nie zostanie zastosowany do określonego obszaru tematycznego. Jednak replikowanie wiedzy jest możliwe. Na przykład decydent jakąś metodą określił, które wskaźniki wpływają na zdolność kredytową kupujących i przedstawił to w formie reguły. Zasadę tę można wprowadzić do systemu udzielania kredytów i tym samym znacząco ograniczyć ryzyko kredytowe poprzez uruchomienie ich ocen. Jednocześnie osoba zaangażowana w faktyczne pobieranie dokumentów nie musi mieć głębokiego zrozumienia powodów tego lub innego wniosku. W rzeczywistości jest to przeniesienie metod stosowanych niegdyś w przemyśle na dziedzinę zarządzania wiedzą. Główną ideą jest przejście z metod jednorazowych i nieujednoliconych na metody przenośnikowe.

Wszystko, co zostało wspomniane powyżej, to tylko nazwy zadań. A do rozwiązania każdego z nich można zastosować różne techniki, począwszy od klasycznych metod statystycznych po algorytmy samouczące się. Prawdziwe problemy biznesowe prawie zawsze rozwiązuje się za pomocą jednej z powyższych metod lub ich kombinacji. Prawie wszystkie zadania - prognozowanie, segmentacja rynku, ocena ryzyka, ocena wyników kampanie reklamowe, stopień przewagi konkurencyjne i wiele innych - sprowadzają się do tych opisanych powyżej. Mając zatem do dyspozycji narzędzie rozwiązujące zadaną listę zadań, można powiedzieć, że jesteś gotowy rozwiązać każdy problem analizy biznesowej.

Jeśli zauważyłeś, nigdy nie wspomnieliśmy, jakie narzędzie będzie wykorzystywane do analizy, jakie technologie itp. same zadania i sposoby ich rozwiązywania nie zależą od narzędzi. To tylko opis kompetentnego podejścia do problemu. Możesz użyć wszystkiego, ważne jest tylko, aby objęta była cała lista zadań. W tym przypadku można powiedzieć, że mamy do czynienia z naprawdę w pełni funkcjonalnym rozwiązaniem. Bardzo często jako „w pełni funkcjonalne rozwiązanie problemów analizy biznesowej” proponowane są mechanizmy obejmujące jedynie niewielką część zadań. Najczęściej pod pojęciem systemu analizy informacji biznesowych rozumie się jedynie OLAP, co jest całkowicie niewystarczające do pełnej analizy. Pod grubą warstwą haseł reklamowych kryje się jedynie system raportowania. Skuteczne opisy tego lub innego narzędzia analitycznego ukrywają istotę, ale wystarczy oprzeć się na proponowanym schemacie, a zrozumiesz faktyczny stan rzeczy.

(Wywiad biznesowy).

Na seminarium w charakterze prelegentów zapraszani są młodzi profesjonaliści, którzy z sukcesem robią karierę jako analitycy w firmach z branży zaawansowanych technologii, takich jak Microsoft, IBM, Google, Yandex, MTS itp. Podczas każdego seminarium studenci dowiadują się o niektórych problemach biznesowych które są rozwiązywane w tych firmach, o tym, jak gromadzone są dane, jak powstają problemy z analizą danych i jakie metody można zastosować, aby je rozwiązać.

Wszyscy zaproszeni specjaliści są otwarci na kontakty, a studenci będą mogli zwrócić się do nich o poradę.

Cele seminarium:

  • pomóc wypełnić istniejącą lukę pomiędzy badaniami uniwersyteckimi a rozwiązywaniem praktycznych problemów z zakresu analizy danych;
  • promowanie wymiany doświadczeń pomiędzy obecnymi i przyszłymi profesjonalistami.
Seminarium odbywa się regularnie na Wydziale Matematyki Obliczeniowej i Matematyki Uniwersytetu Moskiewskiego w piątki o godz. 18:20 , publiczność P5(pierwsze piętro).

Udział w seminarium jest bezpłatny(jeżeli nie posiadasz przepustki na Moskiewski Uniwersytet Państwowy, prosimy o wcześniejsze podanie organizatorom seminarium swojego imienia i nazwiska w celu przesłania listy uczestników na zmianę).

Program seminarium

dataPrelegent i temat seminarium
10 września 2010
18:20
Aleksander Efimow , kierownik działu analitycznego sieć detaliczna MTS.

Prognozowanie efektów kampanii marketingowych i optymalizacja asortymentu sklepu.

  • Strona zastosowanego problemu: Optymalizacja asortymentu punktów sprzedaży detalicznej (zadanie z danymi).
17 września 2010
18:20
Wadim Striżow , pracownik naukowy w Centrum Obliczeniowym Rosyjskiej Akademii Nauk.

Scoring kredytowy banku: metody automatycznego generowania i selekcji modeli.

Rozważane są klasyczne i nowe technologie konstruowania kart scoringowych. Seminarium omawia, jak zorganizowane są dane klientów oraz jak wygenerować najbardziej wiarygodny model scoringowy, spełniający jednocześnie wymagania międzynarodowych standardów bankowych.

24 września 2010
18:20
Władimir Krekoten , Dyrektor ds. Marketingu i Sprzedaży w domu maklerskim Otkritie.

Aplikacja metody matematyczne przewidywać i przeciwdziałać odejściu klientów.

Uwzględniono problemy praktyczne pojawiające się w analizie baza klientów w marketingu. Postawiono zadania grupowania i segmentowania klientów, scoringu nowych klientów oraz śledzenia dynamiki segmentów docelowych.

  • Strona zastosowanego problemu: Klastrowanie klientów firmy brokerskiej (zadanie z danymi).
1 października 2010 r
18:20
Nikołaj Filipenkow , i o. Kierownik Departamentu Scoringu Kredytowego Banku Moskiewskiego.

Zastosowanie metod matematycznych do zarządzania detalicznym ryzykiem kredytowym.

Rozważane są pewne praktyczne aspekty konstruowania modeli scoringowych i oceny ryzyka.

  • Strona problemów aplikacji: Zarządzanie ryzykiem kredytowym w handlu detalicznym (problem z danymi) .
8 października 2010
18:20
Fiodor Romanenko , Menedżer ds. jakości wyszukiwania, Yandex.

Historia i zasady rankingu wyszukiwarek internetowych.

Rozważane są zagadnienia wykorzystania i rozwoju metod wyszukiwania informacji, począwszy od rankingu tekstów i linków, przez uczenie maszynowe, aż po problem rangi w wyszukiwarce internetowej. Podstawowe zasady leżące u podstaw współczesnego rankingu stron internetowych są zarysowane w odniesieniu do historii sukcesu wyszukiwarek. Szczególną uwagę zwrócono na wpływ jakości wyszukiwania na wskaźniki rynkowe oraz istotną potrzebę ciągłej pracy nad jego udoskonaleniem.

15 października 2010
18:20
Witalij Goldstein , programista, Yandex.

Usługi geoinformacyjne Yandex.

Opowiada o projekcie Yandex.Traffic i innych projektach geoinformacyjnych Yandex, o tym, skąd pochodzą dane źródłowe do budowy geo systemy informacyjne, o nowej skalowalnej technologii przetwarzania danych, o internetowym konkursie matematycznym i obiecujących problemach. Podano dane i podano formalne sformułowanie problemu rekonstrukcji mapy drogowej.

  • Strona zastosowanego problemu: Budowa wykresu drogowego z wykorzystaniem danych o torach pojazdów (zadanie z danymi).
22 października 2010Seminarium zostało odwołane.
29 października 2010
18:20
Fiodor Krasnow , Wiceprezes ds. Procesów Biznesowych i technologia informacyjna, AKADO.

Jak pozyskać dane klienta?

Przez dziesięciolecia pracy z dużymi klientami firma Force zgromadziła ogromne doświadczenie w dziedzinie analizy biznesowej i obecnie aktywnie rozwija technologie big data. W wywiadzie dla CNews Olga Gorchinskaya, dyrektor ds projekty badawcze i szef Big Data „Force”.

15.10.2015

Olga Gorczyńska

W ostatnich latach zmieniło się pokolenie liderów. Do zarządzania firmami, które robiły karierę już w dobie informatyzacji, przyszły nowe osoby, przyzwyczajone do korzystania z komputerów, Internetu i urządzenia mobilne jak w Życie codzienne oraz do rozwiązywania problemów w pracy.

CNews: Jak duże jest zapotrzebowanie na narzędzia BI? Firmy rosyjskie? Czy zachodzą zmiany w podejściu do analizy biznesowej: od „analityki w stylu Excela” do wykorzystania narzędzi analitycznych przez menedżerów najwyższego szczebla?

Olga Gorczyńska:

Obecnie zapotrzebowanie na narzędzia analizy biznesowej jest już dość duże. Wykorzystują je duże organizacje niemal wszystkich sektorów gospodarki. Zarówno średnie, jak i małe firmy również dostrzegają korzyści płynące z przejścia z Excela na specjalistyczne rozwiązania analityczne.

Jeśli porównamy tę sytuację z sytuacją firm pięć lat temu, zobaczymy znaczny postęp. W ostatnich latach zmieniło się pokolenie liderów. Do zarządzania firmami, które robiły karierę już w epoce informacji, przyszły nowe osoby, przyzwyczajone do korzystania z komputerów, Internetu i urządzeń mobilnych zarówno w życiu codziennym, jak i do rozwiązywania problemów w pracy.

CNews: Ale nie ma już więcej projektów?

Olga Gorczyńska:

W ostatnim czasie zaobserwowaliśmy niewielki spadek liczby nowych, dużych projektów BI. Po pierwsze, pewną rolę odgrywa złożona ogólna sytuacja gospodarcza i polityczna. Wstrzymuje rozpoczęcie niektórych projektów związanych z wprowadzeniem zachodnich systemów. Zainteresowanie rozwiązaniami opartymi na swobodnie dystrybuowanych oprogramowanie opóźnia także rozpoczęcie projektów BI, gdyż wymaga wstępnego zbadania tego segmentu oprogramowania. Wiele rozwiązań analitycznych Open Source nie jest wystarczająco dojrzałych, aby można je było powszechnie stosować.

Po drugie, nastąpiło już pewne nasycenie rynku. Niewiele jest obecnie organizacji, które nie korzystają z analizy biznesowej. I najwyraźniej mija czas aktywnego wzrostu w zakresie wdrażania dużych korporacyjnych systemów analitycznych.

I na koniec warto zauważyć, że klienci przesuwają obecnie punkt ciężkości w korzystaniu z narzędzi BI, co hamuje wzrost liczby projektów, do których jesteśmy przyzwyczajeni. Faktem jest, że czołowi dostawcy – Oracle, IBM, SAP – budują swoje rozwiązania BI w oparciu o ideę jednego, spójnego logicznego modelu danych, co oznacza, że ​​przed analizą czegokolwiek konieczne jest jasne zdefiniowanie i uzgodnienie wszystkich koncepcji i wskaźniki.

Oprócz oczywistych korzyści prowadzi to do dużej zależności użytkowników biznesowych od specjalistów IT: jeśli zajdzie potrzeba uwzględnienia nowych danych, firma musi stale zwracać się do IT o pobranie danych, zharmonizowanie ich z istniejącymi konstrukcji, uwzględnić je w modelu ogólnym itp. d. Teraz widzimy, że biznesom zależy na większej swobodzie, a użytkownicy na rzecz możliwości samodzielnego dodawania nowych struktur, interpretacji i analizowania ich według własnego uznania są skłonni poświęcić część korporacyjnej spójności.

Dlatego też na pierwszy plan wysuwają się lekkie narzędzia, które pozwalają użytkownikom końcowym bezpośrednio pracować z danymi i nie martwić się tak bardzo o spójność na poziomie korporacyjnym. W rezultacie obserwujemy sukces rozwiązań Tableaux i Qlick, które umożliwiają pracę w stylu Data Discovery, oraz pewną utratę rynku przez dużych dostawców rozwiązań.

CNews: To wyjaśnia, dlaczego wiele organizacji wdraża kilka systemów BI – jest to szczególnie widoczne w sektorze finansowym. Czy jednak taką informatyzację można uznać za normalną?


Olga Gorczyńska

Dziś wiodącą rolę odgrywają narzędzia, które wcześniej uważaliśmy za zbyt lekkie dla poziomu przedsiębiorstwa. Są to rozwiązania klasy Data Discovery.

Olga Gorczyńska:

Rzeczywiście, w praktyce duże organizacje często korzystają nie z jednego, ale z kilku niezależnych systemów analitycznych, każdy z własnymi narzędziami BI. Idea ogólnokorporacyjnego modelu analitycznego okazała się lekką utopią, nie jest tak popularna, a wręcz ogranicza promocję technologii analitycznych, gdyż w praktyce każdy dział, czy nawet indywidualny użytkownik, pragnie niezależności i wolność. Nie ma w tym nic strasznego. Przecież w tym samym banku specjaliści ds. ryzyka i marketerzy potrzebują zupełnie innych narzędzi BI. Dlatego jest całkiem normalne, że firma wybiera nie jedno nieporęczne rozwiązanie do wszystkich zadań, ale kilka małych systemów, które najlepiej nadają się dla poszczególnych działów.

Dziś wiodącą rolę odgrywają narzędzia, które wcześniej uważaliśmy za zbyt lekkie dla poziomu przedsiębiorstwa. Są to rozwiązania klasy Data Discovery. Opierają się na idei prostoty pracy z danymi, szybkości, elastyczności i łatwej do zrozumienia prezentacji wyników analiz. Jest jeszcze jeden powód rosnącej popularności tego typu narzędzi: firmy coraz częściej odczuwają potrzebę pracy z informacjami o zmieniającej się strukturze, na ogół nieustrukturyzowanymi, o „rozmytym” znaczeniu i nie zawsze wyraźnej wartości. W tym przypadku potrzebne są bardziej elastyczne narzędzia niż klasyczne narzędzia analizy biznesowej.

„Fors” stworzył największą w Europie i unikalną w Rosji platformę – Fors Solution Center. Jego głównym zadaniem jest przybliżanie Najnowsze technologie Oracle do klienta końcowego, aby pomóc partnerom w ich rozwoju i zastosowaniu, aby procesy testowania sprzętu i oprogramowania były jak najbardziej dostępne. To swego rodzaju centrum danych służące do testowania systemów i rozwiązań chmurowych przez partnerów.

CNews: W jaki sposób technologie Big Data pomagają w rozwoju analityki biznesowej?

Olga Gorczyńska:

Te obszary – big data i analityka biznesowa – zbliżają się do siebie i moim zdaniem granica między nimi już się zaciera. Na przykład zaawansowaną analitykę uważa się za „big data”, mimo że istniała przed pojawieniem się Big Data. W dzisiejszych czasach wzrasta zainteresowanie uczeniem maszynowym i statystyką, a przy pomocy tych technologii big data możliwe jest rozszerzenie funkcjonalności tradycyjnego systemu biznesowego nastawionego na obliczenia i wizualizację.

Dodatkowo koncepcja hurtowni danych została rozszerzona o zastosowanie technologii Hadoop, co zaowocowało powstaniem nowych standardów budowania korporacyjnych pamięci masowych w postaci „jezior danych”.

CNews: Jakie są najbardziej obiecujące zadania, do których wykorzystuje się rozwiązania big data?

Olga Gorczyńska:

W kilku przypadkach wykorzystujemy technologie big data w projektach BI. Pierwszy ma miejsce wtedy, gdy konieczne jest usprawnienie istniejącej hurtowni danych, co jest bardzo istotne w warunkach, w których firmy dysponują szybko rosnącymi wolumenami wykorzystywanych informacji. Przechowywanie surowych danych w tradycyjnych relacyjnych bazach danych jest bardzo kosztowne i coraz częściej wymaga mocy obliczeniowej. W takich przypadkach bardziej sensowne jest skorzystanie z zestawu narzędzi Hadoop, który jest bardzo skuteczny ze względu na swoją architekturę, elastyczny, dostosowujący się do konkretnych potrzeb i opłacalny z ekonomicznego punktu widzenia, ponieważ opiera się na rozwiązaniu Open Source.

W szczególności wykorzystując Hadoop rozwiązaliśmy problem przechowywania i przetwarzania nieustrukturyzowanych danych w jednym dużym Rosyjski bank. W w tym przypadku Mówiliśmy o dużych wolumenach regularnie napływających danych o zmieniającej się strukturze. Informacje te należy przetworzyć, przeanalizować, wydobyć z nich wskaźniki liczbowe, a także zapisać oryginalne dane. Biorąc pod uwagę znaczny wzrost wolumenu napływających informacji, wykorzystanie w tym celu pamięci relacyjnej stało się zbyt kosztowne i nieefektywne. Do przetwarzania utworzyliśmy oddzielny klaster Hadoop dokumenty pierwotne, których wyniki są ładowane do relacyjnej pamięci masowej w celu analizy i dalszego wykorzystania.

Drugi kierunek to wprowadzenie zaawansowanych narzędzi analitycznych rozszerzających funkcjonalność systemu BI. Jest to obszar bardzo perspektywiczny, gdyż wiąże się nie tylko z rozwiązywaniem problemów informatycznych, ale także z tworzeniem nowych możliwości biznesowych.

Zamiast organizować specjalne projekty mające na celu wdrożenie pogłębionej analityki, staramy się poszerzać zakres istniejących projektów. Przykładowo dla niemal każdego systemu przydatną funkcją jest przewidywanie wskaźników na podstawie dostępnych danych historycznych. Nie jest to takie proste zadanie, wymaga nie tylko umiejętności pracy z narzędziami, ale także pewnego przygotowania matematycznego, znajomości statystyki i ekonometrii.

Nasza firma posiada dedykowany zespół analityków danych, który spełnia te wymagania. Zrealizowali projekt z zakresu ochrony zdrowia dotyczący generowania raportowania regulacyjnego, a dodatkowo w ramach tego projektu wdrożono prognozowanie obciążenia pracą organizacje medyczne i ich segmentacja według wskaźniki statystyczne. Wartość takich prognoz dla klienta jest oczywista, dla niego nie jest to tylko wykorzystanie jakiejś nowej, egzotycznej technologii, ale całkowicie naturalne poszerzenie możliwości analitycznych. Dzięki temu wzrasta zainteresowanie rozwojem systemu i czeka nas nowa praca. Teraz podobnie wdrażamy technologie analityki predykcyjnej w projekcie zarządzania miastem.

I wreszcie mamy doświadczenie we wdrażaniu technologii big data, gdzie mówimy o wykorzystaniu danych nieustrukturyzowanych, przede wszystkim różnych dokumentów tekstowych. Internet oferuje ogromne możliwości dzięki ogromnym wolumenom nieustrukturyzowanych informacji zawierających informacje przydatne dla biznesu. Bardzo ciekawe doświadczenie związaliśmy się z opracowaniem systemu wyceny wartości nieruchomości dla firmy ROSECO na zlecenie społeczeństwo rosyjskie rzeczoznawcy. Aby wybrać obiekty analogowe, system pozyskał dane ze źródeł w Internecie, przetworzył je przy użyciu technologii językowych i wzbogacił je za pomocą geoanalityki z wykorzystaniem metod uczenia maszynowego.

CNews: Jakie autorskie rozwiązania Force rozwija w obszarach analityki biznesowej i big data?

Olga Gorczyńska:

Opracowaliśmy i rozwijamy specjalne rozwiązanie z zakresu big data – ForSMedia. Jest to platforma do analizy danych w mediach społecznościowych, która wzbogaca wiedzę o klientach. Można go zastosować w różnych branżach: sektorze finansowym, telekomunikacji, handlu detalicznym – wszędzie tam, gdzie chcą wiedzieć jak najwięcej o swoich klientach.


Olga Gorczyńska

Opracowaliśmy i rozwijamy specjalne rozwiązanie z zakresu big data – ForSMedia. Jest to platforma do analizy danych w mediach społecznościowych, która wzbogaca wiedzę o klientach.

Typowym przypadkiem użycia jest opracowanie ukierunkowanych kampanii marketingowych. Jeśli firma ma 20 milionów klientów, rozprowadź wszystko reklamy Według bazy danych jest to nierealne. Trzeba zawęzić krąg odbiorców reklam i funkcja celu tutaj – aby zwiększyć reakcję klientów na oferta marketingowa. W takim wypadku możemy wgrać do ForSMedii podstawowe dane o wszystkich klientach (imiona, nazwiska, daty urodzenia, miejsce zamieszkania), a następnie na podstawie informacji z portali społecznościowych uzupełnić je o nowe przydatne informacje, m.in. o zakres zainteresowań, status społeczny, skład rodziny, region działalność zawodowa, preferencje muzyczne itp. Oczywiście nie u wszystkich klientów można znaleźć taką wiedzę, gdyż pewna część z nich w ogóle nie korzysta z sieci społecznościowych, jednak w przypadku marketingu ukierunkowanego nawet taki „niepełny” wynik zapewnia ogromne korzyści.

Media społecznościowe jest źródłem bardzo bogatym, choć trudnym w obsłudze. Nie jest łatwo zidentyfikować osobę wśród użytkowników - ludzie często używają różnych form swojego imienia, nie wskazują wieku, preferencji, a nie jest łatwo poznać cechy użytkownika na podstawie jego postów i grup subskrybcyjnych.

Platforma ForSMedia rozwiązuje wszystkie te problemy w oparciu o technologie big data i pozwala masowo wzbogacać dane klientów oraz analizować wyniki. Wykorzystane technologie obejmują Hadoop, środowisko badań statystycznych R, narzędzia przetwarzania językowego RCO i narzędzia Data Discovery.

Platforma ForSMedia maksymalnie wykorzystuje swobodnie rozpowszechniane oprogramowanie i może być zainstalowana na dowolnej platformie sprzętowej spełniającej wymagania zadania biznesowego. Ale dla główne wdrożenia a dla zwiększonych wymagań wydajnościowych oferujemy specjalną wersję zoptymalizowaną do pracy na systemach sprzętowych i programowych Oracle – Oracle Big Data Appliance i Oracle Exalytics.

Zastosowanie innowacyjnych zintegrowanych kompleksów Oracle w dużych projektach to ważny obszar naszej działalności nie tylko w obszarze systemów analitycznych. Takie projekty nie będą tanie, ale ze względu na skalę rozwiązywanych zadań są w pełni uzasadnione.

CNews: Czy klienci mogą w jakiś sposób przetestować te systemy przed podjęciem decyzji o zakupie? Czy zapewniacie np. stanowiska testowe?

Olga Gorczyńska:

W tym kierunku nie tylko dostarczamy stanowiska testowe, ale stworzyliśmy największą w Europie i unikalną w Rosji platformę – Fors Solution Center. Jej głównym zadaniem jest przybliżanie najnowszych technologii Oracle klientowi końcowemu, pomoc partnerom w ich rozwoju i zastosowaniu oraz zapewnienie jak największej dostępności procesów testowania sprzętu i oprogramowania. Pomysł nie wziął się znikąd. Force od prawie 25 lat opracowuje i wdraża rozwiązania oparte na technologiach i platformach Oracle. Mamy duże doświadczenie we współpracy zarówno z klientami, jak i partnerami. W rzeczywistości „Force” jest centrum kompetencyjnym Oracle w Rosji.

Biorąc pod uwagę to doświadczenie, w 2011 roku, kiedy pojawiły się pierwsze wersje silnika bazodanowego Oracle Exadata, stworzyliśmy pierwsze laboratorium masteringu tych systemów, nazywając je ExaStudio. Na jego podstawie dziesiątki firm mogło odkryć możliwości nowych rozwiązań programowych i sprzętowych Exadata. Wreszcie w 2014 roku przekształciliśmy go w swego rodzaju centrum danych do testowania systemów i rozwiązań chmurowych – jest to Fors Solution Center.

Teraz nasze Centrum prezentuje pełną gamę najnowszych systemów oprogramowania i sprzętu Oracle – od Exadata i Exalogic po Big Data Appliance – które de facto pełnią rolę stanowisk testowych dla naszych partnerów i klientów. Oprócz testowania, możesz tutaj uzyskać usługi audytu systemów informatycznych, migracji na nową platformę, konfiguracji, konfiguracji i skalowania.

Centrum aktywnie rozwija się w kierunku wykorzystania technologii chmurowych. Niedawno architektura Centrum została zmodyfikowana w taki sposób, aby zasoby obliczeniowe i usługi udostępniane były w chmurze. Teraz klienci mogą korzystać z możliwości samoobsługi w zakresie produktywności: przesyłać dane testowe, aplikacje i przeprowadzać testy w środowisku chmurowym.

Dzięki temu firma partnerska lub klient może bez wcześniejszych inwestycji w sprzęt i projekty pilotażowe na swoim terytorium wgrać własne aplikacje do naszej chmury, przetestować, porównać wyniki wydajności i podjąć decyzję o przejściu na nową platformę.

CNews: I ostatnie pytanie – co zaprezentujesz na Oracle Day?

Olga Gorczyńska:

Oracle Day to główne wydarzenie roku w Rosji dla korporacji i wszystkich jej partnerów. „Force” już wielokrotnie było jego generalnym sponsorem i w tym roku także. Forum będzie w całości poświęcone tematyce chmurowej - PaaS, SaaS, IaaS i odbędzie się w ramach Oracle Cloud Day, ponieważ Oracle przywiązuje dużą wagę do tych technologii.

Na wydarzeniu zaprezentujemy naszą platformę ForSMedia, a także opowiemy o naszych doświadczeniach w wykorzystaniu technologii big data i projektach z zakresu analityki biznesowej. I oczywiście opowiemy o nowych możliwościach naszego Fors Solution Center w zakresie budowania rozwiązań chmurowych.