TIBCO Spotfire: Big Data Analytics. ეფექტური ბიზნეს ინტელექტი და მონაცემთა თვისებრივი ანალიზი როგორ მივიღოთ მომხმარებლის მონაცემები

ხელმისაწვდომი მუშაობა დიდ მონაცემებთან ვიზუალური ანალიტიკის გამოყენებით

გააუმჯობესეთ თქვენი ბიზნეს ინტელექტი და მოაგვარეთ რუტინული პრობლემები Big Data-ში დამალული ინფორმაციის გამოყენებით TIBCO Spotfire პლატფორმით. ეს არის ერთადერთი პლატფორმა, რომელიც აწვდის ბიზნეს მომხმარებლებს ინტუიციური, მოსახერხებელი მომხმარებლის ინტერფეისით, რომელიც საშუალებას აძლევს მათ გამოიყენონ დიდი მონაცემთა ანალიტიკური ტექნოლოგიების მთელი სპექტრი IT სპეციალისტების ან სპეციალური განათლების ჩართვის გარეშე.

Spotfire ინტერფეისი თანაბრად მოსახერხებელს ხდის მუშაობას როგორც მცირე მონაცემთა ნაკრებებთან, ასევე დიდი მონაცემების მრავალ ტერაბაიტიან კლასტერებთან: სენსორების წაკითხვა, ინფორმაცია სოციალური ქსელებიდან, გაყიდვების პუნქტები ან გეოლოკაციის წყაროები. ყველა დონის მომხმარებელს შეუძლია ადვილად წვდომა გამჭრიახ დაფებსა და ანალიტიკურ სამუშაო ნაკადებზე, უბრალოდ ვიზუალიზაციის გამოყენებით, რომელიც წარმოადგენს მილიარდობით მონაცემთა წერტილის გაერთიანებულ გრაფიკულ გამოსახულებას.

პროგნოზირებადი ანალიტიკა არის სწავლა კეთების საფუძველზე გაზიარებული გამოცდილებაკომპანიებმა მიიღონ უფრო ინფორმირებული გადაწყვეტილებები. Spotfire Predictive Analytics-ის გამოყენებით, შეგიძლიათ აღმოაჩინოთ ბაზრის ახალი ტენდენციები ბიზნეს დაზვერვის ინფორმაციადან და მიიღოთ ზომები რისკის შესამცირებლად, რაც საშუალებას მოგცემთ გააუმჯობესოთ თქვენი მენეჯმენტის გადაწყვეტილებების ხარისხი.

Მიმოხილვა

დიდი მონაცემთა დაკავშირება მაღალი ხარისხის ანალიტიკისთვის

Spotfire გთავაზობთ ანალიტიკის სამ ძირითად ტიპს Hadoop-თან და მონაცემთა სხვა დიდ წყაროებთან უწყვეტი ინტეგრაციით:

  1. მოთხოვნის ანალიტიკა: ჩაშენებული, მომხმარებლის მიერ კონფიგურირებადი მონაცემთა კონექტორები, რომლებიც ხელს უწყობს მონაცემთა ულტრა სწრაფ, ინტერაქტიულ ვიზუალიზაციას
  2. ანალიზი მონაცემთა ბაზაში (In-Database Analytics): ინტეგრაცია განაწილებულ გამოთვლით პლატფორმასთან, რომელიც საშუალებას გაძლევთ გააკეთოთ ნებისმიერი სირთულის მონაცემთა გამოთვლები დიდ მონაცემებზე დაყრდნობით.
  3. ანალიზი in შემთხვევითი წვდომის მეხსიერება(მეხსიერების ანალიტიკა): ინტეგრაცია სტატისტიკური ანალიზის პლატფორმასთან, რომელიც აგროვებს მონაცემებს პირდაპირ მონაცემთა ნებისმიერი წყაროდან, მათ შორის ტრადიციული და ახალი მონაცემთა წყაროებიდან.

ერთად, ეს ინტეგრაციის მეთოდები წარმოადგენს ვიზუალური კვლევისა და მოწინავე ანალიტიკის მძლავრ კომბინაციას.
ის საშუალებას აძლევს ბიზნეს მომხმარებლებს წვდომა მიიღონ, დააკავშირონ და გააანალიზონ მონაცემები მონაცემთა ნებისმიერი წყაროდან მძლავრი, ადვილად გამოსაყენებელი დაფებისა და სამუშაო ნაკადების მეშვეობით.

დიდი მონაცემთა კონექტორები

Spotfire Big Data Connectors მხარს უჭერს ყველა სახის მონაცემთა წვდომას: მონაცემთა წყაროში, მეხსიერებაში და მოთხოვნილზე. ჩამონტაჟებული Spotfire მონაცემთა კონექტორები მოიცავს:

  • სერტიფიცირებული Hadoop მონაცემთა კონექტორები Apache Hive, Apache Spark SQL, Cloudera Hive, Cloudera Impala, Databricks Cloud, Hortonworks, MapR Drill და Pivotal HAWQ
  • დიდი მონაცემების სხვა სერტიფიცირებული კონექტორები მოიცავს Teradata, Teradata Aster და Netezza
  • კონექტორები ისტორიული და მიმდინარე მონაცემებისთვის ისეთი წყაროებიდან, როგორიცაა OSI PI სენსორები

In-Datasource განაწილებული გამოთვლები

Spotfire-ის მოსახერხებელი ფუნქციონალურობის გარდა SQL მოთხოვნებისთვის ოპერაციების ვიზუალურად შერჩევისთვის, რომლებიც წვდებიან მონაცემთა წყაროებზე განაწილებულ მონაცემებს, Spotfire-ს შეუძლია შექმნას სტატისტიკური და მანქანათმცოდნეობის ალგორითმები, რომლებიც მოქმედებენ მონაცემთა წყაროებში და დააბრუნებს მხოლოდ აუცილებელ შედეგებს Spotfire სისტემაში ვიზუალიზაციის შესაქმნელად.

  • მომხმარებლები მუშაობენ დაფებით ვიზუალური შერჩევის ფუნქციით, რომლებიც წვდებიან სკრიპტებს TERR ენის ჩაშენებული შესაძლებლობების გამოყენებით,
  • TERR სკრიპტები იწყებენ განაწილებული გამოთვლითი ფუნქციების მუშაობას Map/Reduce, H2O, SparkR ან Fuzzy Logix-თან ურთიერთქმედებაში,
  • ეს აპლიკაციები თავის მხრივ წვდებიან მაღალი ეფექტურობის სისტემებს, როგორიცაა Hadoop ან სხვა მონაცემთა წყაროები,
  • TERR შეიძლება განთავსდეს, როგორც მოწინავე ანალიტიკური ძრავა Hadoop კვანძებზე, რომლებიც იმართება MapReduce-ის ან Spark-ის გამოყენებით. TERR ენა ასევე შეიძლება გამოყენებულ იქნას Teradata მონაცემთა კვანძებისთვის.
  • შედეგები ვიზუალიზებულია Spotfire-ზე.

TERR მოწინავე ანალიტიკისთვის

TIBCO Enterprise Runtime for R (TERR) – TERR არის საწარმოს დონის სტატისტიკური პაკეტი, რომელიც შეიქმნა TIBCO-ს მიერ, რათა სრულად იყოს თავსებადი R ენასთან და გამოიყენოს კომპანიის ათწლეულების ანალიტიკური ექსპერტიზა, რომელიც ასოცირდება S+-თან. ეს საშუალებას აძლევს მომხმარებლებს განაგრძონ აპლიკაციებისა და მოდელების შემუშავება არა მხოლოდ ღია R კოდის გამოყენებით, არამედ მათი R კოდის ინტეგრირება და განთავსება კომერციულად მყარ პლატფორმაზე, მათი კოდის გადაწერის გარეშე. TERR-ს აქვს უფრო მაღალი ეფექტურობა და მეხსიერების საიმედო მართვა, უზრუნველყოფს მეტს მაღალი სიჩქარემონაცემთა დიდი მოცულობის დამუშავება ღია კოდის R ენასთან შედარებით.

ყველა ფუნქციის გაერთიანება

ზემოაღნიშნული ძლიერი ფუნქციონალობის კომბინაცია ნიშნავს, რომ ყველაზე რთული ამოცანებისთვისაც კი, რომლებიც საჭიროებენ უაღრესად სანდო ანალიტიკას, მომხმარებლები ურთიერთქმედებენ მარტივ, ადვილად გამოსაყენებელ ინტერაქტიულ სამუშაო პროცესებთან. ეს საშუალებას აძლევს ბიზნეს მომხმარებლებს ვიზუალურად და გაანალიზონ მონაცემები და გაიზიარონ ანალიტიკური შედეგები, ისე, რომ არ იცოდნენ მონაცემთა არქიტექტურის დეტალები, რომლებიც ემყარება ბიზნესის ანალიზს.

მაგალითი: Spotfire ინტერფეისი დაკარგული ტვირთის დამახასიათებელი მოდელის კონფიგურაციის, გაშვებისა და ვიზუალიზაციისთვის. ამ ინტერფეისის გამოყენებით, ბიზნეს მომხმარებლებს შეუძლიათ შეასრულონ გამოთვლები TERR და H2O (განაწილებული გამოთვლითი ჩარჩო) გამოყენებით Hadoop კლასტერებში შენახული ტრანზაქციისა და გადაზიდვის მონაცემებზე წვდომით.

დიდი მონაცემთა ანალიტიკის სივრცე


გაფართოებული და პროგნოზირებადი ანალიტიკა

მომხმარებლები იყენებენ Spotfire დაფებს ვიზუალური შერჩევის ფუნქციონირებით, რათა წამოიწყონ მოწინავე შესაძლებლობების მდიდარი ნაკრები, რაც გაადვილებს პროგნოზების გაკეთებას, მოდელების შექმნას და მათ ოპტიმიზაციას. დიდი მონაცემების გამოყენებით, ანალიზი შეიძლება განხორციელდეს მონაცემთა წყაროს შიგნით (In-Datasource), დააბრუნოს მხოლოდ აგრეგირებული ინფორმაცია და შედეგები, რომლებიც საჭიროა ვიზუალიზაციის შესაქმნელად Spotfire პლატფორმაზე.


მანქანათმცოდნეობა

მანქანური სწავლების ხელსაწყოების ფართო სპექტრი ხელმისაწვდომია Spotfire-ის ჩაშენებული ფუნქციების სიაში, რომელთა გამოყენება შესაძლებელია ერთი დაწკაპუნებით. სტატისტიკოსებს აქვთ წვდომა R ენაზე დაწერილი პროგრამის კოდზე და შეუძლიათ გააფართოვონ გამოყენებული ფუნქციონირება. მანქანათმცოდნეობის ფუნქციონალობა შეიძლება გაზიაროთ სხვა მომხმარებლებთან მარტივი ხელახალი გამოყენებისთვის.

ხელმისაწვდომია შემდეგი მეთოდებიმანქანური სწავლება უწყვეტი კატეგორიული ცვლადებისთვის Spotfire-ზე და TERR-ზე:

  • ხაზოვანი და ლოგისტიკური რეგრესია
  • გადაწყვეტილების ხეები, შემთხვევითი ტყის ალგორითმი, გრადიენტის გამაძლიერებელი მანქანები (GBM)
  • განზოგადებული ხაზოვანი (დანამატი) მოდელები (განზოგადებული დანამატის მოდელები)
  • Ნეირონული ქსელები


Შინაარსის ანალიზი

Spotfire უზრუნველყოფს მონაცემთა ანალიტიკას და ვიზუალიზაციას, რომელთა დიდი ნაწილი აქამდე არ იყო გამოყენებული - ეს არის არასტრუქტურირებული ტექსტი, რომელიც ინახება ისეთ წყაროებში, როგორიცაა დოკუმენტები, ანგარიშები, შენიშვნები. CRM სისტემები, ვებსაიტების ჟურნალები, პუბლიკაციები სოციალურ ქსელებში და მრავალი სხვა.


მდებარეობის ანალიტიკა

მრავალშრიანი რუქები მაღალი გარჩევადობადიდი მონაცემების ვიზუალიზაციის შესანიშნავი გზაა. Spotfire-ის რუქების მდიდარი ფუნქციონალობა საშუალებას გაძლევთ შექმნათ რუკები იმდენი მითითებით და ფუნქციური ფენით, რამდენიც გჭირდებათ. Spotfire ასევე გაძლევთ შესაძლებლობას გამოიყენოთ დახვეწილი ანალიტიკა რუკებთან მუშაობისას. Დამატებით გეოგრაფიული რუკებისისტემა ქმნის რუქებს მომხმარებლის ქცევის, საწყობების, წარმოების, ნედლეულის და მრავალი სხვა ინდიკატორის ვიზუალიზაციისთვის.

ბოლო დროს იმდენი ლაპარაკი და ინფორმაციის ანალიზზე იმდენი იყო, რომ შეიძლება სრულიად დაბნეული გახდეს პრობლემა. კარგია, რომ ამას ბევრი ადამიანი აქცევს ყურადღებას აქტუალური თემა. ერთადერთი ცუდი ის არის, რომ ამ ტერმინით ყველას ესმის რა სჭირდება, ხშირად პრობლემის ზოგადი სურათის გარეშე. ამ მიდგომის ფრაგმენტაცია იწვევს იმის გაგებას, თუ რა ხდება და რა უნდა გააკეთოს. ყველაფერი შედგება ნაჭრებისგან, რომლებიც თავისუფლად არის დაკავშირებული ერთმანეთთან და არ აქვთ საერთო ბირთვი. ალბათ ხშირად გსმენიათ ფრაზა „patchwork automation“. ბევრ ადამიანს აქამდე არაერთხელ შეექმნა ეს პრობლემა და შეუძლია დაადასტუროს, რომ ამ მიდგომის მთავარი პრობლემა ის არის, რომ თითქმის არასოდეს არის შესაძლებელი დიდი სურათის დანახვა. ანალოგიური სიტუაციაა ანალიზთან დაკავშირებით.

იმისათვის, რომ გავიგოთ თითოეული ანალიზის მექანიზმის ადგილი და მიზანი, მოდით შევხედოთ მას მთლიანად. ჩვენ დავიწყებთ იმას, თუ როგორ იღებს ადამიანი გადაწყვეტილებებს, რადგან ჩვენ არ შეგვიძლია ავხსნათ, თუ როგორ იბადება აზრი, ჩვენ კონცენტრირდებით იმაზე, თუ როგორ შეიძლება გამოყენებულ იქნას საინფორმაციო ტექნოლოგიები ამ პროცესში. პირველი ვარიანტი არის ის, რომ გადაწყვეტილების მიმღები (DM) იყენებს კომპიუტერს მხოლოდ მონაცემების მოსაპოვებლად და დამოუკიდებლად აკეთებს დასკვნებს. ამ ტიპის პრობლემის გადასაჭრელად გამოიყენება ანგარიშგების სისტემები, მონაცემთა მრავალგანზომილებიანი ანალიზი, სქემები და ვიზუალიზაციის სხვა მეთოდები. მეორე ვარიანტი: პროგრამა არა მხოლოდ ამოიღებს მონაცემებს, არამედ ახორციელებს სხვადასხვა სახის წინასწარ დამუშავებას, მაგალითად, გაწმენდას, გასწორებას და ა.შ. და ამ გზით დამუშავებულ მონაცემებზე მიმართავს ანალიზის მათემატიკურ მეთოდებს - კლასტერირება, კლასიფიკაცია, რეგრესია და ა.შ. ამ შემთხვევაში გადაწყვეტილების მიმღები იღებს არა ნედლეულ, არამედ მაღალ დამუშავებულ მონაცემებს, ე.ი. ადამიანი უკვე მუშაობს კომპიუტერის მიერ მომზადებულ მოდელებთან.

გამომდინარე იქიდან, რომ პირველ შემთხვევაში, თითქმის ყველაფერი, რაც დაკავშირებულია თავად გადაწყვეტილების მიღების მექანიზმებთან, ევალება ადამიანს, ადეკვატური მოდელის შერჩევისა და დამუშავების მეთოდების არჩევის პრობლემა სცილდება ანალიზის მექანიზმებს, ე.ი. გადაწყვეტილების მიღების საფუძველი არის ან ინსტრუქცია (მაგალითად, როგორ შეიძლება განხორციელდეს გადახრებზე რეაგირების მექანიზმები), ან ინტუიცია. ზოგიერთ შემთხვევაში, ეს სავსებით საკმარისია, მაგრამ თუ გადაწყვეტილების მიმღებს აინტერესებს ცოდნა, რომელიც საკმაოდ ღრმად არის განლაგებული, ასე ვთქვათ, მაშინ უბრალოდ მონაცემთა მოპოვების მექანიზმები აქ არ დაეხმარება. უფრო სერიოზული დამუშავებაა საჭირო. ეს უკვე მეორე შემთხვევაა. წინასწარი დამუშავებისა და ანალიზის ყველა გამოყენებული მექანიზმი გადაწყვეტილების მიმღებს საშუალებას აძლევს იმუშაოს უფრო მაღალ დონეზე მაღალი დონე. პირველი ვარიანტი შესაფერისია ტაქტიკური და ოპერატიული პრობლემების გადასაჭრელად, მეორე კი ცოდნის გამეორებისთვის და სტრატეგიული პრობლემების გადასაჭრელად.

იდეალური შემთხვევა იქნება ანალიზის ორივე მიდგომის გამოყენება. ისინი საშუალებას გაძლევთ დაფაროთ ორგანიზაციის თითქმის ყველა საჭიროება ბიზნეს ინფორმაციის ანალიზისთვის. ამოცანებიდან გამომდინარე ტექნიკის ცვალებადობით, ჩვენ შევძლებთ მაქსიმალურად გამოვიყენოთ არსებული ინფორმაცია ნებისმიერ შემთხვევაში.

მუშაობის ზოგადი სქემა ნაჩვენებია ქვემოთ.

ხშირად, პროდუქტის აღწერისას, რომელიც აანალიზებს ბიზნეს ინფორმაციას, გამოიყენება ისეთი ტერმინები, როგორიცაა რისკის მენეჯმენტი, პროგნოზირება, ბაზრის სეგმენტაცია... მაგრამ სინამდვილეში, თითოეული ამ პრობლემის გადაჭრა ქვემოთ აღწერილი ანალიზის ერთ-ერთი მეთოდის გამოყენებაზე მოდის. მაგალითად, პროგნოზირება არის რეგრესიის პრობლემა, ბაზრის სეგმენტაცია არის კლასტერირება, რისკების მართვა არის კლასტერიზაციისა და კლასიფიკაციის ერთობლიობა და შესაძლებელია სხვა მეთოდები. ამიტომ, ტექნოლოგიების ეს ნაკრები საშუალებას გვაძლევს გადავჭრათ ბიზნეს პრობლემების უმეტესობა. სინამდვილეში, ისინი ატომური (ძირითადი) ელემენტებია, საიდანაც იკრიბება კონკრეტული პრობლემის გადაწყვეტა.

ახლა ჩვენ ცალკე აღვწერთ მიკროსქემის თითოეულ ფრაგმენტს.

მონაცემთა პირველადი წყარო უნდა იყოს საწარმოს მართვის სისტემების მონაცემთა ბაზები, საოფისე დოკუმენტები და ინტერნეტი, რადგან აუცილებელია გამოიყენოს ყველა ინფორმაცია, რომელიც შეიძლება სასარგებლო იყოს გადაწყვეტილების მისაღებად. მეტიც ჩვენ ვსაუბრობთარა მხოლოდ ორგანიზაციის შიდა, არამედ გარე მონაცემების შესახებ (მაკროეკონომიკური ინდიკატორები, კონკურენტული გარემო, დემოგრაფიული მონაცემები და ა.შ.).

მიუხედავად იმისა, რომ მონაცემთა საწყობი არ ახორციელებს ანალიზის ტექნოლოგიებს, ის არის ანალიტიკური სისტემის აგების საფუძველი. მონაცემთა საწყობის არარსებობის შემთხვევაში, ანალიზისთვის საჭირო ინფორმაციის შეგროვება და ორგანიზება დიდ დროს მიიღებს, რაც დიდწილად უარყოფს ანალიზის ყველა სარგებელს. ბოლოს და ბოლოს, ერთ-ერთი ძირითადი ინდიკატორებინებისმიერ ანალიტიკურ სისტემას შეუძლია სწრაფად მიიღოს შედეგები.

დიაგრამის შემდეგი ელემენტია სემანტიკური ფენა. მიუხედავად იმისა, თუ როგორ გაანალიზდება ინფორმაცია, აუცილებელია, რომ ის გასაგები იყოს გადაწყვეტილების მიმღებისთვის, რადგან უმეტეს შემთხვევაში გაანალიზებული მონაცემები განთავსებულია სხვადასხვა მონაცემთა ბაზაში და გადაწყვეტილების მიმღები არ უნდა ჩაუღრმავდეს DBMS–თან მუშაობის ნიუანსებს. აუცილებელია შეიქმნას მექანიზმი, რომელიც გარდაქმნის ტერმინებს საგნობრივი სფერომონაცემთა ბაზაში წვდომის მექანიზმებზე ზარებში. ამ ამოცანას ასრულებს სემანტიკური ფენა. სასურველია, რომ ის ერთნაირი იყოს ყველა ანალიზის აპლიკაციისთვის, ამიტომ უფრო ადვილია პრობლემისადმი სხვადასხვა მიდგომის გამოყენება.

ანგარიშგების სისტემები შექმნილია იმისთვის, რომ უპასუხონ კითხვას „რა ხდება“. მისი გამოყენების პირველი ვარიანტი: რეგულარული ანგარიშები გამოიყენება ოპერატიული სიტუაციის მონიტორინგისა და გადახრების გასაანალიზებლად. მაგალითად, სისტემა ამზადებს ყოველდღიურ ანგარიშებს საწყობში პროდუქციის ნაშთების შესახებ და როცა მისი ღირებულება საშუალო ყოველკვირეულ გაყიდვაზე ნაკლებია, ამაზე პასუხის გაცემა აუცილებელია შესყიდვის შეკვეთის მომზადებით, ანუ უმეტეს შემთხვევაში ეს არის სტანდარტიზებული ბიზნეს ტრანზაქციები. ყველაზე ხშირად, ამ მიდგომის ზოგიერთი ელემენტი ამა თუ იმ ფორმით ხორციელდება კომპანიებში (თუნდაც მხოლოდ ქაღალდზე), მაგრამ ეს არ უნდა იყოს ერთადერთი ხელმისაწვდომი მიდგომა მონაცემთა ანალიზისთვის. ანგარიშგების სისტემების გამოყენების მეორე ვარიანტი: ad hoc მოთხოვნების დამუშავება. როდესაც გადაწყვეტილების მიმღებს სურს შეამოწმოს რაიმე აზრი (ჰიპოთეზა), მას სჭირდება ფიქრისთვის საკვები, რომელიც დაადასტურებს ან უარყოფს იდეას, რადგან ეს აზრები სპონტანურად მოდის და არ არსებობს ზუსტი წარმოდგენა იმაზე, თუ რა სახის ინფორმაციაა საჭირო. , საჭიროა ინსტრუმენტი, რომელიც საშუალებას მოგცემთ სწრაფად და მიიღოთ ეს ინფორმაცია მოსახერხებელი ფორმით. მოპოვებული მონაცემები ჩვეულებრივ წარმოდგენილია ცხრილებში ან გრაფიკებში და დიაგრამებში, თუმცა შესაძლებელია სხვა პრეზენტაციები.

მიუხედავად იმისა, რომ სხვადასხვა მიდგომები შეიძლება გამოყენებულ იქნას ანგარიშგების სისტემების შესაქმნელად, დღეს ყველაზე გავრცელებული არის OLAP მექანიზმი. ძირითადი იდეა არის ინფორმაციის წარმოდგენა მრავალგანზომილებიანი კუბების სახით, სადაც ღერძები წარმოადგენს ზომებს (მაგალითად, დროს, პროდუქტებს, მომხმარებელს), ხოლო უჯრედები შეიცავს ინდიკატორებს (მაგალითად, გაყიდვების რაოდენობას, საშუალო ფასიშესყიდვა). მომხმარებელი მანიპულირებს გაზომვებით და იღებს ინფორმაციას სასურველ კონტექსტში.

იმის გამო, რომ OLAP ადვილად გასაგებია, იგი ფართოდ გამოიყენება, როგორც მონაცემთა ანალიზის ძრავა, უნდა გვესმოდეს, რომ მისი შესაძლებლობები ღრმა ანალიზისთვის, როგორიცაა პროგნოზირება, უკიდურესად შეზღუდულია. პროგნოზირების პრობლემების გადაჭრის მთავარი პრობლემა არაა საინტერესო მონაცემების ცხრილებისა და დიაგრამების სახით ამოღების შესაძლებლობა, არამედ ადეკვატური მოდელის აგება. მაშინ ყველაფერი საკმაოდ მარტივია. ახალი ინფორმაცია მიეწოდება არსებული მოდელის შეყვანას, გადის მასში და შედეგი არის პროგნოზი. მაგრამ მოდელის შექმნა სრულიად არა ტრივიალური ამოცანაა. რა თქმა უნდა, შეგიძლიათ დაამატოთ რამდენიმე მზა და მარტივი მოდელებიმაგალითად, ხაზოვანი რეგრესია ან მსგავსი რამ, საკმაოდ ხშირად სწორედ ამას აკეთებენ, მაგრამ ეს პრობლემას არ წყვეტს. რეალურ სამყაროში არსებული პრობლემები თითქმის ყოველთვის სცილდება ასეთ მარტივ მოდელებს. შესაბამისად, ასეთი მოდელი აღმოაჩენს მხოლოდ აშკარა დამოკიდებულებებს, აღმოჩენის მნიშვნელობას უმნიშვნელო, რაც უკვე კარგად არის ცნობილი, ან ზედმეტად უხეშ პროგნოზებს გააკეთებს, რაც ასევე სრულიად უინტერესოა. მაგალითად, თუ თქვენ, საფონდო ბირჟაზე აქციების ფასის გაანალიზებისას, იმ მარტივი ვარაუდიდან გამომდინარე, რომ ხვალ აქციები ეღირება იგივე, რაც დღეს, მაშინ 90% შემთხვევაში მართალი იქნებით. და რამდენად ღირებულია ასეთი ცოდნა? მხოლოდ დარჩენილი 10% ინტერესდება ბროკერებისთვის. პრიმიტიული მოდელები უმეტეს შემთხვევაში დაახლოებით იგივე დონის შედეგებს იძლევა.

მოდელების მშენებლობის სწორი მიდგომა არის მათი ეტაპობრივად გაუმჯობესება. პირველი, შედარებით უხეში მოდელით დაწყებული, მისი გაუმჯობესებაა საჭირო, რადგან ახალი მონაცემები გროვდება და მოდელი პრაქტიკაში გამოიყენება. პროგნოზების და მსგავსი საკითხების გაკეთების რეალური ამოცანა სცილდება საანგარიშო სისტემების მექანიზმებს, ასე რომ თქვენ არ უნდა დაელოდოთ ამ მიმართულებით დადებითი შედეგები OLAP-ის გამოყენებისას. ღრმა ანალიზის პრობლემების გადასაჭრელად გამოიყენება ტექნოლოგიების სრულიად განსხვავებული ნაკრები, გაერთიანებული სახელწოდებით ცოდნის აღმოჩენა მონაცემთა ბაზებში.

მონაცემთა ბაზებში ცოდნის აღმოჩენა (KDD) არის მონაცემთა ცოდნად გარდაქმნის პროცესი. KDD მოიცავს მონაცემთა მომზადების საკითხებს, ინფორმაციული მახასიათებლების შერჩევას, მონაცემთა გაწმენდას, მონაცემთა მოპოვების (DM) მეთოდების გამოყენებას, მონაცემთა შემდგომ დამუშავებას, შედეგების ინტერპრეტაციას. მონაცემთა მოპოვება არის „ნედლეული“ მონაცემების აღმოჩენის პროცესი ადრე უცნობი, არატრივიალური, პრაქტიკულად გამოსადეგი და ინტერპრეტაციადი ცოდნის, რომელიც აუცილებელია ადამიანის საქმიანობის სხვადასხვა სფეროში გადაწყვეტილების მიღებისთვის.

ამ მიდგომის მიმზიდველობა იმაში მდგომარეობს, რომ საგნის არეალის მიუხედავად, ჩვენ ვიყენებთ იგივე ოპერაციებს:

  1. ამოიღეთ მონაცემები. ჩვენს შემთხვევაში, ამას სემანტიკური ფენა სჭირდება.
  2. მონაცემების გასუფთავება. ანალიზისთვის „ბინძური“ მონაცემების გამოყენებამ შეიძლება მთლიანად გააუქმოს მომავალში გამოყენებული ანალიზის მექანიზმები.
  3. მონაცემების ტრანსფორმაცია. ანალიზის სხვადასხვა მეთოდი მოითხოვს სპეციალურ ფორმაში მომზადებულ მონაცემებს. მაგალითად, სადღაც მხოლოდ ციფრული ინფორმაცია შეიძლება გამოყენებულ იქნას შეყვანის სახით.
  4. ფაქტობრივი ანალიზის ჩატარება - მონაცემთა მოპოვება.
  5. მიღებული შედეგების ინტერპრეტაცია.

ეს პროცესი განმეორებით მეორდება.

მონაცემთა მოპოვება, თავის მხრივ, იძლევა მხოლოდ 6 პრობლემის გადაწყვეტას - კლასიფიკაცია, კლასტერირება, რეგრესია, ასოციაცია, თანმიმდევრობა და გადახრის ანალიზი.

ეს არის ყველაფერი, რაც უნდა გაკეთდეს ცოდნის მოპოვების პროცესის ავტომატიზაციისთვის. ექსპერტი, ასევე ცნობილი როგორც გადაწყვეტილების მიმღები, უკვე დგამს შემდგომ ნაბიჯებს.

კომპიუტერული დამუშავების შედეგების ინტერპრეტაცია ეკისრება ადამიანებს. Უბრალოდ სხვადასხვა მეთოდებიიძლევა სხვადასხვა აზრს. ძალიან მარტივი შემთხვევა- ეს არის ცხრილები და დიაგრამები, ხოლო უფრო რთულებში - მოდელები და წესები. ადამიანის მონაწილეობის სრულად გამორიცხვა შეუძლებელია, რადგან ამა თუ იმ შედეგს არავითარი მნიშვნელობა არ აქვს, სანამ ის არ გამოიყენება კონკრეტულ საგნობრივ სფეროზე. თუმცა, შესაძლებელია ცოდნის გამეორება. მაგალითად, გადაწყვეტილების მიმღებმა, გარკვეული მეთოდის გამოყენებით, განსაზღვრა, თუ რომელი ინდიკატორები მოქმედებს მყიდველების კრედიტუნარიანობაზე და ეს წარმოადგინა წესის სახით. ეს წესი შეიძლება დაინერგოს სესხის გაცემის სისტემაში და ამით მნიშვნელოვნად შეამციროს საკრედიტო რისკები მათი შეფასებების ჩართვით. ამასთან, დოკუმენტების რეალურ მოპოვებაში მონაწილე პირს არ მოეთხოვება ღრმად გააზრებული იყოს ამა თუ იმ დასკვნის მიზეზები. სინამდვილეში, ეს არის ინდუსტრიაში ერთხელ გამოყენებული მეთოდების გადატანა ცოდნის მართვის სფეროში. მთავარი იდეა არის ერთჯერადი და არაერთიანი მეთოდებიდან გადასვლა კონვეიერზე.

ყველაფერი ზემოთ ნახსენები მხოლოდ ამოცანების სახელებია. და თითოეული მათგანის გადასაჭრელად შეგიძლიათ გამოიყენოთ სხვადასხვა ტექნიკა, დაწყებული კლასიკური სტატისტიკური მეთოდებით დაწყებული თვითსწავლების ალგორითმებამდე. რეალური ბიზნეს პრობლემები თითქმის ყოველთვის წყდება ზემოთ ჩამოთვლილთაგან რომელიმე მეთოდით ან მათი კომბინაციით. თითქმის ყველა დავალება - პროგნოზირება, ბაზრის სეგმენტაცია, რისკის შეფასება, შესრულების შეფასება სარეკლამო კამპანიები, კლასი კონკურენტული უპირატესობადა მრავალი სხვა - ჩამოვთვალოთ ზემოთ აღწერილი. ამიტომ, თქვენს განკარგულებაშია ინსტრუმენტი, რომელიც აგვარებს ამოცანების მოცემულ ჩამონათვალს, შეგვიძლია ვთქვათ, რომ მზად ხართ გადაჭრათ ბიზნესის ანალიზის ნებისმიერი პრობლემა.

თუ შეამჩნიეთ, ჩვენ არასდროს გვიხსენებია, რა ინსტრუმენტი იქნება ანალიზისთვის, რა ტექნოლოგიები და ა.შ. თავად ამოცანები და მათი გადაჭრის მეთოდები არ არის დამოკიდებული ინსტრუმენტებზე. ეს მხოლოდ პრობლემისადმი კომპეტენტური მიდგომის აღწერაა. თქვენ შეგიძლიათ გამოიყენოთ ნებისმიერი რამ, ერთადერთი მნიშვნელოვანი ის არის, რომ ამოცანების მთელი სია დაფარულია. ამ შემთხვევაში, შეგვიძლია ვთქვათ, რომ არსებობს ნამდვილად სრულად ფუნქციონალური გადაწყვეტა. ძალიან ხშირად, მექანიზმები, რომლებიც მოიცავს ამოცანების მხოლოდ მცირე ნაწილს, შემოთავაზებულია, როგორც „ბიზნესის ანალიზის პრობლემების სრულფასოვანი გადაწყვეტა“. ყველაზე ხშირად, მხოლოდ OLAP არის გაგებული, როგორც ბიზნეს ინფორმაციის ანალიზის სისტემა, რომელიც სრულიად არასაკმარისია სრული ანალიზისთვის. სარეკლამო ლოზუნგების სქელი ფენის ქვეშ არის მხოლოდ საანგარიშო სისტემა. ამა თუ იმ ანალიზის ხელსაწყოს ეფექტური აღწერილობები მალავს არსს, მაგრამ საკმარისია დავიწყოთ შემოთავაზებული სქემიდან და გაიგებთ საქმის რეალურ მდგომარეობას.

(ბიზნეს დაზვერვა).

ახალგაზრდა პროფესიონალები, რომლებიც ანალიტიკოსების წარმატებულ კარიერას აკეთებენ მაღალტექნოლოგიურ კომპანიებში, როგორიცაა Microsoft, IBM, Google, Yandex, MTS და ა.შ. სემინარზე მოწვეულნი არიან როგორც მომხსენებლები რომლებიც წყდება ამ კომპანიებში, იმის შესახებ, თუ როგორ ხდება მონაცემების დაგროვება, როგორ წარმოიქმნება მონაცემთა ანალიზის პრობლემები და რა მეთოდები შეიძლება გამოვიყენოთ მათ გადასაჭრელად.

ყველა მოწვეული სპეციალისტი ღიაა კონტაქტებისთვის და სტუდენტებს საშუალება ექნებათ დაუკავშირდნენ მათ რჩევისთვის.

სემინარის მიზნები:

  • ხელი შეუწყოს საუნივერსიტეტო კვლევებსა და მონაცემთა ანალიზის სფეროში არსებული პრაქტიკული პრობლემების გადაჭრას შორის არსებული უფსკრულის გადალახვას;
  • ხელი შეუწყოს გამოცდილების გაცვლას ამჟამინდელ და მომავალ პროფესიონალებს შორის.
სემინარი რეგულარულად იმართება მოსკოვის სახელმწიფო უნივერსიტეტის გამოთვლითი მათემატიკისა და მათემატიკის ფაკულტეტზე პარასკევს ქ. 18:20 , აუდიტორია P5(პირველი სართული).

სემინარზე დასწრება უფასოა(თუ არ გაქვთ მოსკოვის სახელმწიფო უნივერსიტეტის საშვი, გთხოვთ, წინასწარ აცნობოთ სემინარის ორგანიზატორებს თქვენი სრული სახელი, რათა წარადგინოთ ცვლაში მონაწილეთა სია).

სემინარის პროგრამა

თარიღისპიკერი და სემინარის თემა
2010 წლის 10 სექტემბერი
18:20
ალექსანდრე ეფიმოვი , ანალიტიკური დეპარტამენტის უფროსი საცალო ქსელი MTS.

მარკეტინგული კამპანიების ეფექტის პროგნოზირება და მაღაზიების ასორტიმენტის ოპტიმიზაცია.

  • გამოყენებული პრობლემის გვერდი: საცალო ვაჭრობის ობიექტების ასორტიმენტის ოპტიმიზაცია (ამოცანა მონაცემებით).
2010 წლის 17 სექტემბერი
18:20
ვადიმ სტრიჟოვი , რუსეთის მეცნიერებათა აკადემიის გამოთვლითი ცენტრის მკვლევარი.

საბანკო კრედიტის სკორინგი: ავტომატური გენერირებისა და მოდელების შერჩევის მეთოდები.

განიხილება კლასიკური და ახალი ტექნოლოგიები საგოლე ბარათების შესაქმნელად. სემინარზე საუბარია იმაზე, თუ როგორ არის ორგანიზებული მომხმარებლის მონაცემები და როგორ წარმოიქმნას ყველაზე დამაჯერებელი სკორინგის მოდელი, რომელიც ასევე აკმაყოფილებს საერთაშორისო საბანკო სტანდარტების მოთხოვნებს.

2010 წლის 24 სექტემბერი
18:20
ვლადიმერ კრეკოტენი , ოტკრიტიეს საბროკერო სახლის მარკეტინგისა და გაყიდვების სამსახურის უფროსი.

განაცხადი მათემატიკური მეთოდებიმომხმარებელთა გამოწვევის პროგნოზირება და წინააღმდეგობა.

განხილულია ანალიზის დროს წარმოშობილი პრაქტიკული პრობლემები მომხმარებელთა ბაზამარკეტინგში. დასახულია კლიენტების კლასტერიზაციისა და სეგმენტირების, ახალი კლიენტების ქულების და სამიზნე სეგმენტების დინამიკის თვალყურის დევნების ამოცანები.

  • გამოყენებული პრობლემის გვერდი: საბროკერო კომპანიის კლიენტების კლასტერიზაცია (დავალება მონაცემებით).
2010 წლის 1 ოქტომბერი
18:20
ნიკოლაი ფილიპენკოვი და დაახლოებით. მოსკოვის ბანკის საკრედიტო სკორინგის დეპარტამენტის უფროსი.

საცალო საკრედიტო რისკის მართვის მათემატიკური მეთოდების გამოყენება.

განხილულია შეფასების მოდელების აგების და რისკის შეფასების ზოგიერთი პრაქტიკული ასპექტი.

  • განაცხადის პრობლემის გვერდი: საცალო საკრედიტო რისკის მართვა (მონაცემთა პრობლემა) .
2010 წლის 8 ოქტომბერი
18:20
ფედორ რომანენკო , ძებნის ხარისხის დეპარტამენტის მენეჯერი, Yandex.

ვებ ძიების რეიტინგის ისტორია და პრინციპები.

განხილულია ინფორმაციის მოძიების მეთოდების გამოყენებისა და განვითარების საკითხები, ტექსტისა და ბმულების რეიტინგიდან დაწყებული მანქანური სწავლებამდე, ინტერნეტის ძიების პრობლემაში რანჟირებამდე. ძირითადი პრინციპები, რომლებიც საფუძვლად უდევს თანამედროვე ვებ რეიტინგს, ასახულია საძიებო სისტემის წარმატების ისტორიებთან დაკავშირებით. განსაკუთრებული ყურადღება ეთმობა ძიების ხარისხის გავლენას ბაზრის მაჩვენებლებიდა მის გასაუმჯობესებლად მუდმივი მუშაობის სასიცოცხლო აუცილებლობა.

2010 წლის 15 ოქტომბერი
18:20
ვიტალი გოლდშტეინი , დეველოპერი, Yandex.

გეოინფორმაციული სერვისები Yandex.

ის მოგვითხრობს Yandex.Traffic პროექტზე და Yandex-ის სხვა გეოინფორმაციულ პროექტებზე, იმის შესახებ, თუ საიდან მოდის მშენებლობის წყაროს მონაცემები. გეო ინფორმაციული სისტემები, ახალი მასშტაბური მონაცემთა დამუშავების ტექნოლოგიის შესახებ, ინტერნეტ მათემატიკის კონკურსისა და რამდენიმე პერსპექტიული პრობლემის შესახებ. მოწოდებულია მონაცემები და მოცემულია საგზაო რუკის რეკონსტრუქციის პრობლემის ფორმალური ფორმულირება.

  • გამოყენებული ამოცანის გვერდი: გზის გრაფიკის აგება სატრანსპორტო საშუალების ლიანდაგზე მონაცემების გამოყენებით (ამოცანა მონაცემებით).
2010 წლის 22 ოქტომბერისემინარი გაუქმდა.
2010 წლის 29 ოქტომბერი
18:20
ფედორ კრასნოვი , ბიზნეს პროცესების ვიცე პრეზიდენტი და საინფორმაციო ტექნოლოგია, აკადო.

როგორ მივიღოთ მომხმარებლის მონაცემები?

მსხვილ მომხმარებლებთან მუშაობის ათწლეულების განმავლობაში, Force კომპანიამ დააგროვა დიდი გამოცდილება ბიზნესის ანალიზის სფეროში და ახლა აქტიურად ავითარებს დიდი მონაცემების ტექნოლოგიებს. CNews-თან ინტერვიუში ოლგა გორჩინსკაია, დირექტორი კვლევითი პროექტებიდა Big Data "Force"-ის ხელმძღვანელი.

15.10.2015

ოლგა გორჩინსკაია

ბოლო წლებში შეიცვალა ლიდერების თაობა. ახალი ხალხი მოვიდა კომპანიების სამართავად, რომლებმაც კარიერა უკვე ინფორმატიზაციის ეპოქაში შექმნეს და მიჩვეულები იყვნენ კომპიუტერის, ინტერნეტისა და მობილური მოწყობილობებიროგორ შიგნით Ყოველდღიური ცხოვრებისდა სამუშაო პრობლემების გადასაჭრელად.

CNews: რამდენად მოთხოვნადია BI ინსტრუმენტები? რუსული კომპანიები? არის თუ არა ცვლილებები ბიზნესის ანალიზის მიდგომაში: „Excel-ის სტილის ანალიტიკიდან“ ტოპ მენეჯერების მიერ ანალიტიკური ინსტრუმენტების გამოყენებამდე?

ოლგა გორჩინსკაია:

დღეს უკვე საკმაოდ დიდია ბიზნესის ანალიზის ინსტრუმენტების საჭიროება. მათ იყენებენ მსხვილი ორგანიზაციები ეკონომიკის თითქმის ყველა სექტორში. როგორც საშუალო, ისე მცირე ბიზნესი ასევე აცნობიერებს Excel-დან სპეციალიზებულ ანალიტიკურ გადაწყვეტილებებზე გადასვლის სარგებელს.

თუ ამ მდგომარეობას შევადარებთ კომპანიების მდგომარეობას ხუთი წლის წინანდელ მდგომარეობას, დავინახავთ მნიშვნელოვან პროგრესს. ბოლო წლებში შეიცვალა ლიდერების თაობა. ახალი ხალხი მოვიდა კომპანიების სამართავად, რომლებმაც კარიერა უკვე ინფორმაციის ეპოქაში გააკეთეს და მიჩვეულები არიან კომპიუტერის, ინტერნეტისა და მობილური მოწყობილობების გამოყენებას როგორც ყოველდღიურ ცხოვრებაში, ასევე სამუშაო პრობლემების გადაჭრას.

CNews: მაგრამ მეტი პროექტი არ არის?

ოლგა გორჩინსკაია:

ცოტა ხნის წინ, ჩვენ აღვნიშნეთ მცირედი შემცირება ახალი დიდი BI პროექტების რაოდენობაში. პირველ რიგში, როლს თამაშობს რთული საერთო ეკონომიკური და პოლიტიკური ვითარება. ის აფერხებს დასავლური სისტემების დანერგვასთან დაკავშირებული ზოგიერთი პროექტის დაწყებას. ინტერესი გადაწყვეტილებებისადმი დაფუძნებული თავისუფლად გავრცელებულზე პროგრამული უზრუნველყოფაასევე აჭიანურებს BI პროექტების დაწყებას, რადგან ეს მოითხოვს ამ პროგრამული სეგმენტის წინასწარ შესწავლას. ბევრი ღია კოდის ანალიტიკური გადაწყვეტა არ არის საკმარისად მომწიფებული ფართო გამოყენებისთვის.

მეორეც, ბაზრის გარკვეული გაჯერება უკვე მოხდა. დღესდღეობით არ არის ბევრი ორგანიზაცია, რომელიც არ იყენებს ბიზნესის ანალიზს. და, როგორც ჩანს, დიდი კორპორატიული ანალიტიკური სისტემების დანერგვის აქტიური ზრდის დრო გადის.

და ბოლოს, მნიშვნელოვანია აღინიშნოს, რომ მომხმარებლები ახლა ცვლის აქცენტს BI ინსტრუმენტების გამოყენებაზე, რაც ხელს უშლის პროექტების რაოდენობის ზრდას, რომელსაც ჩვენ შეჩვეული ვართ. ფაქტია, რომ წამყვანი მომწოდებლები - Oracle, IBM, SAP - აშენებენ თავიანთ BI გადაწყვეტილებებს მონაცემთა ერთიანი, თანმიმდევრული ლოგიკური მოდელის იდეაზე, რაც ნიშნავს, რომ რაიმეს გაანალიზებამდე აუცილებელია მკაფიოდ განისაზღვროს და შეათანხმოს ყველა კონცეფცია და ინდიკატორები.

აშკარა უპირატესობებთან ერთად, ეს იწვევს ბიზნეს მომხმარებელთა დიდ დამოკიდებულებას IT სპეციალისტებზე: თუ საჭიროა ახალი მონაცემების განხილვის ზონაში ჩართვა, ბიზნესი მუდმივად უნდა მიმართოს IT-ს მონაცემების ჩამოსატვირთად, არსებულის ჰარმონიზაციისთვის. სტრუქტურები, ჩართვა ზოგად მოდელში და ა.შ. დ. ახლა ჩვენ ვხედავთ, რომ ბიზნესს მეტი თავისუფლება სურს და იმისთვის, რომ შეძლონ ახალი სტრუქტურების დამოუკიდებლად დამატება, მათი ინტერპრეტაცია და ანალიზი საკუთარი შეხედულებისამებრ, მომხმარებლები მზად არიან შესწირონ კორპორატიული თანმიმდევრულობის გარკვეული ნაწილი.

ამიტომ, მსუბუქი ხელსაწყოები ახლა მოდის წინა პლანზე, რაც საშუალებას აძლევს საბოლოო მომხმარებლებს უშუალოდ იმუშაონ მონაცემებთან და არ ინერვიულონ იმდენად კორპორატიულ დონეზე თანმიმდევრულობაზე. შედეგად, ჩვენ ვხედავთ წარმატებებს Tableaux-სა და Qlick-ში, რომლებიც იძლევა მონაცემთა აღმოჩენის სტილში მუშაობის საშუალებას და ბაზრის გარკვეულ დაკარგვას გადაწყვეტილებების დიდი პროვაიდერების მიერ.

CNews: ეს განმარტავს, თუ რატომ ახორციელებს მრავალი ორგანიზაცია რამდენიმე BI სისტემას - ეს განსაკუთრებით შესამჩნევია ფინანსურ სექტორში. მაგრამ შეიძლება თუ არა ასეთი ინფორმატიზაცია ნორმალურად ჩაითვალოს?


ოლგა გორჩინსკაია

დღეს წამყვან როლს თამაშობს ის ხელსაწყოები, რომლებსაც ადრე ძალიან მსუბუქად ვთვლიდით საწარმოს დონისთვის. ეს არის Data Discovery კლასის გადაწყვეტილებები.

ოლგა გორჩინსკაია:

მართლაც, პრაქტიკაში, დიდი ორგანიზაციები ხშირად იყენებენ არა ერთ, არამედ რამდენიმე დამოუკიდებელ ანალიტიკურ სისტემას, თითოეულს აქვს საკუთარი BI ინსტრუმენტები. კორპორატიული მასშტაბის ანალიტიკური მოდელის იდეა ცოტათი უტოპია აღმოჩნდა და არც თუ ისე პოპულარულია და ზღუდავს ანალიტიკური ტექნოლოგიების პოპულარიზაციას, რადგან პრაქტიკაში თითოეულ განყოფილებას, ან თუნდაც ინდივიდუალურ მომხმარებელს სურს დამოუკიდებლობა და თავისუფლება. არაფერია ამაში საშინელი. ყოველივე ამის შემდეგ, იმავე ბანკში რისკის სპეციალისტებს და მარკეტოლოგებს სჭირდებათ სრულიად განსხვავებული BI ინსტრუმენტები. აქედან გამომდინარე, სავსებით ნორმალურია, როდესაც კომპანია ირჩევს არა ერთიან გადაწყვეტას ყველა ამოცანისთვის, არამედ რამდენიმე მცირე სისტემას, რომლებიც ყველაზე შესაფერისია ცალკეული განყოფილებებისთვის.

დღეს წამყვან როლს თამაშობს ის ხელსაწყოები, რომლებსაც ადრე ძალიან მსუბუქად ვთვლიდით საწარმოს დონისთვის. ეს არის Data Discovery კლასის გადაწყვეტილებები. ისინი დაფუძნებულია მონაცემებთან მუშაობის სიმარტივის, სიჩქარის, მოქნილობისა და ანალიზის შედეგების ადვილად გასაგებად წარმოდგენის იდეაზე. ასეთი ხელსაწყოების მზარდი პოპულარობის კიდევ ერთი მიზეზი არსებობს: კომპანიები სულ უფრო მეტად გრძნობენ საჭიროებას იმუშაონ ცვალებადი სტრუქტურის ინფორმაციასთან, ზოგადად არასტრუქტურირებული, „ბუნდოვანი“ მნიშვნელობით და არა ყოველთვის მკაფიო მნიშვნელობით. ამ შემთხვევაში, უფრო მოქნილი ინსტრუმენტებია მოთხოვნადი, ვიდრე კლასიკური ბიზნეს ანალიზის ინსტრუმენტები.

„ფორსმა“ შექმნა ევროპაში ყველაზე დიდი და რუსეთში უნიკალური – Fors Solution Center. მისი მთავარი ამოცანაა დაახლოება უახლესი ტექნოლოგიები Oracle-ის საბოლოო მომხმარებელს, რათა დაეხმაროს პარტნიორებს მათ განვითარებასა და გამოყენებაში, რაც შეიძლება ხელმისაწვდომი გახადონ აღჭურვილობისა და პროგრამული უზრუნველყოფის ტესტირების პროცესები. ეს არის ერთგვარი მონაცემთა ცენტრი პარტნიორების მიერ სისტემებისა და ღრუბლოვანი გადაწყვეტილებების შესამოწმებლად.

CNews: როგორ ეხმარება დიდი მონაცემთა ტექნოლოგიები ბიზნეს ანალიტიკის განვითარებას?

ოლგა გორჩინსკაია:

ეს სფეროები - დიდი მონაცემები და ბიზნეს ანალიტიკა - უახლოვდება ერთმანეთს და, ჩემი აზრით, მათ შორის საზღვარი უკვე ბუნდოვანია. მაგალითად, მოწინავე ანალიტიკა განიხილება "დიდი მონაცემები" მიუხედავად იმისა, რომ ის არსებობდა დიდი მონაცემების მოსვლამდე. დღესდღეობით, ინტერესი მანქანური სწავლებისა და სტატისტიკის მიმართ იზრდება და ამ დიდი მონაცემთა ტექნოლოგიების დახმარებით შესაძლებელია გათვლებსა და ვიზუალიზაციაზე ორიენტირებული ტრადიციული ბიზნეს სისტემის ფუნქციონირების გაფართოება.

გარდა ამისა, მონაცემთა საწყობების კონცეფცია გაფართოვდა Hadoop ტექნოლოგიის გამოყენებით, რამაც განაპირობა ახალი სტანდარტების შექმნა კორპორატიული შენახვისთვის "მონაცემთა ტბების" სახით.

CNews: რა არის ყველაზე პერსპექტიული ამოცანები, რომლებისთვისაც გამოიყენება დიდი მონაცემთა გადაწყვეტილებები?

ოლგა გორჩინსკაია:

ჩვენ ვიყენებთ დიდი მონაცემთა ტექნოლოგიებს BI პროექტებში რამდენიმე შემთხვევაში. პირველი არის, როდესაც აუცილებელია არსებული მონაცემთა საწყობის მუშაობის გაუმჯობესება, რაც ძალზე მნიშვნელოვანია იმ პირობებში, როდესაც კომპანიებს იყენებენ ინფორმაციის სწრაფად მზარდი მოცულობები. ნედლეული მონაცემების შენახვა ტრადიციულ რელაციურ მონაცემთა ბაზებში ძალიან ძვირია და სულ უფრო მეტად მოითხოვს დამუშავების ძალას. ასეთ შემთხვევებში უფრო აზრიანია Hadoop-ის ინსტრუმენტარიუმის გამოყენება, რომელიც ძალიან ეფექტურია თავისი არქიტექტურის გამო, მოქნილი, ადაპტირებადი კონკრეტულ საჭიროებებზე და მომგებიანი ეკონომიკური თვალსაზრისით, რადგან ის დაფუძნებულია ღია კოდის გადაწყვეტაზე.

კერძოდ, Hadoop-ის გამოყენებით, ჩვენ გადავწყვიტეთ არასტრუქტურირებული მონაცემების ერთ დიდში შენახვისა და დამუშავების პრობლემა. რუსული ბანკი. IN ამ შემთხვევაშიჩვენ ვსაუბრობდით რეგულარულად შემოსული მონაცემების დიდი მოცულობის შესახებ, ცვალებადი სტრუქტურით. ეს ინფორმაცია უნდა იყოს დამუშავებული, გაანალიზებული, მისგან ამოღებული რიცხვითი ინდიკატორები და ასევე უნდა იყოს შენახული ორიგინალური მონაცემები. შემომავალი ინფორმაციის მოცულობის მნიშვნელოვანი ზრდის გათვალისწინებით, ამისთვის რელაციური შენახვის გამოყენება ძალიან ძვირი და არაეფექტური გახდა. ჩვენ შევქმენით ცალკე Hadoop კლასტერი დამუშავებისთვის პირველადი დოკუმენტები, რომლის შედეგები იტვირთება ურთიერთობის საცავში ანალიზისა და შემდგომი გამოყენებისთვის.

მეორე მიმართულება არის მოწინავე ანალიტიკური ინსტრუმენტების დანერგვა BI სისტემის ფუნქციონირების გასაფართოებლად. ეს ძალიან პერსპექტიული სფეროა, ვინაიდან ასოცირდება არა მხოლოდ IT პრობლემების გადაჭრასთან, არამედ ახალი ბიზნეს შესაძლებლობების შექმნასთან.

სიღრმისეული ანალიტიკის განსახორციელებლად სპეციალური პროექტების ორგანიზების ნაცვლად, ვცდილობთ გავაფართოვოთ არსებული პროექტების არეალი. მაგალითად, თითქმის ნებისმიერი სისტემისთვის სასარგებლო ფუნქციაა ინდიკატორების პროგნოზირება არსებული ისტორიული მონაცემების საფუძველზე. ეს არც ისე მარტივი ამოცანაა, ის მოითხოვს არა მხოლოდ ინსტრუმენტებთან მუშაობის უნარებს, არამედ გარკვეულ მათემატიკურ მომზადებას, სტატისტიკის და ეკონომეტრიის ცოდნას.

ჩვენს კომპანიას ჰყავს მონაცემთა მეცნიერთა თავდადებული გუნდი, რომლებიც აკმაყოფილებენ ამ მოთხოვნებს. მათ დაასრულეს პროექტი ჯანდაცვის სფეროში მარეგულირებელი ანგარიშგების გენერირების შესახებ და დამატებით ამ პროექტის ფარგლებში განხორციელდა დატვირთვის პროგნოზირება. სამედიცინო ორგანიზაციებიდა მათი სეგმენტაცია სტატისტიკური მაჩვენებლები. ასეთი პროგნოზების ღირებულება მომხმარებლისთვის ნათელია, ეს არ არის მხოლოდ ახალი ეგზოტიკური ტექნოლოგიის გამოყენება, არამედ ანალიტიკური შესაძლებლობების სრულიად ბუნებრივი გაფართოება. შედეგად, სისტემის განვითარებისადმი ინტერესი გაღვივებულია და ჩვენთვის ახალი სამუშაოა. ახლა ჩვენ ანალოგიურად ვახორციელებთ პროგნოზირებადი ანალიტიკის ტექნოლოგიებს ქალაქის მართვის პროექტში.

და ბოლოს, ჩვენ გვაქვს დიდი მონაცემთა ტექნოლოგიების დანერგვის გამოცდილება, სადაც საუბარია არასტრუქტურირებული მონაცემების, პირველ რიგში, სხვადასხვა ტექსტური დოკუმენტების გამოყენებაზე. ინტერნეტი გთავაზობთ უზარმაზარ შესაძლებლობებს არასტრუქტურირებული ინფორმაციის უზარმაზარი მოცულობით, რომელიც შეიცავს სასარგებლო ინფორმაციას ბიზნესისთვის. ძალიან საინტერესო გამოცდილებაჩვენ ასოცირებული ვიყავით კომპანიის ROSECO-სთვის უძრავი ქონების ღირებულების შეფასების სისტემის შემუშავებასთან მოთხოვნით რუსული საზოგადოებაშემფასებლები. ანალოგური ობიექტების შესარჩევად სისტემა აგროვებდა მონაცემებს ინტერნეტში არსებული წყაროებიდან, ამუშავებდა ამ ინფორმაციას ლინგვისტური ტექნოლოგიების გამოყენებით და გაამდიდრებდა გეოანალიზის გამოყენებით მანქანათმცოდნეობის მეთოდების გამოყენებით.

CNews: რა საკუთრების გადაწყვეტილებებს ავითარებს Force ბიზნეს ანალიტიკისა და დიდი მონაცემების სფეროებში?

ოლგა გორჩინსკაია:

ჩვენ შევიმუშავეთ და ვამუშავებთ სპეციალურ გადაწყვეტას დიდი მონაცემების სფეროში – ForSMedia. ეს არის სოციალური მედიის მონაცემთა ანალიტიკური პლატფორმა მომხმარებლის ცოდნის გასამდიდრებლად. მისი გამოყენება შესაძლებელია სხვადასხვა ინდუსტრიებში: ფინანსურ სექტორში, ტელეკომში, საცალო ვაჭრობაში - ყველგან, სადაც მათ სურთ რაც შეიძლება მეტი იცოდნენ თავიანთი კლიენტების შესახებ.


ოლგა გორჩინსკაია

ჩვენ შევიმუშავეთ და ვამუშავებთ სპეციალურ გადაწყვეტას დიდი მონაცემების სფეროში – ForSMedia. ეს არის სოციალური მედიის მონაცემთა ანალიტიკური პლატფორმა მომხმარებლის ცოდნის გასამდიდრებლად.

გამოყენების ტიპიური შემთხვევაა მიზნობრივი მარკეტინგული კამპანიების შემუშავება. თუ კომპანიას ჰყავს 20 მილიონი მომხმარებელი, გაანაწილეთ ყველაფერი რეკლამებსმონაცემთა ბაზის მიხედვით ეს არარეალურია. თქვენ უნდა შეზღუდოთ რეკლამის მიმღებთა წრე და ობიექტური ფუნქციააქ - მომხმარებლის პასუხის გასაზრდელად მარკეტინგული შეთავაზება. ამ შემთხვევაში, ჩვენ შეგვიძლია ავტვირთოთ ძირითადი მონაცემები ყველა კლიენტის შესახებ (სახელი, გვარი, დაბადების თარიღი, საცხოვრებელი ადგილი) ForSMedia-ში და შემდეგ, სოციალური ქსელებიდან მიღებული ინფორმაციის საფუძველზე, შევავსოთ ისინი ახალი სასარგებლო ინფორმაციით, მათ შორის ინტერესთა სპექტრი, სოციალური მდგომარეობა, ოჯახის შემადგენლობა, რეგიონი პროფესიული საქმიანობა, მუსიკალური პრეფერენციები და ა.შ. რა თქმა უნდა, ასეთი ცოდნის პოვნა ყველა კლიენტს არ შეუძლია, რადგან მათი გარკვეული ნაწილი საერთოდ არ იყენებს სოციალურ ქსელებს, მაგრამ მიზნობრივი მარკეტინგისთვის ასეთი „არასრული“ შედეგიც კი უზარმაზარ უპირატესობას იძლევა.

Სოციალური მედიაძალიან მდიდარი წყაროა, თუმცა რთულია მუშაობა. არც ისე ადვილია მომხმარებლის იდენტიფიცირება - ადამიანები ხშირად იყენებენ თავიანთი სახელების სხვადასხვა ფორმებს, არ მიუთითებენ ასაკზე, პრეფერენციებზე და ადვილი არ არის მომხმარებლის მახასიათებლების გარკვევა მისი შეტყობინებების და გამოწერის ჯგუფების საფუძველზე.

ForSMedia პლატფორმა აგვარებს ყველა ამ პრობლემას დიდი მონაცემთა ტექნოლოგიების საფუძველზე და გაძლევთ საშუალებას მასიურად გაამდიდროთ მომხმარებელთა მონაცემები და გააანალიზოთ შედეგები. გამოყენებული ტექნოლოგიები მოიცავს Hadoop, R სტატისტიკური კვლევის გარემოს, RCO ლინგვისტური დამუშავების ხელსაწყოებს და მონაცემთა აღმოჩენის ინსტრუმენტებს.

ForSMedia პლატფორმა მაქსიმალურად იყენებს თავისუფლად გავრცელებულ პროგრამულ უზრუნველყოფას და შეიძლება დაინსტალირდეს ნებისმიერ აპარატურულ პლატფორმაზე, რომელიც აკმაყოფილებს ბიზნეს ამოცანის მოთხოვნებს. მაგრამ იმისთვის ძირითადი განხორციელებადა გაზრდილი შესრულების მოთხოვნებისთვის, ჩვენ გთავაზობთ სპეციალურ ვერსიას, რომელიც ოპტიმიზებულია Oracle-ის აპარატურულ და პროგრამულ სისტემებზე მუშაობისთვის - Oracle Big Data Appliance და Oracle Exalytics.

ინოვაციური ინტეგრირებული Oracle კომპლექსების გამოყენება დიდ პროექტებში ჩვენი საქმიანობის მნიშვნელოვანი სფეროა არა მხოლოდ ანალიტიკური სისტემების სფეროში. ასეთი პროექტები არ იქნება იაფი, მაგრამ გადაჭრის ამოცანების მასშტაბიდან გამომდინარე, ისინი სრულად გამართლებულია.

CNews: შეუძლიათ თუ არა მომხმარებლებს როგორმე შეამოწმონ ეს სისტემები შესყიდვის გადაწყვეტილების მიღებამდე? გთავაზობთ, მაგალითად, სატესტო სკამებს?

ოლგა გორჩინსკაია:

ამ მიმართულებით ჩვენ არ ვაძლევთ მხოლოდ სატესტო სკამებს, არამედ შევქმენით ყველაზე დიდი პლატფორმა ევროპაში და უნიკალური რუსეთში - Fors Solution Center. მისი მთავარი ამოცანაა Oracle-ის უახლესი ტექნოლოგიების მიახლოება საბოლოო მომხმარებელს, დაეხმაროს პარტნიორებს მათ განვითარებასა და გამოყენებაში და მაქსიმალურად ხელმისაწვდომი გახადოს აღჭურვილობისა და პროგრამული უზრუნველყოფის ტესტირების პროცესები. იდეა არსაიდან არ გაჩენილა. თითქმის 25 წელია Force ავითარებს და ახორციელებს გადაწყვეტილებებს Oracle-ის ტექნოლოგიებსა და პლატფორმებზე დაყრდნობით. ჩვენ გვაქვს როგორც კლიენტებთან, ასევე პარტნიორებთან მუშაობის დიდი გამოცდილება. სინამდვილეში, "ფორსი" არის Oracle-ის კომპეტენციის ცენტრი რუსეთში.

ამ გამოცდილების გათვალისწინებით, 2011 წელს, როდესაც Oracle Exadata მონაცემთა ბაზის ძრავის პირველი ვერსიები გამოჩნდა, ჩვენ შევქმენით ამ სისტემების დაუფლების პირველი ლაბორატორია, რომელსაც ვუწოდეთ ExaStudio. მის საფუძველზე, ათობით კომპანიას შეეძლო აღმოეჩინა ახალი Exadata პროგრამული და აპარატურის გადაწყვეტილებების შესაძლებლობები. საბოლოოდ, 2014 წელს, ჩვენ გადავაქციეთ იგი ერთგვარ მონაცემთა ცენტრად სისტემებისა და ღრუბლოვანი გადაწყვეტილებების შესამოწმებლად - ეს არის Fors Solution Center.

ახლა ჩვენი ცენტრი წარმოგიდგენთ Oracle-ის უახლესი პროგრამული და ტექნიკის სისტემების სრულ ხაზს - Exadata-დან და Exalogic-დან Big Data Appliance-მდე - რომელიც, ფაქტობრივად, მოქმედებს როგორც სატესტო სკამი ჩვენი პარტნიორებისა და კლიენტებისთვის. ტესტირების გარდა, აქ შეგიძლიათ მიიღოთ სერვისები საინფორმაციო სისტემების აუდიტის, ახალ პლატფორმაზე მიგრაციის, დაყენების, კონფიგურაციისა და სკალირების სერვისებისთვის.

ცენტრი აქტიურად ვითარდება ღრუბლოვანი ტექნოლოგიების გამოყენების მიმართულებით. არც ისე დიდი ხნის წინ, ცენტრის არქიტექტურა შეიცვალა ისე, რომ უზრუნველყოს მისი გამოთვლითი რესურსები და სერვისები ღრუბელში. ახლა მომხმარებელს შეუძლია ისარგებლოს თვითმომსახურების პროდუქტიულობის შესაძლებლობებით: ატვირთოს ტესტის მონაცემები, აპლიკაციები და განახორციელოს ტესტირება ღრუბლოვან გარემოში.

შედეგად, პარტნიორ კომპანიას ან მომხმარებელს შეუძლია, საკუთარ ტერიტორიაზე წინასწარი ინვესტიციების გარეშე, ატვირთოს საკუთარი აპლიკაციები ჩვენს ღრუბელში, შეამოწმოს, შეადაროს შესრულების შედეგები და მიიღოს გადაწყვეტილება ახალ პლატფორმაზე გადასვლის შესახებ.

CNews: და ბოლო კითხვა - რას წარადგენთ Oracle Day-ზე?

ოლგა გორჩინსკაია:

Oracle Day არის წლის მთავარი მოვლენა რუსეთში კორპორაციისა და მისი ყველა პარტნიორისთვის. „ფორსი“ არაერთხელ ყოფილა მისი გენერალური სპონსორი და წელსაც. ფორუმი მთლიანად დაეთმობა ღრუბლის თემებს - PaaS, SaaS, IaaS და ჩატარდება როგორც Oracle Cloud Day, ვინაიდან Oracle დიდ ყურადღებას უთმობს ამ ტექნოლოგიებს.

ღონისძიებაზე წარმოგიდგენთ ჩვენს ForSMedia პლატფორმას, ასევე ვისაუბრებთ ჩვენს გამოცდილებაზე დიდი მონაცემთა ტექნოლოგიებისა და პროექტების გამოყენებაში ბიზნეს ანალიტიკის სფეროში. და, რა თქმა უნდა, ჩვენ გეტყვით ჩვენი Fors Solution Center-ის ახალ შესაძლებლობებზე ღრუბლოვანი გადაწყვეტილებების შექმნის სფეროში.