TIBCO Spotfire: 빅 데이터 분석. 효과적인 비즈니스 인텔리전스 및 정성적 데이터 분석 고객 데이터를 얻는 방법

시각적 분석을 사용하여 빅데이터로 접근 가능한 작업

TIBCO Spotfire 플랫폼을 통해 빅 데이터에 숨겨진 정보를 사용하여 비즈니스 인텔리전스를 개선하고 일상적인 문제를 해결하세요. 비즈니스 사용자에게 IT 전문가나 특수 교육 없이도 모든 빅데이터 분석 기술을 사용할 수 있도록 직관적이고 사용자 친화적인 사용자 인터페이스를 제공하는 유일한 플랫폼입니다.

Spotfire 인터페이스를 사용하면 센서 판독값, 소셜 네트워크 정보, 판매 시점 또는 지리적 위치 소스 등 소규모 데이터 세트와 멀티 테라바이트 규모의 빅 데이터 클러스터를 모두 편리하게 사용할 수 있습니다. 모든 기술 수준의 사용자는 결합된 수십억 개의 데이터 포인트를 그래픽으로 표현한 시각화를 사용하여 통찰력 있는 대시보드와 분석 워크플로우에 쉽게 액세스할 수 있습니다.

예측 분석은 다음을 기반으로 수행하여 학습합니다. 경험을 공유하다회사는 더 많은 정보를 바탕으로 결정을 내릴 수 있습니다. Spotfire 예측 분석을 사용하면 비즈니스 인텔리전스 정보에서 새로운 시장 동향을 발견하고 위험을 최소화하기 위한 조치를 취하여 관리 결정의 품질을 향상시킬 수 있습니다.

검토

고성능 분석을 위한 빅데이터 연결

Spotfire는 Hadoop 및 기타 대규모 데이터 소스와의 원활한 통합을 통해 세 가지 주요 유형의 분석을 제공합니다.

  1. 주문형 분석: 초고속 대화형 데이터 시각화를 촉진하는 내장형, 사용자 구성 가능 데이터 커넥터
  2. 데이터베이스 분석(In-Database Analytics): 빅 데이터를 기반으로 복잡한 데이터 계산을 수행할 수 있는 분산 컴퓨팅 플랫폼과 통합됩니다.
  3. 분석 숫양(인메모리 분석): 기존 데이터 소스와 새로운 데이터 소스를 포함하여 모든 데이터 소스에서 직접 데이터를 가져오는 통계 분석 플랫폼과 통합됩니다.

이러한 통합 방법은 시각적 탐색과 고급 분석의 강력한 조합을 나타냅니다.
비즈니스 사용자는 강력하고 사용하기 쉬운 대시보드와 워크플로우를 통해 모든 데이터 소스의 데이터에 액세스하고 결합하고 분석할 수 있습니다.

빅데이터 커넥터

Spotfire 빅 데이터 커넥터는 데이터 소스 내, 메모리 내, 온디맨드 등 모든 유형의 데이터 액세스를 지원합니다. 내장 Spotfire 데이터 커넥터에는 다음이 포함됩니다.

  • Apache Hive, Apache Spark SQL, Cloudera Hive, Cloudera Impala, Databricks Cloud, Hortonworks, MapR Drill 및 Pivotal HAWQ용 인증된 Hadoop 데이터 커넥터
  • 기타 인증된 빅 데이터 커넥터로는 Teradata, Teradata Aster 및 Netezza가 있습니다.
  • OSI PI 터치 센서와 같은 소스의 과거 및 현재 데이터용 커넥터

데이터 소스 내 분산 컴퓨팅

데이터 소스에 분산된 데이터에 액세스하는 SQL 쿼리에 대한 작업을 시각적으로 선택하는 Spotfire의 편리한 기능 외에도 Spotfire는 데이터 소스 내에서 작동하고 Spotfire 시스템에서 시각화를 생성하는 데 필요한 결과만 반환하는 통계 및 기계 학습 알고리즘을 생성할 수 있습니다.

  • 사용자는 TERR 언어의 내장 기능을 사용하여 스크립트에 액세스하는 시각적 선택 기능을 갖춘 대시보드로 작업합니다.
  • TERR 스크립트는 Map/Reduce, H2O, SparkR 또는 Fuzzy Logix와 상호 작용하여 분산 컴퓨팅 기능 작업을 시작합니다.
  • 이러한 애플리케이션은 Hadoop이나 기타 데이터 소스와 같은 고효율 시스템에 액세스합니다.
  • TERR은 MapReduce 또는 Spark를 사용하여 관리되는 Hadoop 노드에 고급 분석 엔진으로 배포될 수 있습니다. TERR 언어는 Teradata 데이터 노드에도 사용할 수 있습니다.
  • 결과는 Spotfire에서 시각화됩니다.

고급 분석을 위한 TERR

TIBCO R용 엔터프라이즈 런타임(TERR) – TERR은 TIBCO가 S+와 관련된 수십 년간의 분석 경험을 활용하여 R 언어와 완벽하게 호환되도록 개발한 엔터프라이즈급 통계 패키지입니다. 이를 통해 고객은 개방형 R 코드를 사용하여 애플리케이션과 모델을 계속 개발할 수 있을 뿐만 아니라 코드를 다시 작성할 필요 없이 상업적으로 강력한 플랫폼에 R 코드를 통합하고 배포할 수 있습니다. TERR은 더 높은 효율성과 안정적인 메모리 관리 기능을 제공합니다. 고속오픈 소스 R 언어에 비해 많은 양의 데이터를 처리합니다.

모든 기능을 결합

위에서 언급한 강력한 기능의 조합은 매우 안정적인 분석이 필요한 가장 복잡한 작업의 경우에도 사용자가 간단하고 사용하기 쉬운 대화형 워크플로와 상호 작용할 수 있음을 의미합니다. 이를 통해 비즈니스 사용자는 비즈니스 분석의 기반이 되는 데이터 아키텍처의 세부 사항을 알 필요 없이 데이터를 시각화 및 분석하고 분석 결과를 공유할 수 있습니다.

예: 분실된 화물을 특성화하는 모델의 결과를 구성, 실행 및 시각화하기 위한 Spotfire 인터페이스. 이 인터페이스를 사용하면 비즈니스 사용자는 Hadoop 클러스터에 저장된 거래 및 배송 데이터에 액세스하여 TERR 및 H2O(분산 컴퓨팅 프레임워크)를 사용하여 계산을 수행할 수 있습니다.

빅데이터 분석 공간


고급 및 예측 분석

사용자는 시각적 선택 기능이 포함된 Spotfire 대시보드를 사용하여 쉽게 예측하고, 모델을 생성하고, 즉시 최적화할 수 있는 풍부한 고급 기능 세트를 실행합니다. 빅데이터를 사용하면 데이터 소스(In-Datasource) 내에서 분석을 수행하여 Spotfire 플랫폼에서 시각화를 생성하는 데 필요한 집계된 정보와 결과만 반환할 수 있습니다.


기계 학습

한 번의 클릭으로 사용할 수 있는 Spotfire의 내장 기능 목록에서 다양한 기계 학습 도구를 사용할 수 있습니다. 통계학자는 R 언어로 작성된 프로그램 코드에 액세스하여 사용되는 기능을 확장할 수 있습니다. 기계 학습 기능은 쉽게 재사용할 수 있도록 다른 사용자와 공유할 수 있습니다.

사용 가능 다음 방법 Spotfire 및 TERR의 연속 범주형 변수에 대한 기계 학습:

  • 선형 및 로지스틱 회귀
  • 의사결정 트리, 랜덤 포레스트 알고리즘, GBM(Gradient Boosting Machine)
  • 일반화된 선형(가법) 모델(일반화된 추가 모델)
  • 신경망


콘텐츠 분석

Spotfire는 이전에 사용되지 않았던 데이터의 분석 및 시각화를 제공합니다. 이는 문서, 보고서, 메모와 같은 소스에 저장된 구조화되지 않은 텍스트입니다. CRM 시스템, 웹사이트 로그, 소셜 네트워크 출판물 등.


위치 분석

다층 지도 고해상도빅데이터를 시각화하는 좋은 방법입니다. Spotfire의 풍부한 지도 기능을 사용하면 필요한 만큼 많은 참조 및 기능 레이어가 포함된 지도를 생성할 수 있습니다. Spotfire는 지도 작업 중에 정교한 분석을 사용할 수 있는 기능도 제공합니다. 게다가 지리적 지도시스템은 사용자 행동, 창고, 생산, 원자재 및 기타 여러 지표를 시각화하기 위한 지도를 생성합니다.

최근 정보 분석에 대한 이야기가 너무 많아 문제에 대해 완전히 혼란스러워질 수 있습니다. 많은 분들이 관심을 가져주셔서 좋네요 현재 주제. 유일한 나쁜 점은 이 용어를 통해 모든 사람이 문제에 대한 일반적인 그림을 갖지 못한 채 자신에게 필요한 것이 무엇인지 이해한다는 것입니다. 이 접근 방식의 단편화로 인해 현재 상황과 수행할 작업에 대한 이해가 부족해집니다. 모든 것은 서로 느슨하게 연결되어 있고 공통 핵심이 없는 조각들로 구성되어 있습니다. "패치워크 자동화"라는 말을 자주 들어보셨을 것입니다. 많은 사람들이 이전에 이 문제에 여러 번 직면했으며 이 접근 방식의 주요 문제점은 큰 그림을 보는 것이 거의 불가능하다는 점을 확인할 수 있습니다. 상황은 분석과 유사합니다.

각 분석 메커니즘의 위치와 목적을 이해하기 위해 전체적으로 살펴보겠습니다. 생각이 어떻게 탄생하는지 설명할 수 없기 때문에 사람이 어떻게 결정을 내리는지부터 시작하겠습니다. 이 과정에서 정보 기술이 어떻게 사용될 수 있는지에 집중하겠습니다. 첫 번째 옵션은 의사결정자(DM)가 컴퓨터를 데이터 검색 수단으로만 사용하고 독립적으로 결론을 내리는 것입니다. 이러한 유형의 문제를 해결하기 위해 보고 시스템, 다차원 데이터 분석, 차트 및 기타 시각화 방법이 사용됩니다. 두 번째 옵션: 프로그램은 데이터를 추출할 뿐만 아니라 정리, 스무딩 등과 같은 다양한 종류의 전처리도 수행합니다. 그리고 이러한 방식으로 처리된 데이터에 클러스터링, 분류, 회귀 등 수학적 분석 방법을 적용합니다. 이 경우 의사결정자는 원시 데이터가 아닌 고도로 처리된 데이터를 받습니다. 사람은 이미 컴퓨터로 준비된 모델을 가지고 작업하고 있습니다.

첫 번째 경우 의사 결정 메커니즘 자체와 관련된 거의 모든 것이 사람에게 맡겨지기 때문에 적절한 모델을 선택하고 처리 방법을 선택하는 문제는 분석 메커니즘의 한계를 뛰어 넘습니다. 의사결정의 기초는 지침(예: 편차에 대응하는 메커니즘을 구현하는 방법) 또는 직관입니다. 어떤 경우에는 이것으로 충분하지만 의사 결정자가 말하자면 상당히 깊은 지식에 관심이 있다면 여기서는 단순히 데이터 추출 메커니즘이 도움이 되지 않습니다. 더 심각한 처리가 필요합니다. 이것은 두 번째 경우입니다. 적용된 모든 전처리 및 분석 메커니즘을 통해 의사 결정자는 더 높은 수준의 작업을 수행할 수 있습니다. 높은 수준. 첫 번째 옵션은 전술적, 운영적 문제를 해결하는 데 적합하고, 두 번째 옵션은 지식을 복제하고 전략적 문제를 해결하는 데 적합합니다.

이상적인 경우는 두 가지 분석 접근 방식을 모두 사용할 수 있는 것입니다. 이를 통해 비즈니스 정보 분석에 대한 조직의 요구 사항을 거의 모두 충족할 수 있습니다. 작업에 따라 기술을 변경함으로써 어떤 경우에도 사용 가능한 정보를 최대한 활용할 수 있습니다.

일반적인 작업 계획은 다음과 같습니다.

비즈니스 정보를 분석하는 제품을 설명할 때 위험 관리, 예측, 시장 세분화 등의 용어를 사용하는 경우가 많습니다... 그러나 실제로 이러한 각 문제를 해결하려면 아래 설명된 분석 방법 중 하나를 사용하는 것으로 귀결됩니다. 예를 들어 예측은 회귀 문제이고, 시장 세분화는 클러스터링이며, 위험 관리는 클러스터링과 분류의 조합이며 다른 방법도 가능합니다. 따라서 이러한 기술 세트를 통해 우리는 대부분의 비즈니스 문제를 해결할 수 있습니다. 사실, 그것들은 특정 문제에 대한 해결책이 조합되는 원자적(기본) 요소입니다.

이제 회로의 각 부분을 개별적으로 설명하겠습니다.

의사결정에 유용할 수 있는 모든 정보를 사용해야 하기 때문에 데이터의 주요 소스는 기업 관리 시스템, 사무 문서, 인터넷의 데이터베이스여야 합니다. 게다가 우리 얘기 중이야조직 내부 정보뿐만 아니라 외부 데이터(거시경제 지표, 경쟁 환경, 인구통계학적 데이터 등).

데이터 웨어하우스는 분석 기술을 구현하지는 않지만 분석 시스템을 구축하는 기반이 됩니다. 데이터 웨어하우스가 없으면 분석에 필요한 정보를 수집하고 구성하는 데 대부분의 시간이 걸리며, 이는 분석의 모든 이점을 크게 무효화하게 됩니다. 결국, 그 중 하나는 주요 지표모든 분석 시스템은 신속하게 결과를 얻을 수 있습니다.

다이어그램의 다음 요소는 의미 계층입니다. 정보가 어떻게 분석되는지에 관계없이 대부분의 경우 분석된 데이터는 다양한 데이터베이스에 있고 의사결정자는 DBMS 작업의 뉘앙스를 파헤쳐서는 안 되기 때문에 의사결정자가 이해할 수 있어야 합니다. 용어를 변환하는 메커니즘을 만드는 것이 필요합니다. 주제 영역데이터베이스 액세스 메커니즘 호출 시. 이 작업은 의미 계층에 의해 수행됩니다. 모든 분석 응용 프로그램에 대해 동일한 것이 바람직하므로 문제에 대해 다른 접근 방식을 적용하는 것이 더 쉽습니다.

보고 시스템은 "무슨 일이 일어나고 있는지"라는 질문에 답하도록 설계되었습니다. 사용을 위한 첫 번째 옵션: 정기 보고서를 사용하여 운영 상황을 모니터링하고 편차를 분석합니다. 예를 들어, 시스템은 창고의 제품 잔고에 대한 일일 보고서를 준비하고 그 가치가 주간 평균 판매량보다 낮을 경우 구매 주문을 준비하여 이에 대응해야 합니다. 즉, 대부분의 경우 이는 표준화된 비즈니스 거래입니다. 대부분의 경우 이 접근 방식의 일부 요소는 회사에서 어떤 형태로든 구현되지만(문서상으로만 구현되더라도) 이것이 데이터 분석에 사용할 수 있는 유일한 접근 방식이 되어서는 안 됩니다. 보고 시스템 사용을 위한 두 번째 옵션: 임시 요청 처리. 의사 결정자가 어떤 생각(가설)을 테스트하고 싶을 때, 이러한 생각은 저절로 나오고 어떤 종류의 정보가 필요한지 정확히 알 수 없기 때문에 아이디어를 확인하거나 반박하는 생각의 양식을 얻어야 합니다. , 이 정보를 편리한 형식으로 신속하고 얻을 수 있는 도구가 필요합니다. 추출된 데이터는 일반적으로 표나 그래프 및 차트로 표시되지만 다른 표시도 가능합니다.

보고 시스템을 구축하는 데 다양한 접근 방식을 사용할 수 있지만 오늘날 가장 일반적인 접근 방식은 OLAP 메커니즘입니다. 기본 아이디어는 정보를 다차원 큐브 형태로 표시하는 것입니다. 여기서 축은 차원(예: 시간, 제품, 고객)을 나타내고 셀에는 표시기(예: 판매량, 평균 가격획득). 사용자는 측정값을 조작하고 원하는 상황에서 정보를 받습니다.

OLAP은 이해하기 쉽고 데이터 분석 엔진으로 널리 사용되기 때문에 예측과 같은 심층 분석 기능이 극히 제한적이라는 점을 이해해야 합니다. 예측 문제를 해결하는 데 있어 가장 큰 문제는 관심 있는 데이터를 표나 차트 형태로 추출하는 능력이 아니라 적절한 모델을 구축하는 것입니다. 그렇다면 모든 것이 아주 간단합니다. 기존 모델의 입력에 새로운 정보가 공급되어 이를 통과하고 그 결과가 예측이 됩니다. 그러나 모델을 구축하는 것은 완전히 사소한 작업이 아닙니다. 물론 이미 만들어진 여러 가지를 추가할 수도 있고 간단한 모델, 예를 들어 선형 회귀 또는 유사한 것, 종종 이것이 정확히 수행되는 작업이지만 문제가 해결되지는 않습니다. 실제 문제는 거의 항상 이러한 단순한 모델을 뛰어넘습니다. 결과적으로 이러한 모델은 명백한 종속성, 감지 값이 미미하고 이미 잘 알려진 것만 감지하거나 너무 대략적인 예측을 하므로 전혀 흥미롭지 않습니다. 예를 들어, 주식 시장에서 주식 가격을 분석할 때 내일 주식 가격이 오늘과 같을 것이라는 단순한 가정을 바탕으로 진행한다면 90%의 경우 귀하의 주장이 옳을 것입니다. 그리고 그러한 지식은 얼마나 가치가 있습니까? 나머지 10%만이 브로커의 관심 대상입니다. 대부분의 경우 원시 모델은 거의 동일한 수준의 결과를 제공합니다.

모델 구축에 대한 올바른 접근 방식은 모델을 단계별로 개선하는 것입니다. 비교적 대략적인 첫 번째 모델을 시작으로 새로운 데이터가 축적되고 모델이 실무에 적용됨에 따라 개선이 필요합니다. 예측 등을 수행하는 실제 작업은 보고 시스템의 메커니즘을 넘어서므로 이 방향으로 기다리면 안 됩니다. 긍정적인 결과 OLAP을 사용할 때 심층 분석 문제를 해결하기 위해 데이터베이스의 지식 발견이라는 이름으로 통합된 완전히 다른 기술 세트가 사용됩니다.

KDD(Knowledge Discovery in Databases)는 데이터를 지식으로 변환하는 프로세스입니다. KDD에는 데이터 준비, 정보 기능 선택, 데이터 정리, 데이터 마이닝(DM) 방법 적용, 데이터 후처리, 결과 해석 등의 문제가 포함됩니다. 데이터 마이닝은 인간 활동의 다양한 영역에서 의사 결정에 필요한 이전에 알려지지 않았고 사소하지 않으며 실질적으로 유용하고 해석 가능한 지식을 "원시" 데이터에서 발견하는 프로세스입니다.

이 접근 방식의 매력은 주제 영역에 관계없이 동일한 작업을 적용한다는 것입니다.

  1. 데이터를 추출합니다. 우리의 경우에는 의미 계층이 필요합니다.
  2. 데이터를 지웁니다. 분석을 위해 "더러운" 데이터를 사용하면 향후 사용되는 분석 메커니즘이 완전히 무효화될 수 있습니다.
  3. 데이터를 변환하세요. 다양한 분석 방법에는 특수한 형태로 준비된 데이터가 필요합니다. 예를 들어, 어떤 곳에서는 디지털 정보만 입력으로 사용될 수 있습니다.
  4. 실제 분석 – 데이터 마이닝을 수행합니다.
  5. 얻은 결과를 해석하십시오.

이 과정은 반복적으로 반복됩니다.

데이터 마이닝은 분류, 클러스터링, 회귀, 연관, 순서 및 편차 분석이라는 6가지 문제에 대한 솔루션만 제공합니다.

이것이 지식 추출 프로세스를 자동화하기 위해 수행해야 하는 전부입니다. 의사결정자라고도 알려진 전문가는 이미 추가 조치를 취하고 있습니다.

컴퓨터 처리 결과의 해석은 인간에게 달려 있습니다. 단지 다양한 방법다양한 생각의 음식을 제공합니다. 매우 간단한 케이스-이것들은 테이블과 다이어그램이며 더 복잡한 것에는 모델과 규칙이 있습니다. 인간의 참여를 완전히 배제하는 것은 불가능합니다. 하나 또는 다른 결과는 특정 주제 영역에 적용되기 전까지는 의미가 없습니다. 그러나 지식을 복제하는 것은 가능합니다. 예를 들어, 의사결정자는 어떤 방법을 사용하여 구매자의 신용도에 영향을 미치는 지표를 결정하고 이를 규칙의 형태로 제시합니다. 이 규칙은 대출 발행 시스템에 도입될 수 있으며 평가를 원활하게 진행함으로써 신용 위험을 크게 줄일 수 있습니다. 동시에 실제 문서 추출에 참여한 사람은 특정 결론에 대한 이유를 깊이 이해할 필요가 없습니다. 실제로 이는 한때 업계에서 사용되었던 방법을 지식 관리 분야로 이전한 것입니다. 주요 아이디어는 일회성 및 비통합 방식에서 컨베이어 방식으로 전환하는 것입니다.

위에서 언급한 모든 것은 단지 작업의 이름일 뿐입니다. 그리고 각각의 문제를 해결하기 위해 고전적인 기술부터 다양한 기술을 사용할 수 있습니다. 통계적 방법자가 학습 알고리즘으로 마무리됩니다. 실제 비즈니스 문제는 거의 항상 위의 방법 중 하나 또는 그 조합을 통해 해결됩니다. 거의 모든 업무 - 예측, 시장 세분화, 위험 평가, 성과 평가 광고 캠페인, 등급 경쟁 우위그리고 다른 많은 것 - 위에서 설명한 것들로 요약됩니다. 따라서 주어진 작업 목록을 해결하는 도구를 마음대로 사용하면 모든 비즈니스 분석 문제를 해결할 준비가 되었다고 말할 수 있습니다.

눈치 채셨다면 분석에 어떤 도구가 사용될지, 어떤 기술이 사용되는지 등에 대해서는 언급한 적이 없습니다. 작업 자체와 해결 방법은 도구에 의존하지 않습니다. 이것은 문제에 대한 유능한 접근 방식에 대한 설명 일뿐입니다. 무엇이든 사용할 수 있습니다. 유일한 중요한 점은 전체 작업 목록이 포함된다는 것입니다. 이 경우 실제로 완전한 기능을 갖춘 솔루션이 있다고 말할 수 있습니다. 작업의 작은 부분만 다루는 메커니즘이 "비즈니스 분석 문제에 대한 모든 기능을 갖춘 솔루션"으로 제안되는 경우가 많습니다. 대부분의 경우 OLAP만이 비즈니스 정보 분석 시스템으로 이해되므로 전체 분석을 수행하기에는 완전히 부족합니다. 두꺼운 광고 슬로건 아래에는 신고 시스템만 있을 뿐입니다. 이것 또는 그 분석 도구에 대한 효과적인 설명은 본질을 숨기지만 제안된 계획을 기반으로 구축하는 것만으로도 충분하며 실제 상황을 이해하게 될 것입니다.

(비즈니스 인텔리전스).

세미나에는 Microsoft, IBM, Google, Yandex, MTS 등 첨단 기술 기업에서 분석가로 성공적인 경력을 쌓고 있는 젊은 전문가들이 연사로 초대되어 학생들에게 비즈니스 문제에 대해 설명합니다. 이들 기업에서 해결하고 있는 데이터는 어떻게 축적되고, 데이터 분석 문제는 어떻게 발생하며, 이를 해결하려면 어떤 방법을 사용할 수 있는지 알아보겠습니다.

초대된 모든 전문가는 연락을 위해 열려 있으며 학생들은 조언을 위해 그들에게 연락할 수 있습니다.

세미나의 목표:

  • 대학 연구와 데이터 분석 분야의 실제 문제 해결 사이의 기존 격차를 해소하는 데 도움을 줍니다.
  • 현재 전문가와 미래 전문가 간의 경험 교환을 촉진합니다.
세미나는 금요일에 모스크바 주립 대학의 계산 수학 및 수학 학부에서 정기적으로 개최됩니다. 18:20 , 청중 P5(1층).

세미나 참석은 무료입니다(모스크바 주립대학교 입학허가증이 없는 경우, 교대근무 참가자 목록을 제출할 수 있도록 사전에 세미나 주최측에 성명을 알려 주시기 바랍니다.)

세미나 프로그램

날짜세미나의 발표자와 주제
2010년 9월 10일
18:20
알렉산더 에피모프 , 분석부장 소매 네트워크 MTS.

마케팅 캠페인 효과 예측 및 매장 구색 최적화.

  • 적용된 문제의 페이지: 소매점 구색 최적화(데이터 작업).
2010년 9월 17일
18:20
바딤 스트리조프 , 러시아 과학 아카데미 컴퓨팅 센터 연구원.

은행 신용 점수: 모델 자동 생성 및 선택 방법.

점수 카드를 구성하는 고전적인 기술과 새로운 기술을 고려합니다. 세미나에서는 고객 데이터를 구성하는 방법과 국제 은행 표준의 요구 사항을 충족하는 가장 그럴듯한 점수 모델을 생성하는 방법에 대해 설명합니다.

2010년 9월 24일
18:20
블라디미르 크레코텐 , Otkritie 중개회사의 마케팅 및 영업 책임자.

애플리케이션 수학적 방법고객 이탈을 예측하고 대응하기 위해.

분석에서 발생하는 실제적인 문제가 고려됩니다. 고객 기반마케팅에서. 클라이언트를 클러스터링 및 세분화하고, 신규 클라이언트에 점수를 매기고, 대상 세그먼트의 역학을 추적하는 작업이 설정됩니다.

  • 적용된 문제 페이지: 중개회사의 고객 클러스터링(데이터를 사용한 작업).
2010년 10월 1일
18:20
니콜라이 필리펜코프 , 연기 모스크바 은행 신용 평가 부서 책임자.

소매 신용 리스크 관리를 위한 수학적 방법 적용.

채점 모델 구성 및 위험 평가의 몇 가지 실제적인 측면이 고려됩니다.

  • 애플리케이션 문제 페이지: 소매 신용 위험 관리(데이터 문제) .
2010년 10월 8일
18:20
표도르 로마넨코 , Yandex 검색 품질 관리자.

웹 검색 순위의 역사와 원리.

텍스트 및 링크 순위 지정부터 기계 학습, 인터넷 검색 문제 순위 지정까지 정보 검색 방법을 사용하고 개발하는 문제가 고려됩니다. 최신 웹 순위의 기본 원칙은 검색 엔진 성공 사례와 관련하여 설명되어 있습니다. 검색 품질이 다음에 미치는 영향에 특히 주의를 기울입니다. 시장 지표이를 개선하기 위해 지속적으로 노력하는 것이 중요합니다.

2010년 10월 15일
18:20
비탈리 골드스타인 , 개발자, Yandex.

지리정보 서비스 Yandex.

Yandex.Traffic 프로젝트 및 기타 Yandex 지리정보 프로젝트에 대해 설명하고 건설 소스 데이터의 출처를 알려줍니다. 지역 정보 시스템, 새로운 확장 가능한 데이터 처리 기술, 인터넷 수학 경쟁 및 몇 가지 유망한 문제에 대해 설명합니다. 데이터가 제공되고 로드맵 재구성 문제에 대한 공식적인 공식이 제공됩니다.

  • 응용문제 페이지 : 차량궤도 데이터를 활용한 도로그래프 구축(데이터를 이용한 과제)
2010년 10월 22일세미나가 취소되었습니다.
2010년 10월 29일
18:20
표도르 크라스노프 , 비즈니스 프로세스 담당 부사장 및 정보 기술, 아카도.

고객 데이터를 얻는 방법은 무엇입니까?

포스컴퍼니는 수십 년 동안 대규모 고객과 협력해 왔으며 비즈니스 분석 분야에서 풍부한 경험을 축적해 왔으며 현재 빅데이터 기술을 적극적으로 개발하고 있습니다. CNews와의 인터뷰에서 Olga Gorchinskaya 이사는 연구 프로젝트빅데이터 "Force"의 책임자입니다.

15.10.2015

올가 고르친스카야

최근 몇 년 동안 리더 세대가 바뀌었습니다. 정보화 시대에 이미 경력을 쌓은 기업을 관리하기 위해 새로운 사람들이 왔고, 그들은 컴퓨터, 인터넷 및 컴퓨터 사용에 익숙했습니다. 모바일 장치에서와 같이 일상 생활그리고 업무 문제를 해결하기 위해.

CNews: BI 도구의 수요는 얼마나 됩니까? 러시아 기업? "Excel 스타일 분석"에서 최고 관리자의 분석 도구 사용으로 비즈니스 분석 접근 방식에 변화가 있습니까?

올가 고르친스카야:

오늘날 비즈니스 분석 도구에 대한 필요성은 이미 상당히 높습니다. 그들은 경제의 거의 모든 부문의 대규모 조직에서 사용됩니다. 중소기업과 중소기업 모두 Excel에서 특수 분석 솔루션으로 전환함으로써 얻을 수 있는 이점을 실현하고 있습니다.

5년 전 기업의 상황과 비교해 보면 상당한 진전이 있을 것이다. 최근 몇 년 동안 리더 세대가 바뀌었습니다. 정보화 시대에 이미 경력을 쌓은 기업을 관리하기 위해 새로운 사람들이 왔고, 그들은 일상 생활에서나 업무 문제를 해결하기 위해 컴퓨터, 인터넷, 모바일 장치를 사용하는 데 익숙합니다.

CNews: 그런데 더 이상 프로젝트가 없나요?

올가 고르친스카야:

최근 새로운 대규모 BI 프로젝트 수가 소폭 감소한 것으로 나타났습니다. 첫째, 복잡한 전반적인 경제, 정치 상황이 중요한 역할을 합니다. 서구 시스템 도입과 관련된 일부 프로젝트의 시작을 지연시키고 있습니다. 자유롭게 배포되는 솔루션에 대한 관심 소프트웨어또한 이 소프트웨어 부문에 대한 사전 연구가 필요하기 때문에 BI 프로젝트의 시작이 지연됩니다. 많은 오픈 소스 분석 솔루션은 널리 사용될 만큼 성숙하지 않습니다.

둘째, 시장이 이미 포화 상태에 이르렀습니다. 요즘에는 비즈니스 분석을 사용하지 않는 조직이 많지 않습니다. 그리고 분명히 대기업 분석 시스템 구현이 활발히 성장하는 시대가 지나가고 있습니다.

마지막으로, 이제 고객이 BI 도구 사용에 중점을 두고 있으며, 이로 인해 우리가 익숙한 프로젝트 수가 증가하는 것을 방해하고 있다는 점을 기억하는 것이 중요합니다. 사실 Oracle, IBM, SAP 등 주요 공급업체는 일관된 단일 논리적 데이터 모델이라는 아이디어를 바탕으로 BI 솔루션을 구축합니다. 즉, 무엇이든 분석하기 전에 모든 개념을 명확하게 정의하고 동의해야 함을 의미합니다. 지표.

명백한 이점과 함께 이로 인해 비즈니스 사용자가 IT 전문가에 크게 의존하게 됩니다. 고려 사항에 새로운 데이터를 포함해야 하는 경우 비즈니스는 지속적으로 IT에 의존하여 데이터를 다운로드하고 이를 조화시켜야 합니다. 기존 구조, 일반 모델에 포함 등 d. 이제 기업은 더 많은 자유를 원하며 사용자는 새로운 구조를 독립적으로 추가하고 재량에 따라 해석 및 분석할 수 있기 위해 기업 일관성의 일부를 기꺼이 희생할 의향이 있습니다.

따라서 최종 사용자가 기업 수준에서 일관성에 대해 크게 걱정하지 않고 데이터로 직접 작업할 수 있도록 하는 경량 도구가 이제 대두되고 있습니다. 그 결과, 데이터 검색 스타일의 작업을 가능하게 하는 Tableaux와 Qlick이 성공을 거두고 있으며 대규모 솔루션 제공업체에서는 일부 시장 손실을 겪고 있습니다.

CNews: 이는 많은 조직이 여러 BI 시스템을 구현하는 이유를 설명합니다. 이는 특히 금융 부문에서 두드러집니다. 그런데 이런 정보화가 정상이라고 볼 수 있을까?


올가 고르친스카야

오늘날에는 이전에 기업 수준에서 사용하기에는 너무 가볍다고 생각했던 도구가 주도적인 역할을 하고 있습니다. 이는 데이터 검색 클래스 솔루션입니다.

올가 고르친스카야:

실제로 대규모 조직에서는 단일이 아닌 여러 개의 독립적인 분석 시스템을 사용하는 경우가 많으며 각각에는 자체 BI 도구가 있습니다. 전사적 분석 모델에 대한 아이디어는 약간의 유토피아로 판명되었습니다. 실제로는 각 부서 또는 개별 사용자가 독립성을 원하고 분석 기술의 홍보를 제한하기도 했습니다. 자유. 그것에 대해 끔찍한 것은 없습니다. 결국, 같은 은행에서 리스크 전문가와 마케팅 담당자는 완전히 다른 BI 도구가 필요합니다. 따라서 회사가 모든 작업에 대해 부피가 큰 단일 솔루션을 선택하는 것이 아니라 개별 부서에 가장 적합한 여러 개의 소규모 시스템을 선택하는 것은 매우 정상적인 현상입니다.

오늘날에는 이전에 기업 수준에서 사용하기에는 너무 가볍다고 생각했던 도구가 주도적인 역할을 하고 있습니다. 이는 데이터 검색 클래스 솔루션입니다. 이는 데이터 작업의 단순성, 속도, 유연성 및 이해하기 쉬운 분석 결과 표시라는 아이디어를 기반으로 합니다. 이러한 도구의 인기가 높아지는 데에는 또 다른 이유가 있습니다. 기업은 일반적으로 구조화되지 않고 "모호한" 의미를 가지며 항상 명확한 가치는 아닌 변화하는 구조의 정보로 작업해야 할 필요성을 점점 더 느끼고 있습니다. 이 경우 기존 비즈니스 분석 도구보다 더 유연한 도구가 필요합니다.

"Fors"는 유럽에서 가장 크고 러시아에서 독특한 플랫폼인 Fors Solution Center를 만들었습니다. 주요 임무는 더 가까이 다가가는 것입니다. 최신 기술 Oracle은 최종 고객에게 파트너의 개발 및 응용 프로그램을 지원하고 장비 및 소프트웨어 테스트 프로세스를 최대한 접근 가능하게 만들기 위해 노력합니다. 파트너가 시스템과 클라우드 솔루션을 테스트하기 위한 일종의 데이터 센터입니다.

CNews: 빅 데이터 기술은 비즈니스 분석 개발에 어떻게 도움이 됩니까?

올가 고르친스카야:

빅데이터와 비즈니스 분석이라는 두 영역은 서로 더 가까워지고 있으며, 제 생각에는 둘 사이의 경계가 이미 모호해졌습니다. 예를 들어, 고급 분석은 빅 데이터 출현 이전에도 존재했지만 '빅 데이터'로 간주됩니다. 최근 머신러닝과 통계에 대한 관심이 높아지고 있으며, 이러한 빅데이터 기술의 도움으로 계산과 시각화에 중점을 두던 기존 비즈니스 시스템의 기능 확장이 가능해졌습니다.

또한 Hadoop 기술을 사용하여 데이터 웨어하우스의 개념이 확장되었으며, 이는 '데이터 레이크' 형태의 기업 스토리지 구축에 대한 새로운 표준으로 이어졌습니다.

씨뉴스: 빅데이터 솔루션이 활용되는 가장 유망한 업무는 무엇인가요?

올가 고르친스카야:

우리는 여러 경우에 BI 프로젝트에 빅데이터 기술을 사용합니다. 첫 번째는 기존 데이터 웨어하우스의 성능을 개선해야 하는 경우로, 이는 기업에서 사용되는 정보량이 급격히 증가하는 상황에서 매우 중요합니다. 기존 관계형 데이터베이스에 원시 데이터를 저장하는 것은 비용이 많이 들고 처리 능력이 점점 더 필요합니다. 이러한 경우 오픈 소스 솔루션을 기반으로 하기 때문에 매우 효율적이고 유연하며 특정 요구 사항에 적응할 수 있고 경제적인 관점에서 수익성이 높은 Hadoop 툴킷을 사용하는 것이 더 합리적입니다.

특히 Hadoop을 사용하여 비정형 데이터를 하나의 대규모 공간에 저장하고 처리하는 문제를 해결했습니다. 러시아 은행. 안에 이 경우우리는 구조가 변경되어 정기적으로 도착하는 대량의 데이터에 대해 이야기하고 있었습니다. 이 정보는 처리, 분석, 수치 표시를 추출해야 하며 원본 데이터도 저장해야 합니다. 들어오는 정보의 양이 크게 증가함에 따라 이를 위해 관계형 스토리지를 사용하는 것은 비용이 너무 많이 들고 비효율적이었습니다. 처리를 위해 별도의 Hadoop 클러스터를 만들었습니다. 기본 문서, 그 결과는 분석 및 추가 사용을 위해 관계형 저장소에 로드됩니다.

두 번째 방향은 BI 시스템의 기능을 확장하기 위한 심층 분석 도구를 도입하는 것입니다. 이는 IT 문제 해결뿐만 아니라 새로운 비즈니스 기회 창출과도 연관되어 있기 때문에 매우 유망한 분야입니다.

심층적인 분석을 구현하기 위해 특별한 프로젝트를 구성하는 대신, 기존 프로젝트의 범위를 확장하려고 합니다. 예를 들어, 거의 모든 시스템에서 유용한 기능은 사용 가능한 과거 데이터를 기반으로 지표를 예측하는 것입니다. 이것은 그렇게 간단한 작업이 아닙니다. 도구 작업 기술뿐만 아니라 특정 수학적 교육, 통계 및 계량 경제학 지식도 필요합니다.

우리 회사에는 이러한 요구 사항을 충족하는 데이터 과학자로 구성된 전담 팀이 있습니다. 그들은 규제 보고 생성에 관한 의료 분야의 프로젝트를 완료했으며 추가적으로 이 프로젝트의 프레임워크 내에서 워크로드 예측이 구현되었습니다. 의료단체그리고 그들의 세분화는 통계 지표. 고객에 대한 이러한 예측의 가치는 분명합니다. 그에게 이는 단지 새로운 이국적인 기술을 사용하는 것이 아니라 분석 기능이 완전히 자연스럽게 확장되는 것입니다. 결과적으로 시스템 개발에 대한 관심이 자극되고 우리에게는 새로운 작업이 이루어집니다. 이제 우리는 도시 관리 프로젝트에서 예측 분석 기술을 유사하게 구현하고 있습니다.

마지막으로, 우리는 비정형 데이터, 주로 다양한 텍스트 문서의 사용에 대해 이야기하는 빅 데이터 기술을 구현한 경험이 있습니다. 인터넷은 비즈니스에 유용한 정보를 포함하는 엄청난 양의 비정형 정보로 인해 큰 기회를 제공합니다. 매우 흥미로운 경험우리는 요청에 따라 ROSECO 회사의 부동산 가치를 평가하는 시스템 개발에 참여했습니다. 러시아 사회감정인. 아날로그 개체를 선택하기 위해 시스템은 인터넷 소스에서 데이터를 수집하고 언어 기술을 사용하여 이 정보를 처리하고 기계 학습 방법을 사용하는 지리 분석을 사용하여 이를 강화했습니다.

CNews: Force는 비즈니스 분석 및 빅 데이터 분야에서 어떤 독점 솔루션을 개발합니까?

올가 고르친스카야:

우리는 빅데이터 분야의 특별한 솔루션인 ForSMedia를 개발, 개발 중에 있습니다. 고객 지식을 풍부하게 하기 위한 소셜 미디어 데이터 분석 플랫폼입니다. 금융 부문, 통신, 소매 등 다양한 산업 분야에서 사용할 수 있으며 고객에 대해 최대한 많은 것을 알고 싶어하는 곳이라면 어디에서나 사용할 수 있습니다.


올가 고르친스카야

우리는 빅데이터 분야의 특별한 솔루션인 ForSMedia를 개발, 개발 중에 있습니다. 고객의 지식을 풍부하게 하기 위한 소셜미디어 데이터 분석 플랫폼입니다.

일반적인 사용 사례는 타겟 마케팅 캠페인의 개발입니다. 회사의 고객이 2천만 명이라면 모든 것을 배포하십시오. 광고데이터베이스에 따르면 그것은 비현실적입니다. 광고 수신자의 범위를 좁혀야 하며, 목적함수여기 – 고객 반응을 높이기 위해 마케팅 제안. 이 경우 모든 고객에 대한 기본 데이터(이름, 성, 생년월일, 거주지)를 ForSMedia에 업로드한 다음 소셜 네트워크의 정보를 기반으로 관심 분야, 사회적 지위, 가족 구성, 지역 전문적인 활동, 음악적 선호도 등 물론 특정 고객은 소셜 네트워크를 전혀 사용하지 않기 때문에 이러한 지식을 모든 고객에서 찾을 수는 없지만 타겟 마케팅의 경우 이러한 "불완전한"결과조차도 엄청난 이점을 제공합니다.

소셜 미디어작업하기는 어렵지만 매우 풍부한 소스입니다. 사용자 중에서 개인을 식별하는 것은 그리 쉽지 않습니다. 사람들은 종종 다른 형식의 이름을 사용하고, 나이, 선호도를 표시하지 않으며, 게시물 및 구독 그룹을 기반으로 사용자의 특성을 알아내는 것이 쉽지 않습니다.

ForSMedia 플랫폼은 빅데이터 기술을 기반으로 이러한 모든 문제를 해결하고 고객 데이터를 대량으로 풍부하게 하고 결과를 분석할 수 있도록 해줍니다. 사용되는 기술에는 Hadoop, R 통계 연구 환경, RCO 언어 처리 도구 및 데이터 검색 도구가 포함됩니다.

ForSMedia 플랫폼은 자유롭게 배포되는 소프트웨어를 최대한 활용하며 비즈니스 작업 요구 사항을 충족하는 모든 하드웨어 플랫폼에 설치할 수 있습니다. 하지만 주요 구현그리고 증가된 성능 요구 사항을 위해 Oracle 하드웨어 및 소프트웨어 시스템(Oracle Big Data Appliance 및 Oracle Exalytics)에서의 작동에 최적화된 특별 버전을 제공합니다.

사용 대규모 프로젝트혁신적인 통합 Oracle 컴플렉스는 분석 시스템 분야뿐만 아니라 우리 활동의 중요한 영역입니다. 이러한 프로젝트는 저렴하지는 않지만 해결되는 작업의 규모로 인해 완전히 정당화됩니다.

CNews: 고객이 구매 결정을 내리기 전에 이러한 시스템을 테스트할 수 있습니까? 예를 들어 테스트 벤치를 제공합니까?

올가 고르친스카야:

이러한 방향에서 우리는 테스트 벤치를 제공할 뿐만 아니라 유럽에서 가장 크고 러시아에서 독특한 플랫폼인 Fors Solution Center를 만들었습니다. 주요 임무는 최신 Oracle 기술을 최종 고객에게 더 가까이 제공하고, 파트너의 개발 및 적용을 지원하며, 장비 및 소프트웨어 테스트 프로세스를 최대한 접근 가능하게 만드는 것입니다. 아이디어는 갑자기 나온 것이 아닙니다. 거의 25년 동안 Force는 Oracle 기술 및 플랫폼을 기반으로 솔루션을 개발하고 구현해 왔습니다. 우리는 고객 및 파트너 모두와 협력한 광범위한 경험을 가지고 있습니다. 실제로 "Force"는 러시아에 있는 Oracle의 역량 센터입니다.

이러한 경험을 고려하여 2011년 Oracle Exadata 데이터베이스 엔진의 첫 번째 버전이 등장했을 때 우리는 이러한 시스템을 마스터하기 위한 첫 번째 실험실을 ExaStudio라고 만들었습니다. 이를 토대로 수십 개의 기업이 새로운 Exadata 소프트웨어 및 하드웨어 솔루션의 가능성을 발견할 수 있었습니다. 마침내 2014년에 우리는 이를 시스템 및 클라우드 솔루션 테스트를 위한 일종의 데이터 센터로 전환했습니다. 이것이 바로 Fors 솔루션 센터입니다.

이제 우리 센터는 Exadata 및 Exalogic에서 Big Data Appliance에 이르기까지 최신 Oracle 소프트웨어 및 하드웨어 시스템의 전체 라인을 제공하며 실제로 파트너와 고객을 위한 테스트 벤치 역할을 합니다. 테스트 외에도 여기에서는 정보 시스템 감사, 새 플랫폼으로 마이그레이션, 설정, 구성 및 확장을 위한 서비스를 받을 수 있습니다.

센터에서는 클라우드 기술을 활용하는 방향으로 활발히 발전하고 있습니다. 얼마 전 센터의 아키텍처는 컴퓨팅 리소스와 서비스를 클라우드에서 제공하는 방식으로 수정되었습니다. 이제 고객은 테스트 데이터, 애플리케이션을 업로드하고 클라우드 환경에 테스트를 수행하는 등 셀프 서비스 생산성 기능을 활용할 수 있습니다.

결과적으로 파트너 회사 또는 고객은 해당 지역의 장비 및 파일럿 프로젝트에 대한 사전 투자 없이 자체 애플리케이션을 클라우드에 업로드하고, 테스트하고, 성능 결과를 비교하고, 새로운 플랫폼으로 이동하는 것에 대한 결정을 내릴 수 있습니다.

CNews: 마지막 질문입니다. Oracle Day에서 무엇을 발표하실 예정인가요?

올가 고르친스카야:

Oracle Day는 회사와 모든 파트너를 위한 러시아의 주요 행사입니다. "Force"는 올해도 계속해서 일반 후원자였습니다. 포럼은 전적으로 클라우드 주제(PaaS, SaaS, IaaS)에 전념할 것이며 Oracle이 이러한 기술에 큰 관심을 기울이고 있기 때문에 Oracle Cloud Day로 개최될 것입니다.

행사에서 우리는 ForSMedia 플랫폼을 소개하고 비즈니스 분석 분야에서 빅 데이터 기술 및 프로젝트를 사용한 경험에 대해서도 이야기할 것입니다. 물론 클라우드 솔루션 구축 분야에서 Fors 솔루션 센터의 새로운 기능에 대해서도 알려드리겠습니다.