logo bigbox
Groundbreaking solutions. data transformation.

Whether your business is early in its journey or well on its way to digital transformation, our solutions and technologies help chart a path to success.

Learn more...

Why Bigbox

Choosing Bigbox
Reasons why companies choose us
About Us
Get closer with us
Events
Read the latest stories and product updates
Locations
Check our locations
Partners
see our partners

ADVANCED ANALYTICS AND DATA SCIENCE

1. Advanced Analytics and Data Science - (Memiliki lingkungan kerja analytics platform untuk pemodelan data berbasis machine learning yang lengkap dan mendukung pengembangan kolaboratif)

Kaggle menawarkan lingkungan Jupyter Notebooks tanpa pengaturan dan dapat disesuaikan. Akses GPU gratis dan repository data & code yang dipublish oleh komunitas

2. Advanced Analytics and Data Science - (Memiliki fungsi Evaluation Model (Confusion Matrix, Cross Validation, AUC))

Apache Spark:

  • Spark.mllib hadir dengan sejumlah algoritma machine learning yang dapat digunakan untuk belajar dan membuat prediksi pada data. Ketika algoritma ini diterapkan untuk membangun model machine learning, ada kebutuhan untuk mengevaluasi kinerja model pada beberapa kriteria, yang tergantung pada aplikasi dan persyaratannya. spark.mllib juga menyediakan rangkaian metrik untuk tujuan mengevaluasi kinerja model machine learning. Ada beberapa model evaluation:
    • Classification Model Evaluation
      • Binary Classification
        • Threshold Tuning
        • Multiclass Classification
          • Label based Metrics
        • Multilabel Classification
        • Ranking Systems
      • Regression Model Evaluation
    • Support untuk Evaluation model yang menggunakan Confusion Matrix, Cross Validation dan AUC

3. Advanced Analytics and Data Science - (Dapat melakukan monitoring terhadap model-model machine learning yang sudah di deploy)

Data Science -> AI/ML Model Management System (MLOps) Setiap SparkContext meluncurkan UI Web, secara default pada port 4040, yang menampilkan informasi berguna tentang aplikasi. Ini termasuk:

  • List Scheduler, Task dan Stage
  • Summary dari ukuran RDD dan utilisasi memori
  • Informasi Environment
  • Informasi dari executor yang berjalan

4. Advanced Analytics and Data Science - (Mendukung pemodelan data berbasis deep learning Data Science -> Machine Learning using Deep Learning)

  • Apache Spark adalah platform pengaktif utama untuk distributed deep learning, karena memungkinkan berbagai framework deep learning untuk diembed ke dalam framework Spark dalam pipeline end-to-end yang aman.

5. Advanced Analytics and Data Science - (Library/tools AI/ML nya mudah di upgrade atau diintegrasikan dengan library/tools terbaru jika diperlukan)

Data Science → Update/Upgrade Library untuk AI/ML

  • Apache Spark MLLib memungkinkan untuk update library menggunakan DataFrame-based API

6. Advanced Analytics and Data Science - (Mendukung jenis-jenis analytic seperti path analytic dan text analytic)

Data Science → ML Path and Text Analytic

  • Apache Spark mampu melakukan text analytic karena platfrom tersebut bersifat scalable dan distributed computing. Berupa:
    • Text Mining (Text Clustering, Data-Driven Topics)
    • Categorization (Tagging Data Unstructured ke dalam kategori dan sub-kategori; hirarki dan taksonomi)
    • Entity Extraction (Mengekstrak pattern seperti frase, alamat, kode produk, nomor telepon dll)
    • Sentiment Analysis (Tagging positif, negatif, netral dan sentimen level lainnya)
    • Deep Linguistics (Semantics. Understanding causality, purpose, time dll)

7. Advanced Analytics and Data Science - (Memiliki kemampuan descriptive analytics, predictive analytics, dan prescriptive analytics)

Data Science → Descriptive, Predictive dan Prescriptive Analytics

  • Apache Spark mampu untuk melakukan analytic seperti descriptive, prediktif dan preskriptif

8. Data Operation (Environment Management) - (Resource management untuk kegiatan data science)

Apache YARN:

  • YARN adalah untuk membagi fungsionalitas resource management dan job scheduling/monitoring menjadi daemon yang terpisah. Idenya adalah untuk memiliki ResourceManager (RM) global dan ApplicationMaster (AM) per aplikasi. Aplikasi adalah single job atau DAG dari beberapa job.
  • Apache YARN Resource Management (CGroups)
    • Memiliki fungsi untuk meng-isolate process berat yang menggunakan CPU. Apabila menggunakan CPU Scheduling, CGroups juga perlu digunakan untuk membatasi dan mengatur penggunaan CPU

9. Advanced Analytics and Data Science - (Mendukung sesi user Data Scientist yang interaktif dengan minimal Python dan R)

Data Science → Support Bahasa minimal Python dan R

  • Apache Spark support untuk bahasa seperti Java, Scala, Python, R, dan SQL
  • Zeppelin support untuk Spark, Python, dan SQL
  • Jupyter support untuk Spark, Python, R, dan Scala

10. Advanced Analytics and Data Science - (Memiliki fitur graph analytics)

Data Science → Graph Analytics

  • GraphX:
    • API Apache Spark untuk grafik dan komputasi paralel grafik.

11. Advanced Analytics and Data Science - (Mendukung streaming analytic seperti Spark Streaming)

Data Science → Spark Streaming

  • Spark Streaming adalah extension dari core Spark API yang memungkinkan pemrosesan aliran data langsung yang skalabel, throughput tinggi, dan fault-tolerant. Data dapat diserap dari banyak sumber seperti Kafka, Kinesis, atau soket TCP, dan dapat diproses menggunakan algoritma kompleks yang diekspresikan dengan fungsi tingkat tinggi seperti peta, perkecil, gabung, dan jendela. Terakhir, data yang diproses dapat dikirim ke sistem file, database, dan live dashboard. Bahkan, Anda dapat menerapkan machine learning dan algoritma pemrosesan grafik Spark pada aliran data.