Web Artisan

CLF-C02

Databases & Analytics

Panduan memilih layanan database dan analytics AWS untuk skenario bisnis, operasional, dan ujian CLF-C02.

Read ~70 menit baca

Modul · Database & Analytics

Databases & Analytics
CLF-C02

Belajar memilih laci data yang tepat: transaksi, cache, NoSQL, analitik, migrasi, dan visualisasi bisnis.

Target: CLF-C02~70 menit bacaDomain 3 · 34%
01

Database dan Analytics sebagai Rak Dapur Data

Mulai dari analogi, lalu definisi dan konteks ujian.

Bayangkan data perusahaan seperti bahan makanan di restoran: ada bahan yang harus cepat diambil, ada yang disimpan rapi, ada yang dianalisis untuk menentukan menu besok.

Kalau semua bahan ditaruh di satu rak, dapur akan kacau. Bumbu harian perlu dekat kompor, stok beras perlu gudang, data penjualan perlu laporan, dan riwayat sensor perlu rak khusus berdasarkan waktu. Di AWS, ide yang sama disebut purpose-built database dan analytics services: pilih layanan sesuai bentuk data, pola akses, kebutuhan skala, dan tujuan bisnis. Kenapa AWS repot menyediakan belasan layanan database, bukan satu database raksasa serbaguna? Karena tidak ada satu mesin yang optimal untuk semua pola sekaligus. Database yang jago transaksi cepat justru lambat saat diminta menjumlahkan satu miliar baris; database analitik yang jago menjumlahkan justru boros saat hanya mengubah satu baris pesanan. Memaksa satu alat untuk semua pekerjaan adalah resep lambat dan mahal.

Untuk CLF-C02, kamu tidak diminta menjadi database administrator mendalam. Kamu perlu tahu layanan mana untuk kasus apa, apa bedanya database operasional dan analytics, serta mana yang dikelola AWS versus tetap menjadi tanggung jawab pelanggan. AWS sendiri menempatkan database, migration, dan core service selection sebagai bagian dari kemampuan Cloud Practitioner untuk memposisikan layanan inti AWS pada use case umum.

🍳Analogi cepat

RDS seperti dapur restoran dengan resep tabel yang rapi, DynamoDB seperti loker super cepat berdasarkan nomor kunci, ElastiCache seperti meja saji sementara, Redshift seperti ruang analis penjualan, Athena seperti bertanya langsung ke tumpukan nota di gudang S3.

Peta Mental Database & Analytics AWS Transaksi SQL RDS & Aurora Data cepat ElastiCache & DynamoDB Data khusus DocumentDB, Neptune Timestream, Blockchain Data lake Amazon S3 Olah & query Glue, Athena, EMR Insight bisnis Redshift, QuickSight Pilih berdasarkan pola data: transaksi, kecepatan, relasi, waktu, migrasi, atau analitik.
Gambar 1. Peta mental layanan database dan analytics AWS untuk pemula CLF-C02.

Definisi sederhana

Database adalah tempat menyimpan dan mengambil data untuk aplikasi. Analytics adalah proses mengubah data menjadi insight, misalnya tren penjualan, pola fraud, atau laporan operasional. Di AWS, sebagian layanan fokus ke transaksi harian, sebagian fokus ke query besar, sebagian fokus ke migrasi, katalog, dan visualisasi. Membedakan dua dunia ini, transaksi versus analitik, adalah kunci membaca soal CLF-C02 dengan tenang.

Kenapa topik ini penting di CLF-C02?

CLF-C02 menekankan kemampuan mengenali layanan inti, memilih layanan untuk skenario umum, memahami keamanan dasar, dan memahami model biaya tingkat tinggi. Database dan analytics masuk terutama ke Domain 3 Cloud Technology and Services (34% soal), tetapi juga menyentuh Domain 2 Security and Compliance dan Domain 4 Billing, Pricing, and Support.

🎯Fokus ujian

Soal biasanya berbentuk skenario: aplikasi butuh database relasional terkelola, query SQL langsung ke S3, cache latency rendah, replikasi multi-Region, atau dashboard bisnis untuk manajer. Tugasmu mencocokkan kata kunci skenario dengan satu layanan, bukan menghafal konfigurasi.

02

Cara Memilih Database AWS

Mulai dari pertanyaan bisnis, bukan dari nama layanan.

Pertanyaan terbaik bukan “database AWS mana yang paling bagus?”, tetapi “data ini bentuknya apa dan akan dipakai bagaimana?”.

AWS menyediakan banyak layanan karena pola data berbeda-beda. Data order e-commerce biasanya butuh relasi dan transaksi. Keranjang belanja butuh akses sangat cepat. Log klik dari jutaan pengguna butuh analitik skala besar. Relasi teman, rekomendasi, dan fraud ring lebih cocok ke graph. Sensor suhu lebih cocok ke time series. Begitu kamu menamai bentuk data dan pola aksesnya, layanan yang tepat hampir selalu muncul sendiri.

Struktur data

Tabel relasional, key-value, dokumen JSON, graph, time series, atau file di S3.

Pola akses

Baca tulis transaksi, query ad-hoc, agregasi besar, lookup super cepat, atau analisis batch.

Skala dan operasi

Butuh serverless, multi-Region, read replica, cache, data warehouse, atau engine open-source tertentu.

Pohon Keputusan Memilih Database AWS Bentuk data apa? Mulai dari pola akses Tabel & transaksi SQL, relasi, konsisten Key-value besar Lookup per key cepat Bentuk khusus Dokumen, graph, waktu Analitik besar Agregasi & laporan RDS & Aurora DynamoDB DocumentDB · Neptune Timestream · Keyspaces Redshift · Athena EMR · OpenSearch Butuh lebih cepat lagi atau global? ElastiCache untuk cache milidetik di depan database utama. Aurora Global Database atau DynamoDB Global Tables untuk lintas Region.
Gambar 2. Pohon keputusan memilih database AWS: mulai dari bentuk data dan pola akses, lalu pertimbangkan kecepatan ekstra atau kebutuhan lintas Region.

Pola pemilihan layanan

KebutuhanLayanan yang sering tepatIngat untuk ujian
SQL, transaksi, skema tabelAmazon RDS, Amazon AuroraRelasional terkelola, bukan self-managed di EC2 kecuali butuh kontrol penuh.
Cache milidetik, session, leaderboardAmazon ElastiCacheIn-memory cache, bukan database utama untuk semua data permanen.
Key-value atau document NoSQL skala besarAmazon DynamoDBFully managed, serverless, cocok untuk akses berdasarkan key.
Data warehouse dan BI skala besarAmazon RedshiftAnalitik terstruktur (OLAP), bukan OLTP harian.
Query SQL langsung ke data di S3Amazon AthenaServerless, bayar berdasarkan data yang dipindai, memakai metadata seperti AWS Glue Data Catalog.
Dashboard dan visualisasi bisnisAmazon QuickSight (kini di Amazon Quick Suite)BI untuk insight yang mudah dibaca stakeholder.
ETL, katalog, transformasi dataAWS GlueData integration serverless dan Data Catalog.
Migrasi databaseAWS DMSMigrasi data dari dan ke database umum, termasuk cloud dan on-premises.

Dua sumbu pemilihan yang paling sering ditanya

Banyak soal sebenarnya menguji satu dari dua perbandingan besar: relasional versus NoSQL, dan transaksi (OLTP) versus analitik (OLAP). Kuasai dua sumbu ini dan sebagian besar skenario database langsung jelas.

RDS / Aurora · relasional (OLTP)
  • Skema tabel tetap dengan kolom dan tipe data jelas.
  • SQL, join antar tabel, dan transaksi multi-baris yang konsisten.
  • Skala vertikal dan read replica, ada batas ukuran instance.
  • Cocok: pesanan, pembayaran, inventori, sistem HR.
DynamoDB · NoSQL key-value
  • Schema-less, tiap item bisa punya atribut berbeda.
  • Akses berdasarkan primary key, bukan join kompleks.
  • Serverless dan skala horizontal nyaris tanpa batas.
  • Cocok: keranjang belanja, profil, IoT state, game state.
💡Aturan praktis

Untuk soal CLF-C02, jangan mencari layanan paling canggih. Cari kata kunci skenario: relational, cache, NoSQL, graph, time-series, data warehouse, SQL on S3, ETL, migration, dashboard.

03

Relasional: Amazon RDS dan Aurora

Untuk aplikasi yang butuh tabel, SQL, transaksi, dan integritas data.

Database relasional seperti buku besar akuntansi: kolomnya jelas, barisnya rapi, dan transaksi harus konsisten.

Amazon RDS adalah layanan database relasional terkelola yang memudahkan setup, operasi, dan scaling database di AWS. RDS menangani banyak tugas administrasi seperti patching, backup, failure detection, dan recovery, sehingga timmu tidak menghabiskan waktu untuk pekerjaan yang tidak membedakan bisnis. RDS mendukung enam engine: IBM Db2, MariaDB, Microsoft SQL Server, MySQL, Oracle Database, dan PostgreSQL.

Amazon Aurora adalah engine relasional fully managed yang kompatibel dengan MySQL dan PostgreSQL, berada di bawah payung Amazon RDS namun dirancang khusus untuk cloud. Untuk ujian, ingat bahwa Aurora bukan sekadar “RDS biasa”, melainkan engine database AWS dengan arsitektur storage terdistribusi yang dirancang untuk performa, ketersediaan, dan skalabilitas tinggi, sambil tetap memakai ekosistem MySQL atau PostgreSQL. Volume penyimpanan Aurora tumbuh otomatis sesuai kebutuhan, tanpa provisioning di muka, hingga maksimum sekitar 256 TiB per cluster.

Amazon RDS

Pilih saat ingin engine database populer yang dikelola AWS, misalnya MySQL, PostgreSQL, SQL Server, Oracle, MariaDB, atau Db2.

Amazon Aurora

Pilih saat ingin kompatibilitas MySQL atau PostgreSQL dengan kemampuan cloud-native AWS, storage yang tumbuh otomatis, dan opsi skalabilitas yang lebih tinggi.

Kapan dipakai?

  • Order e-commerce, pembayaran, inventori, sistem HR, atau aplikasi bisnis yang butuh transaksi dan relasi antar tabel.
  • Aplikasi yang ingin tetap memakai SQL dan tool database yang sudah dikenal tim.
  • Workload yang ingin mengurangi beban operasional dibanding mengelola database sendiri di EC2.

RDS terkelola versus database di EC2

Kamu tetap boleh memasang MySQL atau PostgreSQL sendiri di atas EC2. Bedanya, pada EC2 kamu yang mengurus instalasi engine, patch database, backup, replikasi, failover, dan tuning. Pada RDS, AWS menangani sebagian besar pekerjaan itu. Pilih EC2 hanya jika butuh kontrol penuh atas versi, ekstensi khusus, atau konfigurasi sistem operasi yang tidak didukung RDS.

⚠️Jebakan umum

Menjalankan database di EC2 memberi kontrol besar, tetapi AWS tidak otomatis mengelola engine database, patch database, backup aplikasi, dan tuning seperti layanan managed database. Beban operasional itu pindah ke timmu.

04

Opsi Deployment RDS dan Aurora

Single-AZ, Multi-AZ, Read Replica, Aurora Global Database, dan Aurora Serverless dalam bahasa pemula.

Opsi deployment database mirip memilih toko: satu toko hemat, cabang cadangan lebih tahan gangguan, cabang baca membantu antrean pelanggan.

Untuk Cloud Practitioner, kamu tidak perlu menghafal semua parameter. Yang penting adalah tahu tujuan setiap opsi deployment dan apa yang dioptimalkannya: ketersediaan, kapasitas baca, jangkauan global, atau elastisitas kapasitas.

Single-AZ

Database berada pada satu Availability Zone. Sederhana dan murah, tetapi bukan pilihan utama untuk high availability produksi.

Multi-AZ

Menambah salinan di Availability Zone lain untuk ketersediaan lebih baik dan failover otomatis pada gangguan tertentu.

Read Replica

Salinan untuk memperbesar kapasitas baca. Cocok saat query baca tinggi, bukan solusi utama untuk menulis lebih cepat.

Aurora Global Database

Aurora lintas Region: satu Region utama untuk write dan hingga banyak Region sekunder read-only untuk disaster recovery dan latency baca global.

Dua jenis Multi-AZ yang berbeda

RDS punya dua bentuk Multi-AZ yang sering tertukar, dan keduanya valid untuk CLF-C02. Bedanya terletak pada apakah salinan kedua bisa melayani lalu lintas baca.

Multi-AZ DB instance
  • Satu standby di AZ lain, replikasi sinkron.
  • Standby tidak melayani read traffic; ia hanya berjaga.
  • Fokus murni: high availability dan failover otomatis.
  • Tersedia untuk semua engine RDS yang didukung.
Multi-AZ DB cluster
  • Satu writer dan dua reader di tiga AZ berbeda.
  • Kedua reader dapat melayani read traffic.
  • Replikasi semi-sinkron, failover lebih cepat.
  • Hanya untuk engine MySQL dan PostgreSQL.

Aurora Replicas bukan RDS Read Replicas

Ini perbedaan halus yang sering disalahpahami. RDS Read Replicas memakai replikasi asinkron dan punya storage terpisah dari primary, sehingga bisa ada jeda data dan failover relatif lebih lambat. Aurora Replicas berbagi satu storage terdistribusi yang sama dengan writer, sehingga tidak ada penyalinan data antar node, jeda sangat kecil, dan failover bisa terjadi dalam hitungan puluhan detik. Aurora cluster mendukung hingga 15 Aurora Replicas yang juga berperan sebagai target failover.

Serverless di database

Aurora Serverless v2 menjalankan Aurora dengan kapasitas yang menyesuaikan kebutuhan secara otomatis dalam satuan ACU (Aurora Capacity Units), tanpa mengelola ukuran instance secara manual. Ini cocok untuk workload variabel, development, testing, atau aplikasi dengan lonjakan yang tidak stabil. Aurora Serverless v2 bahkan dapat menjadi reader di Region sekunder pada Aurora Global Database. Untuk ujian, cukup kenali ide besarnya: kapasitas database dapat menyesuaikan demand.

🧠Jebakan soal

Multi-AZ fokus ke high availability, Read Replica fokus ke scaling baca, backup dan snapshot fokus ke pemulihan data, dan Global Database fokus ke skenario lintas Region. Jangan tukar tujuan-tujuan ini.

05

Cache: Amazon ElastiCache

Untuk data panas yang harus diambil sangat cepat.

Cache seperti catatan pesanan yang ditempel di dekat kasir: bukan sumber kebenaran utama, tetapi mempercepat pekerjaan yang sering diulang.

Amazon ElastiCache adalah layanan terkelola untuk cache in-memory. AWS mendokumentasikan ElastiCache sebagai layanan yang memudahkan setup, pengelolaan, dan scaling lingkungan cache terdistribusi di cloud. Engine yang didukung mencakup Valkey, Redis OSS, dan Memcached. Perhatikan penamaannya: AWS menyebut “Redis OSS” (bukan sekadar “Redis”) untuk membedakan dari layanan Redis berbayar, sedangkan Valkey adalah fork open-source dari Redis yang menjadi engine tersendiri, bukan bagian dari Redis OSS.

Kapan dipakai?

  • Menyimpan session login, token sementara, hasil query populer, leaderboard game, atau data yang sering dibaca.
  • Mengurangi beban database utama karena request yang sama tidak perlu selalu membaca RDS atau DynamoDB.
  • Memperbaiki latency aplikasi saat data dapat disimpan sementara di memori dan diambil dalam milidetik.

Valkey atau Redis OSS

Cocok untuk struktur data lebih kaya, pub/sub, sorted set, replikasi, dan skenario cache modern.

Memcached

Cocok untuk cache sederhana key-value dengan pendekatan ringan dan mudah diskalakan horizontal.

🔥Kesalahan pemula

Jangan memperlakukan cache sebagai satu-satunya tempat menyimpan data penting. Cache dapat kedaluwarsa, dihapus, atau dibangun ulang dari database utama. Sumber kebenaran tetap di RDS, Aurora, atau DynamoDB.

🧠Catatan versi

ElastiCache untuk Redis OSS versi 4 dan 5 otomatis masuk Extended Support mulai 1 Februari 2026, dengan dukungan hingga tiga tahun setelah end of standard support. Extended Support biasanya menambah biaya, jadi rencanakan upgrade versi bila relevan.

06

NoSQL Key-Value: Amazon DynamoDB

Untuk skala besar, latency rendah, dan akses berdasarkan key.

DynamoDB seperti loker otomatis: masukkan nomor kunci, barang langsung ditemukan tanpa perlu mencari seluruh gudang.

Amazon DynamoDB adalah database NoSQL fully managed dan serverless. AWS menjelaskan DynamoDB sebagai layanan yang menghilangkan beban administrasi database terdistribusi seperti provisioning hardware, setup, konfigurasi, replikasi, patching, dan scaling cluster. Kamu cukup memikirkan data dan pola aksesnya, sisanya ditangani AWS.

Konsep utama

  • Table: tempat kumpulan item.
  • Item: satu record, mirip satu baris, tetapi fleksibel dan boleh punya atribut berbeda.
  • Attribute: field di dalam item.
  • Primary key: cara utama menemukan item, bisa partition key saja atau partition key plus sort key.
  • Capacity mode: cara membaca dan menulis dibayar dan diskalakan, misalnya on-demand untuk pola tidak menentu atau provisioned untuk pola stabil.

Global Tables

DynamoDB Global Tables mereplikasi data tabel antar AWS Region. AWS mendokumentasikan global tables sebagai replikasi multi-Region yang bersifat multi-active: setiap replica dapat menerima read dan write, bukan satu Region aktif dan sisanya pasif. Tersedia dua mode konsistensi: Multi-Region Eventual Consistency (MREC, default) dan Multi-Region Strong Consistency (MRSC, hanya untuk global tables same-account). Untuk ujian, kata kunci pentingnya adalah multi-Region, multi-active, high availability, business continuity, dan latency global.

Cocok untuk

Profil pengguna, keranjang belanja, metadata, IoT device state, game state, atau aplikasi web skala besar dengan akses berdasarkan key.

Kurang cocok untuk

Query relasional kompleks, join berat, laporan analitik besar, atau transaksi SQL tradisional multi-tabel.

🎯Pola soal

Jika skenario menyebut NoSQL, key-value, serverless, skala besar, dan latency rendah, DynamoDB sering menjadi jawaban terbaik. Jika menyebut aplikasi global yang butuh read dan write lokal di beberapa Region, arahnya DynamoDB Global Tables, bukan RDS Read Replica.

07

Purpose-Built Databases

DocumentDB, Neptune, Timestream, Keyspaces, MemoryDB, dan Managed Blockchain.

Tidak semua data cocok dimasukkan ke tabel SQL. Beberapa data lebih alami sebagai dokumen, hubungan, waktu, atau transaksi bersama antar organisasi.

AWS memiliki beberapa database yang dibuat untuk pola data tertentu. Di CLF-C02, kamu perlu mengenali nama layanan dan use case utamanya, bukan detail operasionalnya.

LayananJenis dataContoh skenarioKata kunci ujian
Amazon DocumentDBDokumen JSON, kompatibel MongoDBKatalog produk, profil pengguna fleksibel, content managementMongoDB-compatible, document database
Amazon NeptuneGraph, relasi antar entitasFraud detection, social network, knowledge graph, recommendationHighly connected data, graph relationships
Amazon TimestreamTime seriesIoT sensor, metrik aplikasi, telemetry, monitoring industriTime-stamped data, IoT, operational metrics
Amazon KeyspacesWide-column, kompatibel Apache CassandraWorkload Cassandra terkelola, katalog skala besarCassandra-compatible, serverless, high availability
Amazon MemoryDBIn-memory durableAplikasi yang butuh latency mikrodetik plus durabilitasIn-memory, durable, microsecond latency
Amazon Managed BlockchainBlockchain network dan akses blockchainTransaksi lintas pihak, pelacakan aset, integrasi Web3 tertentuDecentralized ledger, multiple parties, blockchain
⚠️Layanan yang sudah pensiun

Amazon QLDB (Quantum Ledger Database) telah mengakhiri dukungan pada 31 Juli 2025 dan tidak lagi tersedia untuk pemakaian baru. Untuk use case audit atau ledger, AWS merekomendasikan Amazon Aurora PostgreSQL. Jangan memilih QLDB sebagai jawaban pada materi terbaru.

Contoh nyata

Sebuah marketplace bisa memakai RDS untuk transaksi pembayaran, DynamoDB untuk keranjang, ElastiCache untuk session, DocumentDB untuk metadata produk fleksibel, Neptune untuk rekomendasi hubungan produk, Timestream untuk metrik operasional, Redshift untuk laporan penjualan, dan QuickSight untuk dashboard manajemen. Satu aplikasi nyata sering memakai banyak database sekaligus, masing-masing untuk pola data yang paling cocok.

🧭Cara mengingat

DocumentDB menyimpan dokumen, Neptune menghubungkan node seperti peta relasi, Timestream menyimpan data berdasarkan waktu, Keyspaces untuk Cassandra terkelola, MemoryDB menyimpan data in-memory yang tahan lama, dan Managed Blockchain berurusan dengan catatan transaksi bersama.

08

Analytics Stack: Redshift, EMR, Athena, QuickSight

Dari data mentah sampai dashboard bisnis.

Analytics seperti dapur riset restoran: data penjualan mentah diolah, ditanya dengan SQL, lalu ditampilkan sebagai laporan yang bisa dipahami pemilik bisnis.

Alur Data Lake dan Analytics AWS Sumber data DB, log, aplikasi Amazon S3 Data lake AWS Glue Catalog & ETL Athena Redshift Amazon QuickSight Dashboard & insight DMS dapat memigrasikan data Ingat alur ujian: simpan di S3, katalog dengan Glue, query dengan Athena atau Redshift, tampilkan dengan QuickSight.
Gambar 3. Alur umum data lake dan analytics AWS: S3 sebagai penyimpanan, Glue sebagai katalog dan ETL, Athena atau Redshift untuk query, QuickSight untuk visualisasi.

OLTP versus OLAP: dua dunia yang sering tertukar

Sebelum menamai layanan, pahami dulu dua jenis pekerjaan data. OLTP (Online Transaction Processing) adalah dunia transaksi harian: banyak operasi kecil dan cepat, menulis dan membaca per baris, harus konsisten dan terbaru. Inilah ranah RDS, Aurora, dan DynamoDB. OLAP (Online Analytical Processing) adalah dunia analitik: sedikit query tetapi sangat berat, menjumlahkan dan mengelompokkan jutaan baris untuk laporan dan tren. Inilah ranah Redshift, Athena, dan EMR. Memaksa Redshift menangani ribuan transaksi pesanan per detik, atau memaksa RDS menjumlahkan satu miliar baris untuk dashboard, sama-sama keliru arsitektur.

OLTP versus OLAP Database transaksi harian berbeda tujuan dengan database analitik. OLTP · Transaksi Amazon RDS, Aurora, DynamoDB Banyak operasi kecil & cepat Tulis dan baca per baris Contoh: simpan pesanan, login Latency rendah, data terbaru OLAP · Analitik Amazon Redshift, Athena, EMR Sedikit query besar & berat Agregasi jutaan baris Contoh: laporan tren penjualan Throughput besar, data historis ETL
Gambar 4. OLTP menangani banyak operasi kecil per baris untuk transaksi harian, OLAP menangani sedikit query berat yang mengagregasi jutaan baris untuk analitik.
OLTP · RDS / Aurora / DynamoDB
  • Banyak transaksi kecil dan cepat per detik.
  • Baca tulis per baris, data harus terbaru.
  • Disimpan per baris (row-oriented).
  • Contoh: catat pesanan, update saldo, simpan session.
OLAP · Redshift / Athena / EMR
  • Sedikit query besar yang memindai banyak data.
  • Agregasi, group by, tren historis.
  • Sering disimpan per kolom (columnar) untuk scan cepat.
  • Contoh: laporan penjualan kuartal, analisis perilaku.

Amazon Redshift

Amazon Redshift adalah data warehouse fully managed berskala petabyte dengan penyimpanan columnar untuk analitik cepat. Gunakan Redshift saat perusahaan ingin menganalisis data terstruktur dalam jumlah besar, membuat laporan BI, dan menjalankan query analitik kompleks. Tersedia juga Redshift Serverless yang menagih per RPU (Redshift Processing Unit) per detik tanpa mengelola cluster. Redshift bukan pengganti database transaksi harian seperti RDS.

Amazon EMR

Amazon EMR adalah platform terkelola untuk menjalankan framework big data seperti Apache Spark, Apache Hive, Apache Hudi, dan Presto di AWS. Gunakan EMR saat tim data perlu memproses data besar dengan tool open-source, misalnya transformasi batch, machine learning pipeline, atau pemrosesan log skala besar. Ada juga EMR Serverless yang menghilangkan kebutuhan provisioning cluster.

Amazon Athena

Amazon Athena adalah layanan query interaktif yang memudahkan analisis data langsung di Amazon S3 dengan SQL standar. Athena bersifat serverless, sehingga cocok untuk query ad-hoc tanpa mengelola cluster, dan ditagih berdasarkan jumlah data yang dipindai per query. Athena sering bekerja dengan AWS Glue Data Catalog untuk metadata tabel dan kolom.

Amazon OpenSearch Service

Amazon OpenSearch Service dipakai untuk pencarian (search) dan analitik log skala besar, misalnya menelusuri log aplikasi, observability, dan analisis teks. Tersedia juga OpenSearch Serverless. Jika skenario menyebut “search engine” atau “analisis log interaktif”, arahnya OpenSearch.

Amazon QuickSight

Amazon QuickSight adalah layanan business intelligence untuk membuat dashboard, visualisasi, dan insight yang mudah dipahami stakeholder. Per 9 Oktober 2025, QuickSight berevolusi menjadi bagian dari Amazon Quick Suite, dan komponen BI intinya kini disebut “Quick Sight” (dua kata) dalam navigasi suite tersebut, berdampingan dengan komponen baru seperti Quick Research dan Quick Flows. Namun, blueprint dan soal CLF-C02 masih memakai istilah “QuickSight”, jadi kenali kedua nama agar tidak bingung saat membaca materi lama maupun baru.

Redshift vs Athena

Redshift untuk data warehouse yang dikelola dan performa analitik terstruktur, Athena untuk SQL langsung ke data di S3 tanpa cluster.

EMR vs Glue

EMR untuk framework big data seperti Spark dan Hadoop, Glue untuk integrasi data serverless, ETL, crawler, dan katalog metadata.

🧪Pola soal

”Query data di S3 dengan SQL tanpa server” biasanya Athena. “Dashboard bisnis” biasanya QuickSight. “Petabyte-scale data warehouse” biasanya Redshift. “Spark atau Hadoop terkelola” biasanya EMR. “Search dan analisis log” biasanya OpenSearch.

09

Integrasi dan Migrasi Data: Glue, Kinesis, dan DMS

Menggerakkan data dari sumber ke insight.

Data tidak cukup disimpan. Data juga perlu ditemukan, dibersihkan, dipindahkan, diberi label, dan kadang diproses saat masih mengalir agar bisa dianalisis.

AWS Glue adalah layanan data integration serverless. AWS menjelaskan Glue sebagai layanan untuk menemukan, menyiapkan, dan mengintegrasikan data pada skala besar, termasuk Data Catalog, ETL, pipeline, dan koneksi ke banyak sumber data. Dalam data lake, Glue sering menjadi “daftar isi perpustakaan” yang memberi tahu Athena, Redshift, atau EMR di mana data berada dan seperti apa strukturnya. Glue juga punya Data Quality untuk memantau kualitas data di S3.

Amazon Kinesis menangani data yang masih mengalir (streaming) secara real time atau near real time. Untuk CLF-C02, cukup kenali bahwa Kinesis dipakai saat data datang terus-menerus, seperti clickstream, log, atau telemetry IoT. Salah satu sub-layanannya, Amazon Data Firehose (dulu bernama Kinesis Data Firehose), dapat memuat data streaming ke S3, Redshift, OpenSearch Service, atau Splunk secara near real time. Catat juga bahwa “Kinesis Data Analytics” kini bernama Amazon Managed Service for Apache Flink.

AWS DMS membantu migrasi database. AWS mendokumentasikan DMS sebagai layanan untuk memigrasikan relational database, data warehouse, NoSQL database, dan data store lain, baik ke AWS maupun antar kombinasi cloud dan on-premises. DMS juga dapat membantu schema conversion dalam proses migrasi tertentu.

Alur data sederhana

Ambil data dari sumber

Data berasal dari database operasional, file log, aplikasi, sistem on-premises, atau stream real time lewat Kinesis.

Simpan di data lake

Amazon S3 sering dipakai sebagai tempat data mentah dan data hasil olahan.

Katalog dan transformasi

AWS Glue crawler dan Data Catalog membantu membuat metadata, sementara job ETL membersihkan atau mengubah data.

Query dan analisis

Athena menjalankan SQL langsung ke S3, Redshift menjalankan data warehouse, EMR memproses big data, dan QuickSight membuat dashboard.

⚠️Jebakan umum

DMS bukan tool visualisasi, Glue bukan dashboard, Athena bukan penyimpanan data, Kinesis bukan database, dan QuickSight bukan database. Tiap layanan punya satu peran utama.

10

Keamanan, Shared Responsibility, dan Biaya

Database aman bukan hanya karena memakai layanan managed.

Managed service mengurangi beban operasional, tetapi bukan berarti semua keputusan keamanan pindah ke AWS.

Dalam model shared responsibility, AWS mengamankan infrastruktur cloud, sedangkan pelanggan tetap bertanggung jawab atas konfigurasi, akses, data, enkripsi yang dipilih, kredensial, dan pola penggunaan. Untuk database dan analytics, area yang sering muncul di ujian adalah IAM, enkripsi, network access, backup, monitoring, dan biaya berbasis konsumsi.

Akses

Gunakan IAM untuk kontrol API, security group untuk akses jaringan database tertentu, dan least privilege untuk role aplikasi.

Enkripsi

Banyak layanan mendukung enkripsi at rest dengan AWS KMS dan enkripsi in transit, tetapi pelanggan tetap memilih dan mengaktifkan konfigurasi yang sesuai.

Backup dan retention

RDS mendukung automated backup dan snapshot, tetapi kebutuhan retention dan recovery objective tetap keputusan desain pelanggan.

Monitoring

Gunakan Amazon CloudWatch, log audit yang relevan, dan alert agar masalah performa atau akses tidak terlambat diketahui.

Biaya tingkat tinggi

  • RDS dan Aurora dapat mengenakan biaya berdasarkan instance atau kapasitas, storage, I/O, backup tambahan, transfer data, dan opsi deployment.
  • DynamoDB dapat memakai model on-demand atau provisioned, dengan biaya terkait read, write, storage, backup, stream, dan replikasi global tables.
  • ElastiCache dipengaruhi node atau kapasitas cache, engine, deployment, dan traffic.
  • Athena umumnya dipengaruhi jumlah data yang dipindai per query, sehingga format kolom seperti Parquet dan partisi dapat mengurangi biaya.
  • Redshift dipengaruhi pilihan provisioned atau serverless, kapasitas, storage, dan durasi penggunaan.
  • QuickSight dipengaruhi edisi, user, kapasitas, fitur, dan pola penggunaan dashboard.
💸Tips biaya

Untuk ujian, pahami model biaya relatif: serverless sering membayar sesuai penggunaan, data warehouse membayar kapasitas analitik, dan cache membayar memori cepat yang dipakai. Angka harga selalu bisa berubah, jadi rujuk halaman pricing resmi AWS sebelum keputusan nyata.

11

Hands-On Ringan dan Skenario Bisnis

Walkthrough konseptual tanpa membuat tagihan tak perlu.

Tujuan hands-on pemula bukan menghafal tombol, tetapi memahami alur keputusan dan konsekuensi layanan.

Walkthrough 1: RDS untuk aplikasi toko online

Pilih engine

Pilih MySQL atau PostgreSQL jika aplikasi memakai SQL umum dan relasi tabel seperti users, orders, dan payments.

Pilih deployment

Untuk latihan, pahami Single-AZ. Untuk produksi, pertimbangkan Multi-AZ agar ketersediaan lebih baik dan failover otomatis.

Atur akses jaringan

Database sebaiknya berada di subnet privat dan hanya dapat diakses dari aplikasi yang perlu.

Aktifkan backup dan monitoring

Backup membantu pemulihan data, CloudWatch membantu melihat metrik dasar seperti CPU, storage, koneksi, dan latency.

Walkthrough 2: Query file log di S3 dengan Athena

Simpan data di S3

Data log, CSV, JSON, atau Parquet diletakkan di bucket dengan struktur folder yang rapi.

Buat metadata

AWS Glue Data Catalog menyimpan informasi tabel, kolom, partisi, dan lokasi file.

Jalankan SQL di Athena

Athena membaca metadata lalu menjalankan query langsung ke data di S3 tanpa membuat cluster.

Visualisasikan hasil

QuickSight dapat membaca data atau hasil analitik untuk membuat dashboard bisnis.

Menjelaskan ke stakeholder bisnis

Sampaikan dengan bahasa bisnis: “Kita memakai RDS untuk transaksi yang harus konsisten, DynamoDB untuk akses super cepat pada skala besar, ElastiCache untuk mengurangi antrean database, S3 plus Athena untuk analisis murah tanpa server, Redshift untuk gudang data perusahaan, dan QuickSight untuk dashboard manajemen.” Hindari istilah teknis berlebihan; hubungkan tiap layanan ke hasil bisnis seperti kecepatan, keandalan, dan biaya.

📝Latihan mini

Jika ada aplikasi global dengan user di beberapa benua, NoSQL, dan butuh read/write lokal di beberapa Region, jawabannya cenderung DynamoDB Global Tables, bukan RDS Read Replica.

12

Ringkasan & Tips Ujian

Peta akhir untuk mengunci jawaban CLF-C02.

Kunci bab ini adalah mencocokkan pola data dengan layanan, lalu membaca kata kunci soal dengan tenang.

Poin Penting

  • RDS: database relasional terkelola untuk enam engine: MySQL, PostgreSQL, SQL Server, Oracle, MariaDB, dan Db2.
  • Aurora: engine relasional AWS yang kompatibel dengan MySQL dan PostgreSQL, storage tumbuh otomatis hingga sekitar 256 TiB.
  • Multi-AZ DB instance: standby tidak melayani read. Multi-AZ DB cluster: dua reader bisa melayani read (MySQL/PostgreSQL).
  • Aurora Replicas berbagi storage dengan writer (failover cepat); RDS Read Replicas asinkron dengan storage terpisah.
  • ElastiCache: cache in-memory (Valkey, Redis OSS, Memcached) untuk latency rendah dan mengurangi beban database utama.
  • DynamoDB: NoSQL key-value, fully managed, serverless, cocok untuk skala besar dan akses berdasarkan key.
  • DynamoDB Global Tables: replikasi multi-Region, multi-active (read dan write di tiap replica).
  • Redshift: data warehouse OLAP untuk analitik besar dan BI; Athena untuk SQL serverless langsung ke S3.
  • EMR: big data framework seperti Spark dan Hadoop secara terkelola; OpenSearch untuk search dan analisis log.
  • Glue: ETL, crawler, Data Catalog. Kinesis: data streaming. DMS: migrasi database.
  • QuickSight: dashboard dan visualisasi BI (kini bagian dari Amazon Quick Suite, tetapi soal masih memakai nama QuickSight).
  • Purpose-built: DocumentDB (dokumen), Neptune (graph), Timestream (time series), Keyspaces (Cassandra), MemoryDB (in-memory durable).

Peta domain CLF-C02

DomainHubungan dengan modul iniYang perlu diingat
Domain 1 Cloud ConceptsMemilih managed service mengurangi undifferentiated heavy lifting dan mendukung elastisitas.Jelaskan manfaat cloud: managed, scalable, pay-as-you-go, global.
Domain 2 Security and ComplianceAkses database, enkripsi, backup, network control, dan shared responsibility.AWS mengamankan cloud, pelanggan mengamankan data dan konfigurasi.
Domain 3 Cloud Technology and ServicesIni domain utama bab ini: RDS, Aurora, DynamoDB, ElastiCache, Redshift, EMR, Athena, OpenSearch, QuickSight, Glue, Kinesis, DMS, dan purpose-built databases.Cocokkan kata kunci layanan dengan skenario.
Domain 4 Billing, Pricing, and SupportBiaya dipengaruhi kapasitas, storage, query, transfer, backup, user BI, dan opsi serverless atau provisioned.Jangan menghafal harga, pahami driver biaya.

Jebakan soal paling sering

  • ”Relational database managed” bukan DynamoDB, jawabannya RDS atau Aurora.
  • ”Query S3 with SQL, no servers” bukan Redshift, jawabannya Athena.
  • ”Dashboard untuk business users” bukan Glue, jawabannya QuickSight.
  • ”ETL dan Data Catalog” bukan DMS, jawabannya Glue.
  • ”Migrate database” bukan Glue, jawabannya DMS.
  • ”Cache in-memory” bukan DynamoDB, jawabannya ElastiCache.
  • ”Graph relationship” bukan DocumentDB, jawabannya Neptune.
  • ”Time-stamped IoT metrics” bukan RDS default, jawabannya Timestream.
  • ”Multi-active read dan write lintas Region untuk NoSQL” jawabannya DynamoDB Global Tables.

Referensi resmi untuk pendalaman

Kalimat penutup

Untuk lulus CLF-C02, hafalkan fungsi layanan secara konseptual: database operasional menyimpan transaksi, cache mempercepat akses, analytics mencari insight, Glue menata data, Kinesis mengalirkan data, DMS memindahkan database, dan QuickSight menyampaikan hasil ke manusia.