Databases & Analytics
CLF-C02
Belajar memilih laci data yang tepat: transaksi, cache, NoSQL, analitik, migrasi, dan visualisasi bisnis.
Database dan Analytics sebagai Rak Dapur Data
Mulai dari analogi, lalu definisi dan konteks ujian.
Bayangkan data perusahaan seperti bahan makanan di restoran: ada bahan yang harus cepat diambil, ada yang disimpan rapi, ada yang dianalisis untuk menentukan menu besok.
Kalau semua bahan ditaruh di satu rak, dapur akan kacau. Bumbu harian perlu dekat kompor, stok beras perlu gudang, data penjualan perlu laporan, dan riwayat sensor perlu rak khusus berdasarkan waktu. Di AWS, ide yang sama disebut purpose-built database dan analytics services: pilih layanan sesuai bentuk data, pola akses, kebutuhan skala, dan tujuan bisnis. Kenapa AWS repot menyediakan belasan layanan database, bukan satu database raksasa serbaguna? Karena tidak ada satu mesin yang optimal untuk semua pola sekaligus. Database yang jago transaksi cepat justru lambat saat diminta menjumlahkan satu miliar baris; database analitik yang jago menjumlahkan justru boros saat hanya mengubah satu baris pesanan. Memaksa satu alat untuk semua pekerjaan adalah resep lambat dan mahal.
Untuk CLF-C02, kamu tidak diminta menjadi database administrator mendalam. Kamu perlu tahu layanan mana untuk kasus apa, apa bedanya database operasional dan analytics, serta mana yang dikelola AWS versus tetap menjadi tanggung jawab pelanggan. AWS sendiri menempatkan database, migration, dan core service selection sebagai bagian dari kemampuan Cloud Practitioner untuk memposisikan layanan inti AWS pada use case umum.
RDS seperti dapur restoran dengan resep tabel yang rapi, DynamoDB seperti loker super cepat berdasarkan nomor kunci, ElastiCache seperti meja saji sementara, Redshift seperti ruang analis penjualan, Athena seperti bertanya langsung ke tumpukan nota di gudang S3.
Definisi sederhana
Database adalah tempat menyimpan dan mengambil data untuk aplikasi. Analytics adalah proses mengubah data menjadi insight, misalnya tren penjualan, pola fraud, atau laporan operasional. Di AWS, sebagian layanan fokus ke transaksi harian, sebagian fokus ke query besar, sebagian fokus ke migrasi, katalog, dan visualisasi. Membedakan dua dunia ini, transaksi versus analitik, adalah kunci membaca soal CLF-C02 dengan tenang.
Kenapa topik ini penting di CLF-C02?
CLF-C02 menekankan kemampuan mengenali layanan inti, memilih layanan untuk skenario umum, memahami keamanan dasar, dan memahami model biaya tingkat tinggi. Database dan analytics masuk terutama ke Domain 3 Cloud Technology and Services (34% soal), tetapi juga menyentuh Domain 2 Security and Compliance dan Domain 4 Billing, Pricing, and Support.
Soal biasanya berbentuk skenario: aplikasi butuh database relasional terkelola, query SQL langsung ke S3, cache latency rendah, replikasi multi-Region, atau dashboard bisnis untuk manajer. Tugasmu mencocokkan kata kunci skenario dengan satu layanan, bukan menghafal konfigurasi.
Cara Memilih Database AWS
Mulai dari pertanyaan bisnis, bukan dari nama layanan.
Pertanyaan terbaik bukan “database AWS mana yang paling bagus?”, tetapi “data ini bentuknya apa dan akan dipakai bagaimana?”.
AWS menyediakan banyak layanan karena pola data berbeda-beda. Data order e-commerce biasanya butuh relasi dan transaksi. Keranjang belanja butuh akses sangat cepat. Log klik dari jutaan pengguna butuh analitik skala besar. Relasi teman, rekomendasi, dan fraud ring lebih cocok ke graph. Sensor suhu lebih cocok ke time series. Begitu kamu menamai bentuk data dan pola aksesnya, layanan yang tepat hampir selalu muncul sendiri.
Struktur data
Tabel relasional, key-value, dokumen JSON, graph, time series, atau file di S3.
Pola akses
Baca tulis transaksi, query ad-hoc, agregasi besar, lookup super cepat, atau analisis batch.
Skala dan operasi
Butuh serverless, multi-Region, read replica, cache, data warehouse, atau engine open-source tertentu.
Pola pemilihan layanan
| Kebutuhan | Layanan yang sering tepat | Ingat untuk ujian |
|---|---|---|
| SQL, transaksi, skema tabel | Amazon RDS, Amazon Aurora | Relasional terkelola, bukan self-managed di EC2 kecuali butuh kontrol penuh. |
| Cache milidetik, session, leaderboard | Amazon ElastiCache | In-memory cache, bukan database utama untuk semua data permanen. |
| Key-value atau document NoSQL skala besar | Amazon DynamoDB | Fully managed, serverless, cocok untuk akses berdasarkan key. |
| Data warehouse dan BI skala besar | Amazon Redshift | Analitik terstruktur (OLAP), bukan OLTP harian. |
| Query SQL langsung ke data di S3 | Amazon Athena | Serverless, bayar berdasarkan data yang dipindai, memakai metadata seperti AWS Glue Data Catalog. |
| Dashboard dan visualisasi bisnis | Amazon QuickSight (kini di Amazon Quick Suite) | BI untuk insight yang mudah dibaca stakeholder. |
| ETL, katalog, transformasi data | AWS Glue | Data integration serverless dan Data Catalog. |
| Migrasi database | AWS DMS | Migrasi data dari dan ke database umum, termasuk cloud dan on-premises. |
Dua sumbu pemilihan yang paling sering ditanya
Banyak soal sebenarnya menguji satu dari dua perbandingan besar: relasional versus NoSQL, dan transaksi (OLTP) versus analitik (OLAP). Kuasai dua sumbu ini dan sebagian besar skenario database langsung jelas.
- Skema tabel tetap dengan kolom dan tipe data jelas.
- SQL, join antar tabel, dan transaksi multi-baris yang konsisten.
- Skala vertikal dan read replica, ada batas ukuran instance.
- Cocok: pesanan, pembayaran, inventori, sistem HR.
- Schema-less, tiap item bisa punya atribut berbeda.
- Akses berdasarkan primary key, bukan join kompleks.
- Serverless dan skala horizontal nyaris tanpa batas.
- Cocok: keranjang belanja, profil, IoT state, game state.
Untuk soal CLF-C02, jangan mencari layanan paling canggih. Cari kata kunci skenario: relational, cache, NoSQL, graph, time-series, data warehouse, SQL on S3, ETL, migration, dashboard.
Relasional: Amazon RDS dan Aurora
Untuk aplikasi yang butuh tabel, SQL, transaksi, dan integritas data.
Database relasional seperti buku besar akuntansi: kolomnya jelas, barisnya rapi, dan transaksi harus konsisten.
Amazon RDS adalah layanan database relasional terkelola yang memudahkan setup, operasi, dan scaling database di AWS. RDS menangani banyak tugas administrasi seperti patching, backup, failure detection, dan recovery, sehingga timmu tidak menghabiskan waktu untuk pekerjaan yang tidak membedakan bisnis. RDS mendukung enam engine: IBM Db2, MariaDB, Microsoft SQL Server, MySQL, Oracle Database, dan PostgreSQL.
Amazon Aurora adalah engine relasional fully managed yang kompatibel dengan MySQL dan PostgreSQL, berada di bawah payung Amazon RDS namun dirancang khusus untuk cloud. Untuk ujian, ingat bahwa Aurora bukan sekadar “RDS biasa”, melainkan engine database AWS dengan arsitektur storage terdistribusi yang dirancang untuk performa, ketersediaan, dan skalabilitas tinggi, sambil tetap memakai ekosistem MySQL atau PostgreSQL. Volume penyimpanan Aurora tumbuh otomatis sesuai kebutuhan, tanpa provisioning di muka, hingga maksimum sekitar 256 TiB per cluster.
Amazon RDS
Pilih saat ingin engine database populer yang dikelola AWS, misalnya MySQL, PostgreSQL, SQL Server, Oracle, MariaDB, atau Db2.
Amazon Aurora
Pilih saat ingin kompatibilitas MySQL atau PostgreSQL dengan kemampuan cloud-native AWS, storage yang tumbuh otomatis, dan opsi skalabilitas yang lebih tinggi.
Kapan dipakai?
- Order e-commerce, pembayaran, inventori, sistem HR, atau aplikasi bisnis yang butuh transaksi dan relasi antar tabel.
- Aplikasi yang ingin tetap memakai SQL dan tool database yang sudah dikenal tim.
- Workload yang ingin mengurangi beban operasional dibanding mengelola database sendiri di EC2.
RDS terkelola versus database di EC2
Kamu tetap boleh memasang MySQL atau PostgreSQL sendiri di atas EC2. Bedanya, pada EC2 kamu yang mengurus instalasi engine, patch database, backup, replikasi, failover, dan tuning. Pada RDS, AWS menangani sebagian besar pekerjaan itu. Pilih EC2 hanya jika butuh kontrol penuh atas versi, ekstensi khusus, atau konfigurasi sistem operasi yang tidak didukung RDS.
Menjalankan database di EC2 memberi kontrol besar, tetapi AWS tidak otomatis mengelola engine database, patch database, backup aplikasi, dan tuning seperti layanan managed database. Beban operasional itu pindah ke timmu.
Opsi Deployment RDS dan Aurora
Single-AZ, Multi-AZ, Read Replica, Aurora Global Database, dan Aurora Serverless dalam bahasa pemula.
Opsi deployment database mirip memilih toko: satu toko hemat, cabang cadangan lebih tahan gangguan, cabang baca membantu antrean pelanggan.
Untuk Cloud Practitioner, kamu tidak perlu menghafal semua parameter. Yang penting adalah tahu tujuan setiap opsi deployment dan apa yang dioptimalkannya: ketersediaan, kapasitas baca, jangkauan global, atau elastisitas kapasitas.
Single-AZ
Database berada pada satu Availability Zone. Sederhana dan murah, tetapi bukan pilihan utama untuk high availability produksi.
Multi-AZ
Menambah salinan di Availability Zone lain untuk ketersediaan lebih baik dan failover otomatis pada gangguan tertentu.
Read Replica
Salinan untuk memperbesar kapasitas baca. Cocok saat query baca tinggi, bukan solusi utama untuk menulis lebih cepat.
Aurora Global Database
Aurora lintas Region: satu Region utama untuk write dan hingga banyak Region sekunder read-only untuk disaster recovery dan latency baca global.
Dua jenis Multi-AZ yang berbeda
RDS punya dua bentuk Multi-AZ yang sering tertukar, dan keduanya valid untuk CLF-C02. Bedanya terletak pada apakah salinan kedua bisa melayani lalu lintas baca.
- Satu standby di AZ lain, replikasi sinkron.
- Standby tidak melayani read traffic; ia hanya berjaga.
- Fokus murni: high availability dan failover otomatis.
- Tersedia untuk semua engine RDS yang didukung.
- Satu writer dan dua reader di tiga AZ berbeda.
- Kedua reader dapat melayani read traffic.
- Replikasi semi-sinkron, failover lebih cepat.
- Hanya untuk engine MySQL dan PostgreSQL.
Aurora Replicas bukan RDS Read Replicas
Ini perbedaan halus yang sering disalahpahami. RDS Read Replicas memakai replikasi asinkron dan punya storage terpisah dari primary, sehingga bisa ada jeda data dan failover relatif lebih lambat. Aurora Replicas berbagi satu storage terdistribusi yang sama dengan writer, sehingga tidak ada penyalinan data antar node, jeda sangat kecil, dan failover bisa terjadi dalam hitungan puluhan detik. Aurora cluster mendukung hingga 15 Aurora Replicas yang juga berperan sebagai target failover.
Serverless di database
Aurora Serverless v2 menjalankan Aurora dengan kapasitas yang menyesuaikan kebutuhan secara otomatis dalam satuan ACU (Aurora Capacity Units), tanpa mengelola ukuran instance secara manual. Ini cocok untuk workload variabel, development, testing, atau aplikasi dengan lonjakan yang tidak stabil. Aurora Serverless v2 bahkan dapat menjadi reader di Region sekunder pada Aurora Global Database. Untuk ujian, cukup kenali ide besarnya: kapasitas database dapat menyesuaikan demand.
Multi-AZ fokus ke high availability, Read Replica fokus ke scaling baca, backup dan snapshot fokus ke pemulihan data, dan Global Database fokus ke skenario lintas Region. Jangan tukar tujuan-tujuan ini.
Cache: Amazon ElastiCache
Untuk data panas yang harus diambil sangat cepat.
Cache seperti catatan pesanan yang ditempel di dekat kasir: bukan sumber kebenaran utama, tetapi mempercepat pekerjaan yang sering diulang.
Amazon ElastiCache adalah layanan terkelola untuk cache in-memory. AWS mendokumentasikan ElastiCache sebagai layanan yang memudahkan setup, pengelolaan, dan scaling lingkungan cache terdistribusi di cloud. Engine yang didukung mencakup Valkey, Redis OSS, dan Memcached. Perhatikan penamaannya: AWS menyebut “Redis OSS” (bukan sekadar “Redis”) untuk membedakan dari layanan Redis berbayar, sedangkan Valkey adalah fork open-source dari Redis yang menjadi engine tersendiri, bukan bagian dari Redis OSS.
Kapan dipakai?
- Menyimpan session login, token sementara, hasil query populer, leaderboard game, atau data yang sering dibaca.
- Mengurangi beban database utama karena request yang sama tidak perlu selalu membaca RDS atau DynamoDB.
- Memperbaiki latency aplikasi saat data dapat disimpan sementara di memori dan diambil dalam milidetik.
Valkey atau Redis OSS
Cocok untuk struktur data lebih kaya, pub/sub, sorted set, replikasi, dan skenario cache modern.
Memcached
Cocok untuk cache sederhana key-value dengan pendekatan ringan dan mudah diskalakan horizontal.
Jangan memperlakukan cache sebagai satu-satunya tempat menyimpan data penting. Cache dapat kedaluwarsa, dihapus, atau dibangun ulang dari database utama. Sumber kebenaran tetap di RDS, Aurora, atau DynamoDB.
ElastiCache untuk Redis OSS versi 4 dan 5 otomatis masuk Extended Support mulai 1 Februari 2026, dengan dukungan hingga tiga tahun setelah end of standard support. Extended Support biasanya menambah biaya, jadi rencanakan upgrade versi bila relevan.
NoSQL Key-Value: Amazon DynamoDB
Untuk skala besar, latency rendah, dan akses berdasarkan key.
DynamoDB seperti loker otomatis: masukkan nomor kunci, barang langsung ditemukan tanpa perlu mencari seluruh gudang.
Amazon DynamoDB adalah database NoSQL fully managed dan serverless. AWS menjelaskan DynamoDB sebagai layanan yang menghilangkan beban administrasi database terdistribusi seperti provisioning hardware, setup, konfigurasi, replikasi, patching, dan scaling cluster. Kamu cukup memikirkan data dan pola aksesnya, sisanya ditangani AWS.
Konsep utama
- Table: tempat kumpulan item.
- Item: satu record, mirip satu baris, tetapi fleksibel dan boleh punya atribut berbeda.
- Attribute: field di dalam item.
- Primary key: cara utama menemukan item, bisa partition key saja atau partition key plus sort key.
- Capacity mode: cara membaca dan menulis dibayar dan diskalakan, misalnya on-demand untuk pola tidak menentu atau provisioned untuk pola stabil.
Global Tables
DynamoDB Global Tables mereplikasi data tabel antar AWS Region. AWS mendokumentasikan global tables sebagai replikasi multi-Region yang bersifat multi-active: setiap replica dapat menerima read dan write, bukan satu Region aktif dan sisanya pasif. Tersedia dua mode konsistensi: Multi-Region Eventual Consistency (MREC, default) dan Multi-Region Strong Consistency (MRSC, hanya untuk global tables same-account). Untuk ujian, kata kunci pentingnya adalah multi-Region, multi-active, high availability, business continuity, dan latency global.
Cocok untuk
Profil pengguna, keranjang belanja, metadata, IoT device state, game state, atau aplikasi web skala besar dengan akses berdasarkan key.
Kurang cocok untuk
Query relasional kompleks, join berat, laporan analitik besar, atau transaksi SQL tradisional multi-tabel.
Jika skenario menyebut NoSQL, key-value, serverless, skala besar, dan latency rendah, DynamoDB sering menjadi jawaban terbaik. Jika menyebut aplikasi global yang butuh read dan write lokal di beberapa Region, arahnya DynamoDB Global Tables, bukan RDS Read Replica.
Purpose-Built Databases
DocumentDB, Neptune, Timestream, Keyspaces, MemoryDB, dan Managed Blockchain.
Tidak semua data cocok dimasukkan ke tabel SQL. Beberapa data lebih alami sebagai dokumen, hubungan, waktu, atau transaksi bersama antar organisasi.
AWS memiliki beberapa database yang dibuat untuk pola data tertentu. Di CLF-C02, kamu perlu mengenali nama layanan dan use case utamanya, bukan detail operasionalnya.
| Layanan | Jenis data | Contoh skenario | Kata kunci ujian |
|---|---|---|---|
| Amazon DocumentDB | Dokumen JSON, kompatibel MongoDB | Katalog produk, profil pengguna fleksibel, content management | MongoDB-compatible, document database |
| Amazon Neptune | Graph, relasi antar entitas | Fraud detection, social network, knowledge graph, recommendation | Highly connected data, graph relationships |
| Amazon Timestream | Time series | IoT sensor, metrik aplikasi, telemetry, monitoring industri | Time-stamped data, IoT, operational metrics |
| Amazon Keyspaces | Wide-column, kompatibel Apache Cassandra | Workload Cassandra terkelola, katalog skala besar | Cassandra-compatible, serverless, high availability |
| Amazon MemoryDB | In-memory durable | Aplikasi yang butuh latency mikrodetik plus durabilitas | In-memory, durable, microsecond latency |
| Amazon Managed Blockchain | Blockchain network dan akses blockchain | Transaksi lintas pihak, pelacakan aset, integrasi Web3 tertentu | Decentralized ledger, multiple parties, blockchain |
Amazon QLDB (Quantum Ledger Database) telah mengakhiri dukungan pada 31 Juli 2025 dan tidak lagi tersedia untuk pemakaian baru. Untuk use case audit atau ledger, AWS merekomendasikan Amazon Aurora PostgreSQL. Jangan memilih QLDB sebagai jawaban pada materi terbaru.
Contoh nyata
Sebuah marketplace bisa memakai RDS untuk transaksi pembayaran, DynamoDB untuk keranjang, ElastiCache untuk session, DocumentDB untuk metadata produk fleksibel, Neptune untuk rekomendasi hubungan produk, Timestream untuk metrik operasional, Redshift untuk laporan penjualan, dan QuickSight untuk dashboard manajemen. Satu aplikasi nyata sering memakai banyak database sekaligus, masing-masing untuk pola data yang paling cocok.
DocumentDB menyimpan dokumen, Neptune menghubungkan node seperti peta relasi, Timestream menyimpan data berdasarkan waktu, Keyspaces untuk Cassandra terkelola, MemoryDB menyimpan data in-memory yang tahan lama, dan Managed Blockchain berurusan dengan catatan transaksi bersama.
Analytics Stack: Redshift, EMR, Athena, QuickSight
Dari data mentah sampai dashboard bisnis.
Analytics seperti dapur riset restoran: data penjualan mentah diolah, ditanya dengan SQL, lalu ditampilkan sebagai laporan yang bisa dipahami pemilik bisnis.
OLTP versus OLAP: dua dunia yang sering tertukar
Sebelum menamai layanan, pahami dulu dua jenis pekerjaan data. OLTP (Online Transaction Processing) adalah dunia transaksi harian: banyak operasi kecil dan cepat, menulis dan membaca per baris, harus konsisten dan terbaru. Inilah ranah RDS, Aurora, dan DynamoDB. OLAP (Online Analytical Processing) adalah dunia analitik: sedikit query tetapi sangat berat, menjumlahkan dan mengelompokkan jutaan baris untuk laporan dan tren. Inilah ranah Redshift, Athena, dan EMR. Memaksa Redshift menangani ribuan transaksi pesanan per detik, atau memaksa RDS menjumlahkan satu miliar baris untuk dashboard, sama-sama keliru arsitektur.
- Banyak transaksi kecil dan cepat per detik.
- Baca tulis per baris, data harus terbaru.
- Disimpan per baris (row-oriented).
- Contoh: catat pesanan, update saldo, simpan session.
- Sedikit query besar yang memindai banyak data.
- Agregasi, group by, tren historis.
- Sering disimpan per kolom (columnar) untuk scan cepat.
- Contoh: laporan penjualan kuartal, analisis perilaku.
Amazon Redshift
Amazon Redshift adalah data warehouse fully managed berskala petabyte dengan penyimpanan columnar untuk analitik cepat. Gunakan Redshift saat perusahaan ingin menganalisis data terstruktur dalam jumlah besar, membuat laporan BI, dan menjalankan query analitik kompleks. Tersedia juga Redshift Serverless yang menagih per RPU (Redshift Processing Unit) per detik tanpa mengelola cluster. Redshift bukan pengganti database transaksi harian seperti RDS.
Amazon EMR
Amazon EMR adalah platform terkelola untuk menjalankan framework big data seperti Apache Spark, Apache Hive, Apache Hudi, dan Presto di AWS. Gunakan EMR saat tim data perlu memproses data besar dengan tool open-source, misalnya transformasi batch, machine learning pipeline, atau pemrosesan log skala besar. Ada juga EMR Serverless yang menghilangkan kebutuhan provisioning cluster.
Amazon Athena
Amazon Athena adalah layanan query interaktif yang memudahkan analisis data langsung di Amazon S3 dengan SQL standar. Athena bersifat serverless, sehingga cocok untuk query ad-hoc tanpa mengelola cluster, dan ditagih berdasarkan jumlah data yang dipindai per query. Athena sering bekerja dengan AWS Glue Data Catalog untuk metadata tabel dan kolom.
Amazon OpenSearch Service
Amazon OpenSearch Service dipakai untuk pencarian (search) dan analitik log skala besar, misalnya menelusuri log aplikasi, observability, dan analisis teks. Tersedia juga OpenSearch Serverless. Jika skenario menyebut “search engine” atau “analisis log interaktif”, arahnya OpenSearch.
Amazon QuickSight
Amazon QuickSight adalah layanan business intelligence untuk membuat dashboard, visualisasi, dan insight yang mudah dipahami stakeholder. Per 9 Oktober 2025, QuickSight berevolusi menjadi bagian dari Amazon Quick Suite, dan komponen BI intinya kini disebut “Quick Sight” (dua kata) dalam navigasi suite tersebut, berdampingan dengan komponen baru seperti Quick Research dan Quick Flows. Namun, blueprint dan soal CLF-C02 masih memakai istilah “QuickSight”, jadi kenali kedua nama agar tidak bingung saat membaca materi lama maupun baru.
Redshift vs Athena
Redshift untuk data warehouse yang dikelola dan performa analitik terstruktur, Athena untuk SQL langsung ke data di S3 tanpa cluster.
EMR vs Glue
EMR untuk framework big data seperti Spark dan Hadoop, Glue untuk integrasi data serverless, ETL, crawler, dan katalog metadata.
”Query data di S3 dengan SQL tanpa server” biasanya Athena. “Dashboard bisnis” biasanya QuickSight. “Petabyte-scale data warehouse” biasanya Redshift. “Spark atau Hadoop terkelola” biasanya EMR. “Search dan analisis log” biasanya OpenSearch.
Integrasi dan Migrasi Data: Glue, Kinesis, dan DMS
Menggerakkan data dari sumber ke insight.
Data tidak cukup disimpan. Data juga perlu ditemukan, dibersihkan, dipindahkan, diberi label, dan kadang diproses saat masih mengalir agar bisa dianalisis.
AWS Glue adalah layanan data integration serverless. AWS menjelaskan Glue sebagai layanan untuk menemukan, menyiapkan, dan mengintegrasikan data pada skala besar, termasuk Data Catalog, ETL, pipeline, dan koneksi ke banyak sumber data. Dalam data lake, Glue sering menjadi “daftar isi perpustakaan” yang memberi tahu Athena, Redshift, atau EMR di mana data berada dan seperti apa strukturnya. Glue juga punya Data Quality untuk memantau kualitas data di S3.
Amazon Kinesis menangani data yang masih mengalir (streaming) secara real time atau near real time. Untuk CLF-C02, cukup kenali bahwa Kinesis dipakai saat data datang terus-menerus, seperti clickstream, log, atau telemetry IoT. Salah satu sub-layanannya, Amazon Data Firehose (dulu bernama Kinesis Data Firehose), dapat memuat data streaming ke S3, Redshift, OpenSearch Service, atau Splunk secara near real time. Catat juga bahwa “Kinesis Data Analytics” kini bernama Amazon Managed Service for Apache Flink.
AWS DMS membantu migrasi database. AWS mendokumentasikan DMS sebagai layanan untuk memigrasikan relational database, data warehouse, NoSQL database, dan data store lain, baik ke AWS maupun antar kombinasi cloud dan on-premises. DMS juga dapat membantu schema conversion dalam proses migrasi tertentu.
Alur data sederhana
Data berasal dari database operasional, file log, aplikasi, sistem on-premises, atau stream real time lewat Kinesis.
Amazon S3 sering dipakai sebagai tempat data mentah dan data hasil olahan.
AWS Glue crawler dan Data Catalog membantu membuat metadata, sementara job ETL membersihkan atau mengubah data.
Athena menjalankan SQL langsung ke S3, Redshift menjalankan data warehouse, EMR memproses big data, dan QuickSight membuat dashboard.
DMS bukan tool visualisasi, Glue bukan dashboard, Athena bukan penyimpanan data, Kinesis bukan database, dan QuickSight bukan database. Tiap layanan punya satu peran utama.
Keamanan, Shared Responsibility, dan Biaya
Database aman bukan hanya karena memakai layanan managed.
Managed service mengurangi beban operasional, tetapi bukan berarti semua keputusan keamanan pindah ke AWS.
Dalam model shared responsibility, AWS mengamankan infrastruktur cloud, sedangkan pelanggan tetap bertanggung jawab atas konfigurasi, akses, data, enkripsi yang dipilih, kredensial, dan pola penggunaan. Untuk database dan analytics, area yang sering muncul di ujian adalah IAM, enkripsi, network access, backup, monitoring, dan biaya berbasis konsumsi.
Akses
Gunakan IAM untuk kontrol API, security group untuk akses jaringan database tertentu, dan least privilege untuk role aplikasi.
Enkripsi
Banyak layanan mendukung enkripsi at rest dengan AWS KMS dan enkripsi in transit, tetapi pelanggan tetap memilih dan mengaktifkan konfigurasi yang sesuai.
Backup dan retention
RDS mendukung automated backup dan snapshot, tetapi kebutuhan retention dan recovery objective tetap keputusan desain pelanggan.
Monitoring
Gunakan Amazon CloudWatch, log audit yang relevan, dan alert agar masalah performa atau akses tidak terlambat diketahui.
Biaya tingkat tinggi
- RDS dan Aurora dapat mengenakan biaya berdasarkan instance atau kapasitas, storage, I/O, backup tambahan, transfer data, dan opsi deployment.
- DynamoDB dapat memakai model on-demand atau provisioned, dengan biaya terkait read, write, storage, backup, stream, dan replikasi global tables.
- ElastiCache dipengaruhi node atau kapasitas cache, engine, deployment, dan traffic.
- Athena umumnya dipengaruhi jumlah data yang dipindai per query, sehingga format kolom seperti Parquet dan partisi dapat mengurangi biaya.
- Redshift dipengaruhi pilihan provisioned atau serverless, kapasitas, storage, dan durasi penggunaan.
- QuickSight dipengaruhi edisi, user, kapasitas, fitur, dan pola penggunaan dashboard.
Untuk ujian, pahami model biaya relatif: serverless sering membayar sesuai penggunaan, data warehouse membayar kapasitas analitik, dan cache membayar memori cepat yang dipakai. Angka harga selalu bisa berubah, jadi rujuk halaman pricing resmi AWS sebelum keputusan nyata.
Hands-On Ringan dan Skenario Bisnis
Walkthrough konseptual tanpa membuat tagihan tak perlu.
Tujuan hands-on pemula bukan menghafal tombol, tetapi memahami alur keputusan dan konsekuensi layanan.
Walkthrough 1: RDS untuk aplikasi toko online
Pilih MySQL atau PostgreSQL jika aplikasi memakai SQL umum dan relasi tabel seperti users, orders, dan payments.
Untuk latihan, pahami Single-AZ. Untuk produksi, pertimbangkan Multi-AZ agar ketersediaan lebih baik dan failover otomatis.
Database sebaiknya berada di subnet privat dan hanya dapat diakses dari aplikasi yang perlu.
Backup membantu pemulihan data, CloudWatch membantu melihat metrik dasar seperti CPU, storage, koneksi, dan latency.
Walkthrough 2: Query file log di S3 dengan Athena
Data log, CSV, JSON, atau Parquet diletakkan di bucket dengan struktur folder yang rapi.
AWS Glue Data Catalog menyimpan informasi tabel, kolom, partisi, dan lokasi file.
Athena membaca metadata lalu menjalankan query langsung ke data di S3 tanpa membuat cluster.
QuickSight dapat membaca data atau hasil analitik untuk membuat dashboard bisnis.
Menjelaskan ke stakeholder bisnis
Sampaikan dengan bahasa bisnis: “Kita memakai RDS untuk transaksi yang harus konsisten, DynamoDB untuk akses super cepat pada skala besar, ElastiCache untuk mengurangi antrean database, S3 plus Athena untuk analisis murah tanpa server, Redshift untuk gudang data perusahaan, dan QuickSight untuk dashboard manajemen.” Hindari istilah teknis berlebihan; hubungkan tiap layanan ke hasil bisnis seperti kecepatan, keandalan, dan biaya.
Jika ada aplikasi global dengan user di beberapa benua, NoSQL, dan butuh read/write lokal di beberapa Region, jawabannya cenderung DynamoDB Global Tables, bukan RDS Read Replica.
Ringkasan & Tips Ujian
Peta akhir untuk mengunci jawaban CLF-C02.
Kunci bab ini adalah mencocokkan pola data dengan layanan, lalu membaca kata kunci soal dengan tenang.
Poin Penting
- RDS: database relasional terkelola untuk enam engine: MySQL, PostgreSQL, SQL Server, Oracle, MariaDB, dan Db2.
- Aurora: engine relasional AWS yang kompatibel dengan MySQL dan PostgreSQL, storage tumbuh otomatis hingga sekitar 256 TiB.
- Multi-AZ DB instance: standby tidak melayani read. Multi-AZ DB cluster: dua reader bisa melayani read (MySQL/PostgreSQL).
- Aurora Replicas berbagi storage dengan writer (failover cepat); RDS Read Replicas asinkron dengan storage terpisah.
- ElastiCache: cache in-memory (Valkey, Redis OSS, Memcached) untuk latency rendah dan mengurangi beban database utama.
- DynamoDB: NoSQL key-value, fully managed, serverless, cocok untuk skala besar dan akses berdasarkan key.
- DynamoDB Global Tables: replikasi multi-Region, multi-active (read dan write di tiap replica).
- Redshift: data warehouse OLAP untuk analitik besar dan BI; Athena untuk SQL serverless langsung ke S3.
- EMR: big data framework seperti Spark dan Hadoop secara terkelola; OpenSearch untuk search dan analisis log.
- Glue: ETL, crawler, Data Catalog. Kinesis: data streaming. DMS: migrasi database.
- QuickSight: dashboard dan visualisasi BI (kini bagian dari Amazon Quick Suite, tetapi soal masih memakai nama QuickSight).
- Purpose-built: DocumentDB (dokumen), Neptune (graph), Timestream (time series), Keyspaces (Cassandra), MemoryDB (in-memory durable).
Peta domain CLF-C02
| Domain | Hubungan dengan modul ini | Yang perlu diingat |
|---|---|---|
| Domain 1 Cloud Concepts | Memilih managed service mengurangi undifferentiated heavy lifting dan mendukung elastisitas. | Jelaskan manfaat cloud: managed, scalable, pay-as-you-go, global. |
| Domain 2 Security and Compliance | Akses database, enkripsi, backup, network control, dan shared responsibility. | AWS mengamankan cloud, pelanggan mengamankan data dan konfigurasi. |
| Domain 3 Cloud Technology and Services | Ini domain utama bab ini: RDS, Aurora, DynamoDB, ElastiCache, Redshift, EMR, Athena, OpenSearch, QuickSight, Glue, Kinesis, DMS, dan purpose-built databases. | Cocokkan kata kunci layanan dengan skenario. |
| Domain 4 Billing, Pricing, and Support | Biaya dipengaruhi kapasitas, storage, query, transfer, backup, user BI, dan opsi serverless atau provisioned. | Jangan menghafal harga, pahami driver biaya. |
Jebakan soal paling sering
- ”Relational database managed” bukan DynamoDB, jawabannya RDS atau Aurora.
- ”Query S3 with SQL, no servers” bukan Redshift, jawabannya Athena.
- ”Dashboard untuk business users” bukan Glue, jawabannya QuickSight.
- ”ETL dan Data Catalog” bukan DMS, jawabannya Glue.
- ”Migrate database” bukan Glue, jawabannya DMS.
- ”Cache in-memory” bukan DynamoDB, jawabannya ElastiCache.
- ”Graph relationship” bukan DocumentDB, jawabannya Neptune.
- ”Time-stamped IoT metrics” bukan RDS default, jawabannya Timestream.
- ”Multi-active read dan write lintas Region untuk NoSQL” jawabannya DynamoDB Global Tables.
Referensi resmi untuk pendalaman
- AWS Certified Cloud Practitioner CLF-C02 Exam Guide
- In-Scope AWS Services for CLF-C02
- Choosing an AWS database service
- Choosing an AWS analytics service
- Amazon RDS User Guide
- Amazon RDS Multi-AZ deployments
- Amazon Aurora User Guide
- Amazon DynamoDB Global Tables
- Amazon ElastiCache User Guide
- Amazon Athena User Guide
- AWS Glue
- AWS Database Migration Service User Guide
Untuk lulus CLF-C02, hafalkan fungsi layanan secara konseptual: database operasional menyimpan transaksi, cache mempercepat akses, analytics mencari insight, Glue menata data, Kinesis mengalirkan data, DMS memindahkan database, dan QuickSight menyampaikan hasil ke manusia.