Kenalan dengan Ollama: Jalankan AI Model di Komputer Sendiri
Programming Tutorial AI #ollama #llm #ai #local-ai

Kenalan dengan Ollama: Jalankan AI Model di Komputer Sendiri

A
Abd. Asis
7 min read
Bagikan:

Bayangkan bisa ngobrol dengan AI model sekelas Llama 3, Gemma, atau DeepSeek tanpa perlu koneksi internet, tanpa biaya API, dan tanpa data keluar dari komputer. Kedengarannya terlalu bagus? Justru itulah yang ditawarkan Ollama.

Di dunia yang makin ketat soal privasi data dan biaya cloud yang terus naik, kemampuan menjalankan Large Language Model (LLM) secara lokal bukan lagi sekadar eksperimen. Buat developer yang ingin mengintegrasikan AI ke aplikasi, prototyping cepat, atau sekadar eksplorasi tanpa khawatir tagihan API membengkak — Ollama adalah pintu masuk yang paling mudah.

Artikel ini akan membahas mulai dari apa itu Ollama, cara instalasi, menjalankan model pertama, sampai memanfaatkan REST API-nya untuk integrasi ke aplikasi.

Apa Itu Ollama?

Ollama adalah tool open-source yang membungkus kompleksitas menjalankan LLM menjadi pengalaman sesederhana menjalankan satu command di terminal. Tanpa perlu setup Python environment, download model manual dari Hugging Face, atau konfigurasi CUDA secara eksplisit — Ollama mengurus semuanya.

Kalau pernah pakai Docker, konsepnya mirip. Docker membungkus aplikasi beserta dependensinya ke dalam container. Ollama melakukan hal serupa untuk AI model — download, konfigurasi, dan jalankan, semua lewat satu CLI.

Beberapa hal yang membuat Ollama menarik:

  • Mendukung macOS, Linux, dan Windows
  • Otomatis mendeteksi GPU dan menggunakannya untuk akselerasi
  • Punya REST API bawaan yang berjalan di localhost:11434
  • Library model yang terus bertambah: Llama 3, Gemma 3, Mistral, Qwen, DeepSeek, dan banyak lagi

Instalasi Ollama

Proses instalasi berbeda tergantung sistem operasi yang digunakan.

Linux dan macOS

Buka terminal dan jalankan satu baris perintah ini:

curl -fsSL https://ollama.com/install.sh | sh

Script ini akan mendeteksi sistem operasi, mengunduh binary yang sesuai, dan mengkonfigurasi Ollama secara otomatis. Di Linux, script ini juga membuat systemd service sehingga Ollama bisa berjalan sebagai background service.

Windows

Untuk Windows, ada dua opsi. Yang pertama lewat PowerShell:

irm https://ollama.com/install.ps1 | iex

Atau download installer (OllamaSetup.exe) langsung dari halaman download Ollama.

Verifikasi Instalasi

Setelah instalasi selesai, pastikan Ollama sudah terpasang dengan benar:

ollama --version

Kalau muncul nomor versi, instalasi berhasil.

Menjalankan Model Pertama

Saatnya menjalankan model pertama. Perintah ollama run akan otomatis mengunduh model jika belum ada di lokal, lalu langsung membuka sesi chat interaktif.

ollama run llama3.2

Proses download model terjadi sekali di awal. Untuk Llama 3.2 versi 3B, ukurannya sekitar 2GB. Setelah download selesai, terminal akan menampilkan prompt interaktif yang siap menerima input:

>>> Jelaskan apa itu REST API dalam 3 kalimat
REST API adalah antarmuka pemrograman yang menggunakan protokol HTTP untuk
komunikasi antara client dan server. Setiap resource diidentifikasi melalui
URL unik dan dimanipulasi menggunakan method standar seperti GET, POST, PUT,
dan DELETE. Arsitektur ini bersifat stateless, artinya setiap request berdiri
sendiri tanpa bergantung pada request sebelumnya.

Untuk keluar dari sesi chat, ketik /bye atau tekan Ctrl+D.

Perintah CLI yang Perlu Diketahui

Ollama punya beberapa perintah dasar yang sering digunakan sehari-hari.

Melihat Model yang Sudah Terinstall

ollama list

Output-nya menampilkan daftar model beserta ukurannya:

NAME              ID            SIZE     MODIFIED
llama3.2:latest   a80c4f17acd5  2.0 GB   2 minutes ago
gemma3:latest     c0494fe00251  3.3 GB   1 hour ago

Download Model Tanpa Langsung Menjalankan

ollama pull gemma3

Perintah pull berguna kalau ingin menyiapkan model terlebih dahulu tanpa langsung membuka sesi chat. Mirip seperti docker pull yang hanya mengunduh image.

Melihat Detail Model

ollama show llama3.2

Perintah ini menampilkan informasi teknis tentang model: arsitektur, jumlah parameter, ukuran context window, dan metode quantization yang digunakan.

Menghapus Model

ollama rm llama3.2

Model yang sudah tidak dibutuhkan bisa dihapus untuk menghemat ruang disk.

Melihat Model yang Sedang Berjalan

ollama ps

Perintah ini menunjukkan model mana saja yang sedang aktif di memory beserta resource yang digunakan.

Pilihan Model Populer

Ollama menyediakan library model yang cukup lengkap di ollama.com/library. Berikut beberapa model yang layak dicoba berdasarkan kebutuhan:

ModelUkuranKeunggulanRAM Minimum
Llama 3.2 3B~2 GBGeneral purpose, ringan8 GB
Gemma 3 4B~3.3 GBMultimodal, efisien8 GB
Mistral 7B~4.1 GBReasoning bagus untuk ukurannya8 GB
DeepSeek-R1 8B~4.9 GBAdvanced reasoning16 GB
Qwen 2.5 7B~4.7 GBMultilingual, coding16 GB
Llama 3.1 70B~40 GBPerforma mendekati GPT-464 GB

Aturan praktisnya: model 7B butuh minimal 8GB RAM (16GB ideal), model 13B butuh 16GB (32GB ideal), dan model 70B butuh 64GB ke atas.

REST API: Integrasi ke Aplikasi

Salah satu fitur paling berguna dari Ollama adalah REST API yang otomatis berjalan di http://localhost:11434. Ini memungkinkan integrasi LLM ke aplikasi apapun yang bisa mengirim HTTP request.

Chat Completion

Endpoint /api/chat menerima format pesan yang mirip dengan OpenAI API:

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {
      "role": "system",
      "content": "Kamu adalah asisten yang membantu developer."
    },
    {
      "role": "user",
      "content": "Apa perbedaan PUT dan PATCH?"
    }
  ],
  "stream": false
}'

Parameter stream: false membuat response dikembalikan sekaligus sebagai satu JSON object. Kalau stream: true (default), response dikirim secara incremental — cocok untuk pengalaman streaming real-time di UI.

Response yang dikembalikan berisi field message dengan jawaban model:

{
  "model": "llama3.2",
  "message": {
    "role": "assistant",
    "content": "PUT mengganti seluruh resource, sedangkan PATCH hanya mengubah field tertentu..."
  },
  "done": true
}

Generate (Single Prompt)

Untuk kebutuhan yang lebih sederhana tanpa konteks percakapan, gunakan endpoint /api/generate:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Tulis fungsi JavaScript untuk validasi email",
  "stream": false
}'

Embeddings

Endpoint /api/embeddings menghasilkan vector representation dari teks — berguna untuk fitur semantic search atau RAG (Retrieval-Augmented Generation):

curl http://localhost:11434/api/embeddings -d '{
  "model": "llama3.2",
  "prompt": "Ollama adalah tool untuk menjalankan LLM secara lokal"
}'

Response berisi array angka (vector) yang merepresentasikan makna semantik dari teks input tersebut.

Contoh Integrasi dengan JavaScript

Ollama menyediakan SDK resmi untuk JavaScript yang membuat integrasi lebih ergonomis dibanding raw HTTP request.

Install package-nya terlebih dahulu:

npm install ollama

Lalu gunakan di kode:

// chat.js
import { Ollama } from 'ollama';

const ollama = new Ollama({ host: 'http://localhost:11434' });

async function chat(userMessage) {
  const response = await ollama.chat({
    model: 'llama3.2',
    messages: [
      { role: 'user', content: userMessage }
    ],
  });

  return response.message.content;
}

const answer = await chat('Jelaskan konsep closure di JavaScript');
console.log(answer);

SDK ini menangani serialization, error handling, dan streaming secara otomatis, sehingga tidak perlu berurusan langsung dengan fetch dan parsing JSON manual.

Membuat Custom Model dengan Modelfile

Modelfile adalah cara untuk membuat varian model dengan konfigurasi khusus — misalnya mengatur system prompt default, temperature, atau context length.

Buat file bernama Modelfile dengan isi berikut:

# Modelfile
FROM llama3.2

PARAMETER temperature 0.3
PARAMETER num_ctx 4096

SYSTEM """
Kamu adalah asisten coding yang fokus pada ekosistem JavaScript dan TypeScript.
Jawab dengan ringkas dan sertakan contoh kode jika relevan.
Gunakan Bahasa Indonesia.
"""

Lalu build menjadi model baru:

ollama create js-assistant -f Modelfile

Sekarang model js-assistant bisa dijalankan seperti model biasa:

ollama run js-assistant

Model ini akan selalu menjawab sesuai system prompt yang sudah dikonfigurasi — berguna untuk membuat asisten khusus yang konsisten perilakunya.

Hal yang Perlu Diperhatikan

  • Performa bergantung pada hardware. Model 7B berjalan lancar di laptop modern dengan 16GB RAM. Tapi untuk model yang lebih besar, GPU dedicated (NVIDIA dengan CUDA atau Apple Silicon) sangat membantu.
  • Model pertama kali di-load ke memory butuh waktu. Setelah loaded, response berikutnya jauh lebih cepat. Ollama menjaga model tetap di memory selama beberapa menit setelah request terakhir.
  • Ollama bukan pengganti cloud API untuk production berskala besar. Tapi untuk development, prototyping, dan aplikasi internal — ini lebih dari cukup.
  • Update model secara berkala. Jalankan ollama pull <model> untuk mendapatkan versi terbaru dari model yang sudah terinstall.

Kesimpulan

Ollama menghilangkan barrier terbesar dalam bekerja dengan LLM secara lokal: kompleksitas setup. Dengan satu perintah instalasi dan satu perintah untuk menjalankan model, siapapun bisa mulai bereksperimen dengan AI tanpa bergantung pada layanan cloud. Ditambah REST API yang langsung siap pakai, integrasi ke aplikasi menjadi hal yang straightforward. Langkah selanjutnya, coba eksplorasi Modelfile untuk membuat asisten khusus sesuai kebutuhan project, atau integrasikan Ollama dengan framework seperti LangChain untuk membangun aplikasi RAG.

Tentang Penulis

Abd. Asis

Abd. Asis

Software Developer dan Laravel Programmer dari Madura, Indonesia. Passionate tentang PHP, Laravel, dan teknologi web modern.

Artikel Terkait

Artikel lain yang mungkin menarik untuk kamu