Ollama to przełomowe narzędzie, które zdemokratyzowało dostęp do sztucznej inteligencji. Jeszcze do niedawna uruchomienie modelu językowego na własnym komputerze wymagało zaawansowanej wiedzy programistycznej, konfigurowania środowisk Python i posiadania potężnego sprzętu serwerowego. Ollama zmienia zasady gry, sprowadzając cały proces do kilku prostych komend i działając na zasadzie „plug-and-play”.
Spis treści
- Wymagania sprzętowe
- Instalacja Ollama na Windows
- Krok 1: Pobranie instalatora
- Krok 2: Instalacja
- Krok 3: Sprawdzenie instalacji
- Instalacja Ollama na Linux
- Krok 1: Instalacja za pomocą skryptu
- Krok 2: Uruchomienie usługi
- Krok 3: Sprawdzenie działania
- Instalacja Ollama na macOS
- Metoda 1: Oficjalna aplikacja (zalecana)
- Metoda 2: Homebrew
- Uruchomienie pierwszego modelu
- Podstawowe komendy Ollama
- Instalacja Ollama z Dockerem
- Wymagania
- Uruchomienie Ollama w Dockerze
- Docker Compose (zalecane)
- Integracja Ollama z Open WebUI
- Instalacja Open WebUI (Docker)
- Wersja Docker Compose (docker-compose.yaml)
- Dostęp do interfejsu
- Zalety Open WebUI
- Integracja z innymi aplikacjami
- Najczęstsze problemy
- Porównanie popularnych modeli w Ollama
- Optymalizacja wydajności Ollama: RAM, GPU i konfiguracje
- RAM / System memory
- GPU / VRAM
- Podsumowanie
Narzędzie to pozwala błyskawicznie pobierać i uruchamiać najpotężniejsze modele o otwartych wagach (open weights), takie jak:
- Llama 3 (od Meta) – wszechstronny model do codziennych zadań,
- Mistral – lekki, ale niezwykle inteligentny model europejski,
- Gemma (od Google) – najnowsza technologia prosto z laboratoriów DeepMind.
Dlaczego warto porzucić chmurę na rzecz Ollama?
Kluczem jest tu suwerenność danych. Korzystając z popularnych chatbotów online, wysyłasz swoje pytania na zewnętrzne serwery. Dzięki Ollama zyskujesz:
- Absolutną prywatność: Twoje dane, dokumenty i rozmowy nigdy nie opuszczają Twojego urządzenia. To idealne rozwiązanie do pracy z wrażliwymi danymi firmowymi czy prywatnymi zapiskami.
- Niezależność od internetu: Możesz korzystać z potężnego AI w pociągu, samolocie lub w miejscu bez zasięgu – cała “wiedza” modelu znajduje się na Twoim dysku.
- Brak ukrytych kosztów: Korzystasz z modeli za darmo, bez miesięcznych subskrypcji i limitów zapytań. Jedynym ograniczeniem jest moc obliczeniowa Twojego komputera.
W tym poradniku przeprowadzę Cię przez proces instalacji Ollama na trzech głównych systemach: Windows, Linux oraz macOS. Pokażę Ci nie tylko jak zainstalować “silnik”, ale również jak zasiąść za sterami swojego pierwszego modelu AI.
Wymagania sprzętowe
Minimalne wymagania:
- 8 GB RAM (zalecane 16 GB lub więcej)
- Procesor x86_64 lub Apple Silicon (M1/M2/M3)
- System:
- Windows 10/11 (64-bit)
- Linux (Ubuntu, Debian, Fedora, Arch i pochodne)
- macOS 12+ (Monterey lub nowszy)
Uwaga: Ollama działa również na CPU, ale karta graficzna (GPU) znacząco poprawia wydajność.
Instalacja Ollama na Windows

Krok 1: Pobranie instalatora
1. Wejdź na oficjalną stronę projektu: ollama.com
2. Pobierz instalator dla Windows (.exe).
Krok 2: Instalacja
- Uruchom pobrany plik instalacyjny.
- Postępuj zgodnie z instrukcjami kreatora instalacji.
- Po zakończeniu instalacji Ollama uruchomi się w tle jako usługa.
Krok 3: Sprawdzenie instalacji
Otwórz PowerShell lub Wiersz poleceń i wpisz:
ollama --versionJeśli zobaczysz numer wersji – instalacja zakończyła się sukcesem.
Instalacja Ollama na Linux

Krok 1: Instalacja za pomocą skryptu
Najprostsza metoda to użycie oficjalnego skryptu instalacyjnego:
curl -fsSL https://ollama.com/install.sh | shSkrypt:
- pobierze Ollama
- zainstaluje binarkę
- doda usługę systemd
Krok 2: Uruchomienie usługi
W większości dystrybucji Ollama uruchamia się automatycznie. Jeśli nie:
sudo systemctl enable --now ollamasudo systemctl status ollamaKrok 3: Sprawdzenie działania
ollama --versionInstalacja Ollama na macOS

Metoda 1: Oficjalna aplikacja (zalecana)
1. Wejdź na ollama.com
2. Pobierz aplikację dla macOS.
3. Przeciągnij Ollama do katalogu Applications.
4. Uruchom aplikację – Ollama będzie działać w tle.
Metoda 2: Homebrew
Jeśli korzystasz z Homebrew:
brew install ollamaPo instalacji uruchom usługę:
ollama serveUruchomienie pierwszego modelu
Po zainstalowaniu Ollama na dowolnym systemie możesz od razu uruchomić model.
Przykład – model LLaMA 3:
ollama run llama3Inne popularne modele:
ollama run mistralollama run gemmaollama run codellamaModel zostanie automatycznie pobrany i zapisany lokalnie.
Podstawowe komendy Ollama
- Lista zainstalowanych modeli:
ollama list- Usunięcie modelu:
ollama rm nazwa_modelu- Uruchomienie serwera API:
ollama serveDomyślnie API działa pod adresem:
http://localhost:11434

Instalacja Ollama z Dockerem
Ollama może działać również w kontenerze Docker, co jest idealnym rozwiązaniem dla serwerów, NAS‑ów (np. TrueNAS, Synology, OpenMediaVault) oraz środowisk deweloperskich.
Jeśli nie masz jeszcze zainstalowanego Dockera, polecam nasz poradnik: Instalacja i konfiguracja Dockera.
Wymagania
- Zainstalowany Docker
- (Opcjonalnie) Docker Compose
Uruchomienie Ollama w Dockerze
docker run -d \
--name ollama \
-p 11434:11434 \
-v ollama:/root/.ollama \
ollama/ollamaSprawdzenie działania:
docker logs ollamaDocker Compose (zalecane)
version: "3.9"
services:
ollama:
image: ollama/ollama
container_name: ollama
ports:
- "11434:11434"
volumes:
- ollama:/root/.ollama
restart: unless-stopped
volumes:
ollama:Uruchomienie:
docker compose up -dIntegracja Ollama z Open WebUI

Open WebUI to webowy interfejs (dawniej Ollama WebUI), który pozwala korzystać z Ollama przez przeglądarkę – podobnie jak z ChatGPT, ale lokalnie.
Instalacja Open WebUI (Docker)
docker run -d \
--name open-webui \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--restart unless-stopped \
ghcr.io/open-webui/open-webui:mainWersja Docker Compose (docker-compose.yaml)
version: "3.9"
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://host.docker.internal:11434
volumes:
- open-webui:/app/backend/data
restart: unless-stopped
extra_hosts:
- "host.docker.internal:host-gateway"
volumes:
open-webui:Na Linuxie zamiast host.docker.internal użyj adresu IP hosta lub sieci bridge Dockera.
Dostęp do interfejsu
Po uruchomieniu przejdź do:
http://localhost:3000
Podczas pierwszego uruchomienia:
- utwórz konto administratora
- wybierz model z Ollama (np.
llama3,mistral)
Zalety Open WebUI
- interfejs podobny do ChatGPT
- historia rozmów
- obsługa wielu modeli
- możliwość pracy wielu użytkowników
Integracja z innymi aplikacjami
Ollama świetnie współpracuje z:
- Open WebUI
- VS Code (rozszerzenia AI)
- narzędziami typu LangChain
- własnymi aplikacjami (REST API)
Dzięki temu możesz używać lokalnego AI w edytorze kodu, przeglądarce lub własnych projektach.
Najczęstsze problemy
Ollama nie uruchamia się
- Sprawdź, czy usługa działa (Linux)
systemctl status ollama- Upewnij się, że port
11434nie jest zajęty
Model działa wolno
- Sprawdź ilość RAM
- Rozważ mniejszy model
- Włącz wsparcie GPU (jeśli dostępne)
Porównanie popularnych modeli w Ollama
Ollama pozwala pobierać i uruchamiać wiele modeli o różnych rozmiarach, wydajności i przeznaczeniu. Poniżej krótkie zestawienie, które pomoże Ci wybrać odpowiedni model do Twojej konfiguracji:
| Model | Rozmiar (ok.) | Zastosowanie | Wymagane zasoby |
|---|---|---|---|
| Gemma (np. 2B, 7B) | od ~1.7 GB | Lekki, ogólnego przeznaczenia | ≃ 8–16 GB RAM |
| Llama 3 (np. 8B, 70B) | od ~4.7 GB do ~40 GB+ | Bardzo uniwersalne LLM | ≥ 16 GB RAM; GPU zalecany |
| Mistral (np. mistral:7B, mixtral) | od ~4 GB | Wydajność / balans między mocą a szybkością | ≥ 16 GB RAM |
| CodeLlama / Code models | ~3.8 GB | Generowanie i analiza kodu | ≃ 16 GB RAM |
| Multimodalne (np. Llava) | zależne od wariantu | Tekst + obrazy | ≥ 16 GB RAM; GPU bardzo pomocny |
Optymalizacja wydajności Ollama: RAM, GPU i konfiguracje
Aby Ollama działał płynnie i szybko, kluczowe są zasoby sprzętowe — szczególnie pamięć RAM i pamięć GPU (VRAM). Bez odpowiedniej ilości pamięci modele mogą działać, ale wydajność będzie znacznie niższa.
RAM / System memory
- 8 GB RAM: wystarcza dla najlżejszych modeli (~1–3 B parametrów) w wersjach skwantyzowanych.
- 16 GB RAM: minimalne rozsądne rozwiązanie dla modeli ~7–13 B parametrów.
- 32 GB+ RAM: potrzebne do większych modeli (20 B+), zwłaszcza bez GPU.
Jeśli model nie mieści się w pamięci GPU, Ollama zacznie „rozlewać” operacje do RAM lub nawet na dysk — co znacznie spowalnia generowanie odpowiedzi.
GPU / VRAM
GPU jest najważniejszym czynnikiem wydajności dla większych modeli:
- modele w pełni mieszczące się w VRAM działają 5–20× szybciej niż tylko CPU.
- jeśli model przekracza VRAM, wtedy spada throughput i rośnie opóźnienie.
Przykładowe zalecenia VRAM:
- 8–12 GB VRAM – świetne dla modeli ~7–8 B parametrów.
- 16+ GB VRAM – dobre dla ~13–20 B parametrów.
- 24+ GB VRAM – potrzebne do modeli ~30–70 B (np. Llama 3.1 70B).
Tipy optymalizacyjne
- Używaj quantyzacji (np. 4-bit, 8-bit) tam, gdzie to możliwe – drastycznie redukuje pamięć i może poprawić wydajność przy minimalnym spadku jakości.
- Na Windows/Linux z Vulkan lub CUDA ustaw zmienne środowiskowe, które poprawią wykorzystanie GPU.
- Gdy używasz Dockera, pamiętaj o przypisaniu urządzeń GPU i konfiguracji sterowników GPU w kontenerze.
Krótka interpretacja wyboru
- Najlżejsze modele (1–3 B) – idealne do testów, niskiego zużycia pamięci i słabszych CPU.
- Średnie modele (~7–13 B) – dobry balans jakości i zasobów, działają płynnie na GPU z ~8–16 GB VRAM.
- Duże modele (~30–70 B) – wymagają dużo pamięci i najlepiej GPU z dużym VRAM (≥24 GB) lub znacząco większego RAM.
Uwaga: Rozmiar modelu i liczba parametrów to tylko przybliżenie — warto patrzeć też na poziomy kwantyzacji i oficjalne rekomendacje Ollama przy pobieraniu modelu.
Podsumowanie
Dzięki Ollamie możesz uruchomić lokalne AI bez chmury na systemach Windows, Linux i macOS. Wersja dockerowa oraz integracja z Open WebUI sprawiają, że narzędzie to świetnie nadaje się zarówno na desktop, jak i na serwer czy NAS.
To idealne rozwiązanie dla osób ceniących prywatność, wydajność i pełną kontrolę nad modelami AI.
Polecam sprawdzić również inne artykuły w kategorii AI.
Bez komentarza! Bądź pierwszy.