Ai Docker Konteneryzacja Linux Poradniki Serwery

Ollama – lokalna sztuczna inteligencja na Twoim komputerze. Instalacja na Windows, Linux i macOS

04 lut 2026

125 Widoki

Ollama to przełomowe narzędzie, które zdemokratyzowało dostęp do sztucznej inteligencji. Jeszcze do niedawna uruchomienie modelu językowego na własnym komputerze wymagało zaawansowanej wiedzy programistycznej, konfigurowania środowisk Python i posiadania potężnego sprzętu serwerowego. Ollama zmienia zasady gry, sprowadzając cały proces do kilku prostych komend i działając na zasadzie „plug-and-play”.

Spis treści

Narzędzie to pozwala błyskawicznie pobierać i uruchamiać najpotężniejsze modele o otwartych wagach (open weights), takie jak:

Llama 3 (od Meta) – wszechstronny model do codziennych zadań,
Mistral – lekki, ale niezwykle inteligentny model europejski,
Gemma (od Google) – najnowsza technologia prosto z laboratoriów DeepMind.

Dlaczego warto porzucić chmurę na rzecz Ollama?
Kluczem jest tu suwerenność danych. Korzystając z popularnych chatbotów online, wysyłasz swoje pytania na zewnętrzne serwery. Dzięki Ollama zyskujesz:

Absolutną prywatność: Twoje dane, dokumenty i rozmowy nigdy nie opuszczają Twojego urządzenia. To idealne rozwiązanie do pracy z wrażliwymi danymi firmowymi czy prywatnymi zapiskami.
Niezależność od internetu: Możesz korzystać z potężnego AI w pociągu, samolocie lub w miejscu bez zasięgu – cała “wiedza” modelu znajduje się na Twoim dysku.
Brak ukrytych kosztów: Korzystasz z modeli za darmo, bez miesięcznych subskrypcji i limitów zapytań. Jedynym ograniczeniem jest moc obliczeniowa Twojego komputera.

W tym poradniku przeprowadzę Cię przez proces instalacji Ollama na trzech głównych systemach: Windows, Linux oraz macOS. Pokażę Ci nie tylko jak zainstalować “silnik”, ale również jak zasiąść za sterami swojego pierwszego modelu AI.

Wymagania sprzętowe

Minimalne wymagania:

8 GB RAM (zalecane 16 GB lub więcej)
Procesor x86_64 lub Apple Silicon (M1/M2/M3)
System:
- Windows 10/11 (64-bit)
- Linux (Ubuntu, Debian, Fedora, Arch i pochodne)
- macOS 12+ (Monterey lub nowszy)

Uwaga: Ollama działa również na CPU, ale karta graficzna (GPU) znacząco poprawia wydajność.

Instalacja Ollama na Windows

Krok 1: Pobranie instalatora

1. Wejdź na oficjalną stronę projektu: ollama.com

2. Pobierz instalator dla Windows (.exe).

Krok 2: Instalacja

Uruchom pobrany plik instalacyjny.
Postępuj zgodnie z instrukcjami kreatora instalacji.
Po zakończeniu instalacji Ollama uruchomi się w tle jako usługa.

Krok 3: Sprawdzenie instalacji

Otwórz PowerShell lub Wiersz poleceń i wpisz:

ollama --version

Jeśli zobaczysz numer wersji – instalacja zakończyła się sukcesem.

Instalacja Ollama na Linux

Krok 1: Instalacja za pomocą skryptu

Najprostsza metoda to użycie oficjalnego skryptu instalacyjnego:

curl -fsSL https://ollama.com/install.sh | sh

Skrypt:

pobierze Ollama
zainstaluje binarkę
doda usługę systemd

Krok 2: Uruchomienie usługi

W większości dystrybucji Ollama uruchamia się automatycznie. Jeśli nie:

sudo systemctl enable --now ollama

sudo systemctl status ollama

Krok 3: Sprawdzenie działania

ollama --version

Instalacja Ollama na macOS

Metoda 1: Oficjalna aplikacja (zalecana)

1. Wejdź na ollama.com

2. Pobierz aplikację dla macOS.

3. Przeciągnij Ollama do katalogu Applications.

4. Uruchom aplikację – Ollama będzie działać w tle.

Metoda 2: Homebrew

Jeśli korzystasz z Homebrew:

brew install ollama

Po instalacji uruchom usługę:

ollama serve

Uruchomienie pierwszego modelu

Po zainstalowaniu Ollama na dowolnym systemie możesz od razu uruchomić model.

Przykład – model LLaMA 3:

ollama run llama3

Inne popularne modele:

ollama run mistral

ollama run gemma

ollama run codellama

Model zostanie automatycznie pobrany i zapisany lokalnie.

Podstawowe komendy Ollama

Lista zainstalowanych modeli:

ollama list

Usunięcie modelu:

ollama rm nazwa_modelu

Uruchomienie serwera API:

ollama serve

Domyślnie API działa pod adresem:

http://localhost:11434

Instalacja Ollama z Dockerem

Ollama może działać również w kontenerze Docker, co jest idealnym rozwiązaniem dla serwerów, NAS‑ów (np. TrueNAS, Synology, OpenMediaVault) oraz środowisk deweloperskich.

Jeśli nie masz jeszcze zainstalowanego Dockera, polecam nasz poradnik: Instalacja i konfiguracja Dockera.

Wymagania

Zainstalowany Docker
(Opcjonalnie) Docker Compose

Uruchomienie Ollama w Dockerze

docker run -d \
  --name ollama \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

Sprawdzenie działania:

docker logs ollama

Docker Compose (zalecane)

version: "3.9"

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama:/root/.ollama
    restart: unless-stopped

volumes:
  ollama:

Uruchomienie:

docker compose up -d

Integracja Ollama z Open WebUI

Open WebUI to webowy interfejs (dawniej Ollama WebUI), który pozwala korzystać z Ollama przez przeglądarkę – podobnie jak z ChatGPT, ale lokalnie.

Instalacja Open WebUI (Docker)

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

Wersja Docker Compose (docker-compose.yaml)

version: "3.9"

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://host.docker.internal:11434
    volumes:
      - open-webui:/app/backend/data
    restart: unless-stopped
    extra_hosts:
      - "host.docker.internal:host-gateway"

volumes:
  open-webui:

Na Linuxie zamiast host.docker.internal użyj adresu IP hosta lub sieci bridge Dockera.

Dostęp do interfejsu

Po uruchomieniu przejdź do:

http://localhost:3000

Podczas pierwszego uruchomienia:

utwórz konto administratora
wybierz model z Ollama (np. llama3, mistral)

Zalety Open WebUI

interfejs podobny do ChatGPT
historia rozmów
obsługa wielu modeli
możliwość pracy wielu użytkowników

Integracja z innymi aplikacjami

Ollama świetnie współpracuje z:

Open WebUI
VS Code (rozszerzenia AI)
narzędziami typu LangChain
własnymi aplikacjami (REST API)

Dzięki temu możesz używać lokalnego AI w edytorze kodu, przeglądarce lub własnych projektach.

Najczęstsze problemy

Ollama nie uruchamia się

Sprawdź, czy usługa działa (Linux)

systemctl status ollama

Upewnij się, że port 11434 nie jest zajęty

Model działa wolno

Sprawdź ilość RAM
Rozważ mniejszy model
Włącz wsparcie GPU (jeśli dostępne)

Porównanie popularnych modeli w Ollama

Ollama pozwala pobierać i uruchamiać wiele modeli o różnych rozmiarach, wydajności i przeznaczeniu. Poniżej krótkie zestawienie, które pomoże Ci wybrać odpowiedni model do Twojej konfiguracji:

Model	Rozmiar (ok.)	Zastosowanie	Wymagane zasoby
Gemma (np. 2B, 7B)	od ~1.7 GB	Lekki, ogólnego przeznaczenia	≃ 8–16 GB RAM
Llama 3 (np. 8B, 70B)	od ~4.7 GB do ~40 GB+	Bardzo uniwersalne LLM	≥ 16 GB RAM; GPU zalecany
Mistral (np. mistral:7B, mixtral)	od ~4 GB	Wydajność / balans między mocą a szybkością	≥ 16 GB RAM
CodeLlama / Code models	~3.8 GB	Generowanie i analiza kodu	≃ 16 GB RAM
Multimodalne (np. Llava)	zależne od wariantu	Tekst + obrazy	≥ 16 GB RAM; GPU bardzo pomocny

Optymalizacja wydajności Ollama: RAM, GPU i konfiguracje

Aby Ollama działał płynnie i szybko, kluczowe są zasoby sprzętowe — szczególnie pamięć RAM i pamięć GPU (VRAM). Bez odpowiedniej ilości pamięci modele mogą działać, ale wydajność będzie znacznie niższa.

RAM / System memory

8 GB RAM: wystarcza dla najlżejszych modeli (~1–3 B parametrów) w wersjach skwantyzowanych.
16 GB RAM: minimalne rozsądne rozwiązanie dla modeli ~7–13 B parametrów.
32 GB+ RAM: potrzebne do większych modeli (20 B+), zwłaszcza bez GPU.

Jeśli model nie mieści się w pamięci GPU, Ollama zacznie „rozlewać” operacje do RAM lub nawet na dysk — co znacznie spowalnia generowanie odpowiedzi.

GPU / VRAM

GPU jest najważniejszym czynnikiem wydajności dla większych modeli:

modele w pełni mieszczące się w VRAM działają 5–20× szybciej niż tylko CPU.
jeśli model przekracza VRAM, wtedy spada throughput i rośnie opóźnienie.

Przykładowe zalecenia VRAM:

8–12 GB VRAM – świetne dla modeli ~7–8 B parametrów.
16+ GB VRAM – dobre dla ~13–20 B parametrów.
24+ GB VRAM – potrzebne do modeli ~30–70 B (np. Llama 3.1 70B).

Tipy optymalizacyjne

Używaj quantyzacji (np. 4-bit, 8-bit) tam, gdzie to możliwe – drastycznie redukuje pamięć i może poprawić wydajność przy minimalnym spadku jakości.
Na Windows/Linux z Vulkan lub CUDA ustaw zmienne środowiskowe, które poprawią wykorzystanie GPU.
Gdy używasz Dockera, pamiętaj o przypisaniu urządzeń GPU i konfiguracji sterowników GPU w kontenerze.

Krótka interpretacja wyboru

Najlżejsze modele (1–3 B) – idealne do testów, niskiego zużycia pamięci i słabszych CPU.
Średnie modele (~7–13 B) – dobry balans jakości i zasobów, działają płynnie na GPU z ~8–16 GB VRAM.
Duże modele (~30–70 B) – wymagają dużo pamięci i najlepiej GPU z dużym VRAM (≥24 GB) lub znacząco większego RAM.

Uwaga: Rozmiar modelu i liczba parametrów to tylko przybliżenie — warto patrzeć też na poziomy kwantyzacji i oficjalne rekomendacje Ollama przy pobieraniu modelu.

Podsumowanie

Dzięki Ollamie możesz uruchomić lokalne AI bez chmury na systemach Windows, Linux i macOS. Wersja dockerowa oraz integracja z Open WebUI sprawiają, że narzędzie to świetnie nadaje się zarówno na desktop, jak i na serwer czy NAS.

To idealne rozwiązanie dla osób ceniących prywatność, wydajność i pełną kontrolę nad modelami AI.

Polecam sprawdzić również inne artykuły w kategorii AI.

Ostatnia aktualizacja: 09 lut 2026

Nowości

Poradniki

Czego szukasz?

Menu główne