Запуск модели qwen в MiniKube
Минут 6 устанавливаетя.
$ cat << EOF | kubectl apply -f -
apiVersion: v1
kind: Service
metadata:
name: qwen-service
spec:
type: NodePort
selector:
app: qwen
ports:
- port: 11434
targetPort: 11434
nodePort: 30434
---
apiVersion: apps/v1
kind: Deployment
metadata:
name: qwen-deployment
spec:
replicas: 1
selector:
matchLabels:
app: qwen
template:
metadata:
labels:
app: qwen
spec:
containers:
- name: ollama
image: ollama/ollama:latest
resources:
limits:
nvidia.com/gpu: 1 # Тот самый лимит, который мы настраивали!
ports:
- containerPort: 11434
env:
- name: OLLAMA_MODELS
value: '/root/.ollama'
EOF
$ kubectl get pods
NAME READY STATUS RESTARTS AGE
qwen-deployment-d57b558dd-w9vwd 1/1 Running 0 6m40s
$ kubectl exec -it $(kubectl get pod -l app=qwen -o name) -- ollama run qwen2.5:1.5b
$ minikube ip
$ curl http://192.168.49.2:30434/api/generate -d '{
"model": "qwen2.5:1.5b",
"prompt": "Привет! Ты работаешь на моей GTX 1650 внутри Kubernetes?",
"stream": false
}' | jq -r '.response'
response:
Да, я работаю в вашем кластере Kubernetes с NVIDIA GeForce GTX 1650 видеокартой для выполнения задачи. Настройка и управление рабочими нагрузками на GPU у меня не вызывает проблем, так как это мой основной функционал в текущей роли