Ollama na Prática: Modelos Locais de Linguagem


Oficina V

Eric Brasil

UNILAB e PPGIHD/UFRRJ

quarta-feira, 12 de novembro de 2025

🤔 O que é o Ollama?

  • Plataforma para rodar Modelos de Linguagem (LLMs) localmente
  • Permite executar modelos abertos (LLaMA, Mistral, Gemma, Phi etc.) em computadores pessoais
  • Cria um servidor local acessível via terminal, API ou interfaces como o Open WebUI

📍 Objetivo: democratizar o acesso a modelos de IA sem depender de nuvem ou serviços pagos.

⚙️ Como o Ollama funciona

  • Cada modelo é armazenado como um container local (modelfile)
  • Pode ser executado e chamado via CLI ou API REST
  • Baseado em llama.cpp, otimizado para CPUs e GPUs de uso comum

Exemplo:

ollama run mistral

Na primeira execução, o modelo é baixado automaticamente.

📦 Principais Modelos Disponíveis

Clique aqui para ver a lista completa

💻 Vantagens do Ollama

  • Execução offline, sem enviar dados a servidores externos
  • Maior privacidade e reprodutibilidade
  • Integração com Python, Node e REST APIs
  • Suporte à quantização, reduzindo RAM e VRAM necessárias
  • Compatível com Open WebUI, LM Studio, entre outros

🚀 Instalação e primeiros comandos

# Instalar (Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Ver modelos disponíveis
ollama list

# Baixar um modelo
ollama pull phi3

# Rodar e conversar
ollama run phi3

🧠 Prática: rodando modelos pequenos

Vamos testar juntos:

  1. Baixe o modelo Phi-3-mini (3.8B)

    ollama pull phi3:mini
  2. Teste com um prompt

    ollama run phi3:mini "Explique o conceito de Humanidades Digitais em 3 linhas"

  1. Use via API (Python)

    import requests
    
    r = requests.post("http://localhost:11434/api/generate",
        json={"model": "phi3:mini",
              "prompt": "Explique RAG em 3 linhas"})
    print(r.json()["response"])

🔒 Ética e sustentabilidade

  • Execução local → menos dependência de servidores externos
  • Privacidade garantida (dados não enviados à nuvem)
  • Contribui para a soberania tecnológica e a autonomia digital

🎯 Atividade prática

💡 Tarefas:

  1. Rodar dois modelos pequenos (Phi, Qwen ou Mistral) via GUI do Ollama ou terminal.
  2. Criar um script em Python que gere receba um documento de texto + um prompt e retorne uma resposta sobre o conteúdo do documento.

🤝 Créditos

🛠️ Slides e formatação criados com apoio do ChatGPT (modelo GPT-5) entre os dias 10 e 11 de novembro de 2025, sob orientação editorial e pedagógica de Eric Brasil.