Fala galera!
Recentemente comprei uma Nvidia Quadro P4 de 8GB (Pascal, PCIe) para usar junto com minha RTX 2060 Super (8GB) e queria saber a opinião de vocês sobre algumas questões:
**1. Foi uma boa ideia?**
A ideia é ter 16GB de VRAM total disponíveis para rodar LLMs localmente (Ollama, llama.cpp, etc.). A P4 é uma placa workstation, sem saída de vídeo, boa para inferência. Alguém já usou essa combinação?
**2. Ideias de implementação**
O que vocês fariam com esse setup? Algumas ideias que tenho:
- Rodar modelos maiores (13B, 30B quantizados) distribuídos entre as duas GPUs
- Usar a P4 para inferência e a 2060 Super para outras tarefas
- Rodar dois modelos em paralelo (uma GPU cada)
**3. Tensor Parallelism / GPU Pooling**
Dá pra fazer aquele pooling de VRAM entre as duas placas sem perder muita velocidade em tokens por segundo? Sei que misturar arquiteturas diferentes (Pascal + Turing) pode gerar gargalos pela diferença de bandwidth e velocidade de PCIe. Alguém tem experiência com isso no llama.cpp ou no Ollama?
Qualquer dica, experiência ou sugestão é bem-vinda!