Com descarregar i instal·lar Llama 2 localment

Lectors com tu ajuden a donar suport a MUO. Quan feu una compra mitjançant enllaços al nostre lloc, podem guanyar una comissió d'afiliats. Llegeix més.

Meta va llançar Llama 2 l'estiu del 2023. La nova versió de Llama està afinada amb un 40% més de fitxes que el model Llama original, duplicant la seva durada del context i superant significativament els altres models de codi obert disponibles. La manera més ràpida i senzilla d'accedir a Llama 2 és mitjançant una API a través d'una plataforma en línia. Tanmateix, si voleu la millor experiència, és millor instal·lar i carregar Llama 2 directament al vostre ordinador.

per què imessage no funciona al meu Mac?

Tenint això en compte, hem creat una guia pas a pas sobre com utilitzar Text-Generation-WebUI per carregar localment un LLM Llama 2 quantificat al vostre ordinador.

Per què instal·lar Llama 2 localment

Hi ha moltes raons per les quals la gent decideix executar Llama 2 directament. Alguns ho fan per problemes de privadesa, alguns per personalització i altres per capacitats fora de línia. Si esteu investigant, ajustant o integrant Llama 2 per als vostres projectes, és possible que accedir a Llama 2 mitjançant l'API no us convé. L'objectiu d'executar un LLM localment al vostre ordinador és reduir la dependència eines d'IA de tercers i utilitzeu la IA en qualsevol moment i en qualsevol lloc, sense preocupar-vos de filtrar dades potencialment sensibles a empreses i altres organitzacions.

Dit això, comencem amb la guia pas a pas per instal·lar Llama 2 localment.

Pas 1: instal·leu Visual Studio 2019 Build Tool

Per simplificar les coses, utilitzarem un instal·lador d'un sol clic per a Text-Generation-WebUI (el programa utilitzat per carregar Llama 2 amb GUI). Tanmateix, perquè aquest instal·lador funcioni, heu de descarregar l'eina de creació de Visual Studio 2019 i instal·lar els recursos necessaris.

Descarregar: Visual Studio 2019 (gratuït)

Aneu endavant i descarregueu l'edició comunitària del programari.
Ara instal·leu Visual Studio 2019 i obriu el programari. Un cop obert, marqueu la casella Desenvolupament d'escriptori amb C++ i premeu instal·lar.

Ara que teniu instal·lat el desenvolupament d'escriptori amb C++, és hora de descarregar l'instal·lador d'un sol clic de Text-Generation-WebUI.

Pas 2: instal·leu Text-Generation-WebUI

L'instal·lador d'un sol clic de Text-Generation-WebUI és un script que crea automàticament les carpetes necessàries i configura l'entorn Conda i tots els requisits necessaris per executar un model d'IA.

Per instal·lar l'script, descarregueu l'instal·lador amb un sol clic fent clic a Codi > Descarrega ZIP.

Descarregar: Instal·lador de WebUI de generació de text (gratuït)

Un cop descarregat, extreu el fitxer ZIP a la vostra ubicació preferida i obriu la carpeta extreta.
Dins de la carpeta, desplaceu-vos cap avall i cerqueu el programa d'inici adequat per al vostre sistema operatiu. Executeu els programes fent doble clic a l'script adequat.
- Si esteu a Windows, seleccioneu start_windows fitxer per lots
- per a MacOS, seleccioneu start_macos guix de closca
- per a Linux, start_linux script de shell.
El vostre antivirus pot crear una alerta; això està bé. El missatge és només un antivirus fals positiu per executar un fitxer per lots o un script. Fer clic a Corre de totes maneres .
S'obrirà un terminal i iniciarà la configuració. Al principi, la configuració s'aturarà i us preguntarà quina GPU esteu utilitzant. Seleccioneu el tipus adequat de GPU instal·lada al vostre ordinador i premeu Enter. Per a aquells que no tinguin una targeta gràfica dedicada, seleccioneu Cap (vull executar models en mode CPU) . Tingueu en compte que l'execució en mode CPU és molt més lent en comparació amb l'execució del model amb una GPU dedicada.
Un cop completada la configuració, ara podeu iniciar Text-Generation-WebUI localment. Podeu fer-ho obrint el vostre navegador web preferit i introduint l'adreça IP proporcionada a l'URL.
La WebUI ja està a punt per utilitzar-se.

Tanmateix, el programa només és un carregador de models. Descarreguem Llama 2 perquè es posi en marxa el carregador de models.

Pas 3: Baixeu el model Llama 2

Hi ha moltes coses a tenir en compte a l'hora de decidir quina iteració de Llama 2 necessiteu. Aquests inclouen paràmetres, quantificació, optimització de maquinari, mida i ús. Tota aquesta informació es trobarà indicada en el nom del model.

Paràmetres: El nombre de paràmetres utilitzats per entrenar el model. Els paràmetres més grans fan models més capaços, però a costa del rendiment.
Ús: Pot ser estàndard o de xat. Un model de xat està optimitzat per utilitzar-lo com a chatbot com ChatGPT, mentre que l'estàndard és el model predeterminat.
Optimització de maquinari: Es refereix a quin maquinari funciona millor amb el model. GPTQ significa que el model està optimitzat per funcionar en una GPU dedicada, mentre que GGML està optimitzat per funcionar en una CPU.
Quantització: Indica la precisió de pesos i activacions en un model. Per a la inferència, una precisió de q4 és òptima.
Mida: Es refereix a la mida del model específic.

Tingueu en compte que alguns models poden estar organitzats de manera diferent i que ni tan sols es mostrin els mateixos tipus d'informació. No obstant això, aquest tipus de convenció de nomenclatura és bastant comú al Cara abraçada Biblioteca de models, així que val la pena entendre's.

En aquest exemple, el model es pot identificar com un model Llama 2 de mida mitjana entrenat en 13.000 milions de paràmetres optimitzats per a la inferència de xat mitjançant una CPU dedicada.

Per a aquells que funcionen amb una GPU dedicada, trieu a GPTQ model, mentre que per a aquells que utilitzen una CPU, trieu GGML . Si vols xatejar amb el model com ho faries amb ChatGPT, tria xat , però si voleu experimentar amb el model amb totes les seves capacitats, utilitzeu estàndard model. Pel que fa als paràmetres, s'ha de saber que l'ús de models més grans proporcionarà millors resultats a costa del rendiment. Personalment et recomanaria que comencis amb un model 7B. Pel que fa a la quantificació, utilitzeu q4, ja que només és per inferència.

Descarregar: GGML (gratuït)

Descarregar: GPTQ (gratuït)

puc descarregar pel·lícules amazon prime al meu ordinador portàtil

Ara que ja sabeu quina iteració de Llama 2 necessiteu, aneu endavant i descarregueu el model que vulgueu.

En el meu cas, com que ho estic executant en un ultrabook, faré servir un model GGML ajustat per al xat, flama-2-7b-chat-ggmlv3.q4_K_S.bin.

Un cop finalitzada la descàrrega, col·loqueu el model generació de text-webui-main > models .

Ara que teniu el vostre model descarregat i col·locat a la carpeta de models, és hora de configurar el carregador de models.

Pas 4: configureu Text-Generation-WebUI

Ara, comencem la fase de configuració.

Un cop més, obriu Text-Generation-WebUI executant el fitxer start_(el vostre sistema operatiu) fitxer (vegeu els passos anteriors anteriors).
A les pestanyes situades a sobre de la GUI, feu clic Model. Feu clic al botó d'actualització del menú desplegable del model i seleccioneu el vostre model.
Ara feu clic al menú desplegable de Carregador de models i seleccioneu AutoGPTQ per a aquells que utilitzen un model GTPQ i ctransformadors per a aquells que utilitzen un model GGML. Finalment, feu clic a Carrega per carregar el vostre model.
Per utilitzar el model, obriu la pestanya Xat i comenceu a provar el model.

Enhorabona, heu carregat correctament Llama2 al vostre ordinador local!

Proveu altres LLM

Ara que ja sabeu com executar Llama 2 directament al vostre ordinador mitjançant Text-Generation-WebUI, també hauríeu de poder executar altres LLM a més de Llama. Només recordeu les convencions de nomenclatura dels models i que només les versions quantificades dels models (normalment de precisió q4) es poden carregar als ordinadors habituals. Molts LLM quantificats estan disponibles a HuggingFace. Si voleu explorar altres models, cerqueu TheBloke a la biblioteca de models d'HuggingFace i hauríeu de trobar molts models disponibles.