💌 Iscriviti alla mia newsletter: Digital Innovation Review

👨‍💻 E aggiungimi su Linkedin

HomeBlogApprofondimentiGuida ai LLM Open Source

Guida ai LLM Open Source

I dieci migliori LLM Open source, una raccolta completa di tutti i più quotati modelli di linguaggio open source ed una guida alle relative licenze d’uso.

Quando ho scoperto le potenzialità dei grandi modelli linguistici (LLM), sono rimasto sbalordito. Sembrava che il futuro fosse improvvisamente arrivato. Questi LLM, o modelli fondamentali, imparano quasi tutto ciò che gli si propone, trasformandosi in veri e propri catalizzatori per le aziende, non solo semplici strumenti. Rendono i processi più veloci, creativi ed efficienti, riducendo drasticamente i costi operativi.

Tuttavia, con l’esplosione dell’interesse per l’IA generativa, il mercato si è saturato di LLM, complicando la scelta. Molti sono limitati da costosi paywall, mentre altri, open-source, promettono libertà e innovazione, ma con restrizioni. Alcuni visionari hanno rilasciato LLM open-source con licenze commerciali, un’opportunità d’oro per le imprese.

Vediamo quali sono i migliori 10 da prendere in considerazione per un progetto aziendale:

  1. LLaMA 2 di Meta: Meta ha segnato un importante passo avanti con il rilascio di LLaMA 2, un modello di linguaggio di grandi dimensioni (LLM) open-source. Con una capacità che va dai 7 ai 70 miliardi di parametri, LLaMA 2 si distingue per la sua versatilità nel linguaggio naturale e nelle attività di programmazione. È stato affinato con tecniche di apprendimento rinforzato basato su feedback umano, rendendolo uno strumento potente e adattabile per chatbot e altre applicazioni AI.
  2. BLOOM: Lanciato nel 2022 da Hugging Face, BLOOM rappresenta un traguardo per l’IA generativa democratizzata. Con 176 miliardi di parametri, supporta 46 lingue e 13 linguaggi di programmazione. La trasparenza è fondamentale per BLOOM, permettendo a tutti di accedere, eseguire e migliorare il codice sorgente e i dati di allenamento.
  3. BERT: Sviluppato da Google nel 2018, BERT è un LLM open-source innovativo che ha stabilito nuovi standard nelle attività di elaborazione del linguaggio naturale. BERT, acronimo di Bidirectional Encoder Representations from Transformers, è stato uno dei primi esperimenti a esplorare il potenziale delle architetture transformer e rimane uno dei LLM più popolari e utilizzati.
  4. Falcon 180B: Il Falcon 180B dell’Institute of Technology Innovation degli Emirati Arabi Uniti, lanciato nel 2023, è un LLM addestrato su 180 miliardi di parametri. Questo modello impressionante ha superato altri LLM come LLaMA 2 e GPT-3.5 in diverse attività di elaborazione del linguaggio naturale, posizionandosi come un serio concorrente nel campo dell’IA generativa.
  5. OPT-175B: Parte della suite di modelli transformer pre-allenati di Meta, OPT-175B è un LLM open-source con 175 miliardi di parametri. Lanciato nel 2022, offre prestazioni simili a GPT-3, ma è disponibile solo per scopi di ricerca, in linea con l’impegno di Meta per l’open source nell’IA generativa.
  6. XGen-7B di Salesforce: Salesforce è entrata nella corsa agli LLM con il lancio di XGen-7B nel 2023. Questo modello si concentra sull’efficienza e supporta finestre di contesto più lunghe, permettendo una generazione di testo più coerente e accurata, pur avendo solo 7 miliardi di parametri.
  7. GPT-NeoX e GPT-J di EleutherAI: Sviluppati da EleutherAI, GPT-NeoX e GPT-J sono due alternative open-source a GPT. Con 20 miliardi di parametri per GPT-NeoX e 6 miliardi per GPT-J, questi modelli offrono risultati accurati, sebbene non siano all’altezza dei LLM più avanzati in termini di dimensioni.
  8. Vicuna 13-B: Vicuna-13B è un modello conversazionale open-source sviluppato a partire da LLaMa 13B e ottimizzato per chatbot e altre applicazioni di intelligenza artificiale conversazionale. È stato addestrato su conversazioni condivise dagli utenti e ha mostrato prestazioni paragonabili a quelle di ChatGPT e Google Bard, superando altri modelli in molti casi.
  9. Mistral 7B: La Mistral AI, azienda francese, ha recentemente lanciato il suo nuovo Large Language Model (LLM) denominato Mistral 7B. Questo modello innovativo, addestrato con 7,3 miliardi di parametri, è ora disponibile globalmente per tutti gli sviluppatori. Grazie alla licenza Apache 2.0, Mistral 7B è accessibile liberamente, permettendo a chiunque di integrarlo nelle proprie applicazioni. Il progetto, che non è frutto di un’improvvisazione ma di un lavoro maturo e ben strutturato, ha visto la partecipazione del consorzio CINECA/EuroHPC e il supporto del supercomputer Leonardo. Mistral 7B si distingue per le sue eccezionali prestazioni, superando modelli come Llama 2 13B e Llama 1 34B di Meta. Utilizza tecniche avanzate come Grouped-query attention (GQA) e Sliding Window Attention (SWA) per migliorare l’efficienza del processo di inferenza, risultando un modello di punta per le sue dimensioni e prestazioni. È facilmente implementabile su piattaforme cloud come AWS, Google Cloud e Azure, e disponibile per modifiche e adattamenti sotto licenza Apache 2.0.
  10. GPT4All: GPT4All è un ecosistema progettato per democratizzare l’accesso e l’uso dei modelli linguistici potenti e personalizzati, rendendoli eseguibili su CPU di livello consumer. L’obiettivo di GPT4All è di fornire il miglior modello linguistico assistente con istruzioni sintonizzate, accessibile e utilizzabile da chiunque, sia aziende che singoli individui. I modelli GPT4All, con dimensioni tra i 3GB e gli 8GB, possono essere scaricati e implementati nell’ecosistema software open-source di GPT4All, mantenuto e supportato da Nomic AI. Questo ecosistema non solo assicura qualità e sicurezza, ma facilita anche l’addestramento e la distribuzione di Large Language Models personalizzati, rendendoli una risorsa preziosa e accessibile per un vasto pubblico.

Ma volendo avere una panoramica ancora più completa dei modelli di linguaggio più promettenti usciti negli ultimi mesi possiamo fare affidamento su questa classifica: è realizzata da https://chat.lmsys.org/ e si basa sui seguenti tre parametri di riferimento.

  • Chatbot Arena – una piattaforma di battaglie randomizzate e in crowdsourcing. Utilizziamo i voti di oltre 100.000 utenti per calcolare le valutazioni Elo.
  • MT-Bench – una serie di domande impegnative a più turni. Utilizziamo GPT-4 per valutare le risposte dei modelli.
  • MMLU (5 colpi) – un test per misurare l’accuratezza multitask di un modello su 57 compiti.

Codice 💻: Le valutazioni Arena Elo sono calcolate da questo notebook. I punteggi di MT-bench (valutazione a risposta singola su una scala di 10) sono calcolati da fastchat.llm_judge. I punteggi MMLU sono per lo più calcolati da InstructEval. I valori più alti sono migliori per tutti i benchmark. Le celle vuote significano che non sono disponibili.

Model⭐ Arena Elo rating📈 MT-bench (score)MMLULicense
GPT-4-Turbo12179.32Proprietary
GPT-4-031412018.9686.4Proprietary
Claude-111537.977Proprietary
GPT-4-061311529.18Proprietary
Claude-2.011278.0678.5Proprietary
Claude-2.111188.18Proprietary
GPT-3.5-turbo-061311128.39Proprietary
Claude-instant-111097.8573.4Proprietary
GPT-3.5-turbo-031411057.9470Proprietary
Tulu-2-DPO-70B11057.89AI2 ImpACT Low-risk
Yi-34B-chat110273.5Yi License
WizardLM-70b-v1.010977.7163.7Llama 2 Community
Vicuna-33B10937.1259.2Non-commercial
Starling-lm-7b-alpha10838.0963.9CC-BY-NC-4.0
pplx-70b-online1080Proprietary
OpenChat-3.510777.8164.3Apache-2.0
OpenHermes-2.5-Mistral-7b1075Apache-2.0
GPT-3.5-Turbo-110610748.32Proprietary
Llama-2-70b-chat10696.8663Llama 2 Community
WizardLM-13b-v1.210537.252.7Llama 2 Community
Zephyr-7b-beta10457.3461.4MIT
MPT-30B-chat10396.3950.4CC-BY-NC-SA-4.0
Vicuna-13B10396.5755.8Llama 2 Community
QWen-Chat-14B10396.9666.5Qianwen LICENSE
Zephyr-7b-alpha10346.88MIT
CodeLlama-34B-instruct103253.7Llama 2 Community
falcon-180b-chat103168Falcon-180B TII License
Guanaco-33B10296.5357.6Non-commercial
Llama-2-13b-chat10276.6553.6Llama 2 Community
Mistral-7B-Instruct-v0.110186.8455.4Apache 2.0
pplx-7b-online1017Proprietary
Llama-2-7b-chat10096.2745.8Llama 2 Community
Vicuna-7B10026.1749.8Llama 2 Community
PaLM-Chat-Bison-00110006.4Proprietary
Koala-13B9665.3544.7Non-commercial
ChatGLM3-6B958Apache-2.0
GPT4All-13B-Snoozy9365.4143Non-commercial
MPT-7B-Chat9305.4232CC-BY-NC-SA-4.0
ChatGLM2-6B9244.9645.5Apache-2.0
RWKV-4-Raven-14B9243.9825.6Apache 2.0
Alpaca-13B9044.5348.1Non-commercial
OpenAssistant-Pythia-12B8964.3227Apache 2.0
ChatGLM-6B8824.536.1Non-commercial
FastChat-T5-3B8733.0447.7Apache 2.0
StableLM-Tuned-Alpha-7B8452.7524.4CC-BY-NC-SA-4.0
Dolly-V2-12B8223.2825.7MIT
LLaMA-13B8002.6147Non-commercial
WizardLM-30B7.0158.7Non-commercial
Vicuna-13B-16k6.9254.5Llama 2 Community
WizardLM-13B-v1.16.7650Non-commercial
Tulu-30B6.4358.1Non-commercial
Guanaco-65B6.4162.1Non-commercial
OpenAssistant-LLaMA-30B6.4156Non-commercial
WizardLM-13B-v1.06.3552.3Non-commercial
Vicuna-7B-16k6.2248.5Llama 2 Community
Baize-v2-13B5.7548.9Non-commercial
XGen-7B-8K-Inst5.5542.1Non-commercial
Nous-Hermes-13B5.5149.3Non-commercial
MPT-30B-Instruct5.2247.8CC-BY-SA 3.0
Falcon-40B-Instruct5.1754.7Apache 2.0
H2O-Oasst-OpenLLaMA-13B4.6342.8Apache 2.0
Ultimo aggiornamento: Novembre 2023

Ogni modello utilizza una licenza d’uso, vediamo le diverse tipologie di licenze open source per i modelli di linguaggio di grandi dimensioni (LLM):

  1. Apache 2.0:
    • Licenza permissiva che consente l’uso, la modifica e la distribuzione del software anche a fini commerciali.
    • Richiede di dichiarare qualsiasi modifica apportata al software quando viene ridistribuito.
    • Include una concessione esplicita dei diritti di brevetto dai contribuenti agli utenti, ma richiede di fornire l’attribuzione.
  2. MIT License:
    • Licenza permissiva nota per la sua semplicità.
    • Consente praticamente qualsiasi utilizzo del software, compreso l’uso commerciale, purché venga fornita l’attribuzione.
    • Non concede specificamente diritti di brevetto all’utente.
  3. CC BY-SA-4.0 (Creative Commons Attribution-ShareAlike 4.0):
    • Permette l’uso, la condivisione e l’elaborazione del materiale per qualsiasi scopo, incluso commerciale.
    • Qualsiasi opera derivata deve essere distribuita sotto la stessa licenza.
  4. OpenRAIL-M v1:
    • Creata specificamente per i modelli di intelligenza artificiale.
    • Permette l’uso commerciale, ma include stipulazioni riguardanti la sicurezza e l’etica.
  5. BSD Licenses:
    • BSD-2-Clause: Consente un uso quasi illimitato, inclusa la ridistribuzione e l’uso in software proprietario, purché venga conservata la notifica di copyright.
    • BSD-3-Clause: Simile alla licenza a 2 clausole, ma con una clausola aggiuntiva che impedisce l’uso del nome del licenziante per promuovere prodotti derivati dal software senza autorizzazione.
  6. MPL-2.0 (Mozilla Public License 2.0):
    • Licenza copyleft debole; consente di integrare il codice open source in progetti proprietari.
    • Qualsiasi modifica al software concesso in licenza deve rimanere sotto la MPL e essere resa pubblica.
  7. Ms-PL (Microsoft Public License):
    • Licenza permissiva specifica per l’ecosistema Microsoft.
    • Consente la ridistribuzione e l’uso per qualsiasi scopo, a condizione di includere l’avviso di copyright originale.
  8. CC0 (Creative Commons Zero):
    • Non è propriamente una licenza software ma una dedica al dominio pubblico.
    • L’autore rinuncia a tutti i loro diritti d’autore e diritti correlati, permettendo agli altri di usare, modificare e distribuire l’opera per qualsiasi scopo senza restrizioni.
  9. Unlicense:
    • Licenza che dedica l’opera al dominio pubblico, rinunciando a tutte le rivendicazioni di copyright.
    • Concede la libertà assoluta di utilizzare, modificare e distribuire l’opera.

Queste sono alcune delle licenze più comuni che consentono l’uso commerciale. È importante notare che le licenze Creative Commons come CC BY-NC, CC BY-NC-SA e CC BY-NC-ND pongono specifiche restrizioni sull’uso commerciale del contenuto o del software.

Per le aziende, è cruciale distinguere i modelli open-source commercialmente utilizzabili, basandosi sulle loro licenze. Ad esempio, Apache 2.0 e MIT sono licenze permissive che consentono un ampio uso, anche commerciale. Altre licenze, come CC BY-SA-4.0, OpenRAIL-M v1, e BSD, offrono diversi gradi di libertà e restrizioni. È essenziale capire queste licenze per scegliere il modello giusto per le proprie esigenze commerciali.

Non basta solo considerare la licenza di un LLM, ma anche valutare le sue specifiche capacità. Alcuni modelli sono pre-addestrati, altri sono stati finemente tarati per compiti specifici. Ho pubblicato una classifica dei migliori LLM open-source, considerando le loro capacità e la facilità di adozione.

In conclusione, sebbene esistano centinaia di LLM, solo alcuni sono veramente adatti alle imprese. Questo articolo spero abbia chiarito la situazione riguardo l’usabilità degli LLM dal punto di vista aziendale. Man mano che la tecnologia progredisce, sono certo che vedremo sempre più LLM favorevoli alle imprese.

Il mondo sta cambiando e chi ha successo impara a innovare i propri prodotti insieme ai propri processi e alle persone.

Su di me

Iscriviti alla Newsletter

Ogni due settimane un approfondimento sul mondo della Digital Innovation

© 2024 Andrea Zurini