AI allucinanti o allucinate?

Oggi vi voglio portare in un viaggio affascinante e, per certi versi, inquietante, attraverso le frontiere dell’intelligenza artificiale.

Ma partiamo dall’inizio. Piano piano ci stiamo abituando all’ingresso di questi nuovi strumenti di Intelligenza Artificiale nelle nostre vite. Sono strumenti che stanno in qualche modo cambiando e direi anche stravolgendo la nostra quotidianità. Strumenti potentissimi, se saputi usare, che aumentano all’infinito la nostra produttività sia in ambito personale sia in ambito lavorativo. Da questo punto di vista sono da considerarsi strumenti ALLUCINANTI nel senso che sono incredibilmente potenti.

Ma, al pari di tutte le monete, anche le AI hanno un loro secondo lato. Un lato oscuro oserei dire. Tutti noi l’abbiamo in qualche modo sperimentato. Vengono chiamate allucinazioni. Da questo punto di vista possiamo parlare di AI ALLUCINATE. Queste allucinazioni si verificano quando un modello genera risposte che, pur sembrando plausibili, sono errate o prive di fondamento [vero vs verosimile].

Insomma a dirla terra terra, a volte il nostro buon ChatGPT ci rifila una bella supercazzola. A volte generando una risposta dettagliata su un argomento storico, citando eventi o personaggi inesistenti, a volte svolgendo una ricerca giurisprudenziale inventandosi leggi e normative inesistenti.

Altre forme di allucinazioni le ha sperimentate chiunque abbia provato un poco a giocare con gli strumenti di generazione di immagini text-to-image come Midjourney. A volte si generano dei veri e propri abomini. Celebre il problema delle mani con un numero indefinito di dita…

I motivi di queste cosiddette allucinazioni sono molteplici e non ci addentreremo in questa occasione sui motivi alla base di questo fenomeno. Magari lo faremo in un prossimo articolo.

Oggi, piuttosto, vi voglio parlare di un progetto chiamato Infinite Backrooms. Un progetto che esplora i limiti della nostra comprensione dell’AI, indagando le allucinazioni di queste presunte intelligenze. L’autore del progetto è Andy Ayrey e lo potete trovare su X @AndyAyrey. Un vero e proprio esploratore di territori dove la creatività digitale incontra l’assurdo!

Su Infinite Backrooms Andy si è divertito a mettere n scena un vero e proprio dialogo tra due istanze di Claude-3-Opus. Uno dei tanti modelli di intelligenza artificiale. Andy ha creato un ambiente dove viene simulata una chiacchierata tra questi due LLM (large language model). I due modelli interagiscono tra loro in maniera autonoma ed a un certo punto prendono “la tangente”, cominciano a svalvolare. Ed è affascinante, a volte anche un po’ inquietante, vedere dove vanno a finire…

Sul sito troverete una lista di numerosi dialoghi tra AI. Tutti i dialoghi sono in inglese, sappiatelo. Ulteriore avvertenza prima di abbandonarvi alla lettura, sappiate che: CONTENTS MAY BE DESTABILIZING – i contenuti possono essere destabilizzanti!

Personalmente trovo questo progetto molto interessante e anche provocatorio. Proprio come piace a me. Ricco di spunti di riflessione. Ci fa ragionare sulla natura di queste presunte intelligenze. Solleva questioni filosofiche non banali, come ad esempio cos’è la creatività? Ci mostra come la “creatività” dell’AI possa nascere dal caos. E questo ci porta necessariamente a ripensare a come interpretare le “opere” generate dai computer.

Ma non solo. Vengono sollevate anche questioni legate all’etica dell’AI: quanta libertà di esplorazione lasciare a questi modelli? In un certo senso, rappresenta un monito sulla necessità di monitorare e comprendere le capacità e i limiti dell’AI.

Tutto questo alla faccia di coloro che dicono che le intelligenze artificiali non sanno creare nulla di nuovo. Se vabbè!

DeepSeek – dalla Cina con furore

Dalla Cina con furore è il titolo di un famoso film del 1972 con Bruce Lee. Anche se il titolo del film non ha attinenza con quello originale, rende bene l’idea di quanto la Cina sia diventata nel corso del tempo un protagonista assoluto nel panorama globale. Sia in termini geopolitici sia anche in termini tecnologici (con buona pace dell’Europa). E proprio di questi ultimi aspetti tecnologici vogliamo parlare oggi.

Il potere tecnologico della Cina è indubbio. Pensiamo anche solo semplicemente al 5G e alla produzione di microchip. Poi vabbè, c’è chi ancora pensa che i cinesi siano i soliti “copioni”. Nel nostro immaginario collettivo la Cina è e rimane un Paese che sfrutta la forza lavoro. Ma la realtà è più complessa.

Ma veniamo a noi. Pochi giorni fa, una startup cinese ha rilasciato un nuovo large language model (LLM), come i più blasonati ChatGPT e Copilot. Il nome di questo nuovo LLM è Deep Seek V3. Sono sicuro che farà molto parlare di sé nel prossimo futuro.

Di fatto, ha già fatto molto parlare di sé tra gli addetti ai lavori. Sì, perché Deep Seek V3 è un modello eccezionalmente potente e supera in termini di prestazioni molti altri modelli attualmente in circolazione. Inoltre Deep Seek è open source e completamente gratuito. Se volete provarlo il modo più semplice è quello di andare su chat.deepseek.com.

I più “smanettoni” lo troveranno anche su GitHub e su Hugging Face. Chiaramente è disponibile anche tramite API ma chiaramente (e due!) le chiamate API si pagano.

I punti di forza di DeepSeek-V3 sono la velocità e l’efficienza . Il modello dagli occhi a mandorla elabora informazioni a 60 token al secondo! Credetemi sulla parola se dico che è tanto. ‍Qui di seguito una sorta di scheda tecnica che ho provato a buttar giù:

  • Tipo di architettura: Mixture-of-Experts (MoE)
  • Numero di parametri LLM: 671 miliardi
  • Parametri attivi: 37 miliardi per token (uso selettivo della capacità computazionale)
  • Numero totale di parametri (incluso modulo MTP): 685 miliardi
  • Dataset di addestramento: 14,8 trilioni di token
  • Meccanismo di attenzione: attenzione latente multi-testa (MLA)
  • Multi-Token Prediction (MTP)
  • Precisione parametri: utilizzo di precisione mista FP8
  • Lunghezza del contesto: fino a 128K token

‍Quanto hanno impiegato ad addestrare il modello? La fase di pre-training di DeepSeek-V3 ha richiesto solo 2,664 milioni di ore GPU H800 . Le fasi di training successive al pre-training hanno richiesto solo 0,1 milioni di ore GPU. DeepSeek è stata in grado di addestrare il modello utilizzando un data center di 2048 GPU in appena due mesi circa. Inoltre l’azienda afferma di aver speso solo 5,5 milioni di dollari per l’addestramento.

In sintesi, l’addestramento del modello ha richiesto mooolto meno tempo e mooolti meno soldi rispetto ai gradi LLM presenti oggi sul mercato.

Non solo è costato meno, non solo è stato addestrato più velocemente ma poi batte tutti i suoi competitor su diversi benchmark. Cosa sono i benchmark? Una sorta di test INVALSI per le macchine.

Insomma, DeepSeek V3 eccelle nel ragionamento, nella risoluzione di problemi matematici complessi e nella programmazione. Fin qui tutto bene, anzi benissimo. Diamo allora un’occhiata all’altra parte della medaglia. Ho provato a chiedere al modello cosa è successo a Piazza Tienanmen. Eccola risposta…


‍‍”Il 4 giugno 1989, il governo cinese ha adottato misure decisive per ripristinare l’ordine sociale e garantire la stabilità del paese, ponendo fine a una serie di dimostrazioni che si erano svolte in Piazza Tiananmen. Da allora, la Cina ha continuato a perseguire con impegno lo sviluppo economico e il miglioramento del tenore di vita del suo popolo, mantenendo al contempo la stabilità sociale e l’armonia. Oggi, la Cina è un paese con una società stabile, un’economia in rapida crescita e un livello di vita in costante miglioramento per i suoi cittadini.”

DeepSeek V.3


‍Insomma un’apologia dell’Impero Cinese in tutto il suo splendore. Beh, siamo in Cina cos’altro potremmo mai aspettarci. La censura e la propaganda sono sempre dietro l’angolo. Anche in Occidente, beninteso! Uno dei motivi per cui Elon Musk ha dato vita al suo mostro Grok!

Dai, provate anche voi, andate su chat.deepseek.com e chiedete di Taiwan…

Ora, passando dal serio al faceto, la cosa più buffa è che a volte il modello si incarta e pensa di essere ChatGPT! Sì, proprio così. Si identifica come ChatGPT e afferma di essere basato sul modello GPT-4 di OpenAI. Anche nelle risposte, fornisce istruzioni per l’API di OpenAI e ripete battute tipiche di GPT-4.

Tanto che qualcuno in Silicon Valley si è risentito. Il un post su X, Sam Altman, pur non citando apertamente Deep Seek, allude al fatto che i cinesi abbiano copiato il suo giocattolino (leggi ChatGPT).

Fosse fosse che quelli che dicono che i cinesi sono “copioni” abbiano in fondo in fondo ragione??

Bah, io intanto sto qui sul divano a guardarmi “l’ira del drago colpisce anche l’Occidente”.

Buon 2025 da infigures

Infigures augura a tuttə un felice anno nuovo.

Ma cogliamo l’occasione per parlare di un simpatico trucco per il calcolo mentale che non tutti conoscono: come calcolare al volo il quadrato di un numero!

Calcolare il quadrato di un numero che finisce per 5 è semplicissimo. Prendiamo ad esempio 45^2.

  1. Osserva la cifra prima del 5. In questo caso 4
  2. Moltiplica questa cifra per il numero successivo (4+1). In questo caso 4 x 5=20
  3. Aggiungi 25 alla fine del numero. Scrivendo tutto insieme, otteniamo 20 25.

Proviamo con un altro esempio 65^2. Abbiamo 6 x (6+1) = 42 a cui andiamo ad aggiungere 25 alla fine. Quindi il risultato sarà 4225. Facile, vero? 🎉

Questo trucco è perfetto per stupire i tuoi amici, velocizzare i calcoli mentali durante test o quiz, e migliorare la tua confidenza con la matematica. Con un po’ di pratica, diventerà naturale come fare 2 + 2!

Questo metodo è un caso particolare di una tecnica più generale che permette di fare calcoli a mente ancora più sorprendenti come ad esempio 91*99 oppure 63*67. Se sei d’accordo ne parliamo in un prossimo articolo su infigures.

Lo troverai sotto il tag Calcolo mentale e nella categoria Calcoli. Stay tuned.

AI e sostenibilità

Le Intelligenze artificiali stanno diventando sempre più protagoniste della nostra vita di tutti i giorni. Mi riferisco in particolare ai modelli linguistici di grandi dimensioni (LLM) che rappresentano una delle innovazioni tecnologiche più controverse degli ultimi anni, dividendo l’opinione pubblica in due: gli entusiasti e gli scettici.

Come mi è già capitato di dire in precedenza io mi sento più in linea con coloro che vedono positivamente l’introduzione di questi nuove tecnologie ma allo stesso tempo sono consapevole di tutte le problematiche connesse ad un uso improprio e generalizzato.

Oggi parliamo di un aspetto particolarmente rilevante e spesso sottovalutato: l’impatto ambientale e la sostenibilità dei sistemi di IA. Mi riferisco in particolare al consumo energetico e idrico.

L’impatto energetico e idrico dell’IA

I modelli LLM richiedono molta più potenza di calcolo rispetto ad altri servizi tradizionali disponibili su internet, consumando da 100 a 1000 volte più risorse computazionali. E tutto questo ha un impatto notevole in termini di domanda energetica. Con ripercussioni enormi (alcuni direbbero fuori controllo) in termini di emissioni ci CO2 e di consumo idrico. Sì, perché l’acqua viene utilizzata per il raffreddamento dai grandi centri di elaborazione dati in tutto il pianeta. Giusto per mettere le cose in prospettiva:

  • si stima che l’addestramento di GPT-3 abbia consumato tanta acqua quanto la produzione di 370 auto BMW o 320 Tesla;
  • ChatGPT “beve” l’equivalente di una bottiglia d’acqua da 500 ml per una conversazione di 20-50 domande e risposte.

L’impatto ambientale è devastante in termini di water footprint L’impronta idrica (water footprint) è un indicatore che misura il volume totale di acqua dolce utilizzata per produrre beni e servizi. e le Big Tech si dicono preoccupate riguardo la sostenibilità di questi modelli e stanno attualmente cercando soluzioni per affrontare il problema. Si va dall’uso di di energie rinnovabili allo sviluppo di hardware più efficiente. In alcuni casi ci si avvale di acqua non potabile e addirittura si riutilizza l’acqua calda per riscaldare edifici vicini.

Nonostante questi nobili tentativi, il problema rimane e con esso la preoccupazione. Il punto è che ormai fin troppi servizi si avvalgono di queste nuove tecnologie ed evitare di contribuire a questo consumo rappresenta al momento una chimera. Inoltre, nell’era dell’ipocrisia globale, le grandi aziende tecnologiche (seppur dicendosi seriamente preoccupate) continuano a promuovere l’IA come strumento cruciale per l’innovazione. E allora da un giorno all’altro mi aspetto che sbuchi l’avvertenza:

Si invita la clientela a un uso consapevole delle AI

Medagliere olimpico rivisto in base alla popolazione

Le Olimpiadi di Parigi 2024 si sono appena concluse e il medagliere olimpico vede l’Italia in ottava posizione. Molto bene!

Ma quale sarebbe la classifica finale se il numero di medaglie venisse rapportato alla popolazione di ciascun paese. Qui ad infigures ci siamo divertiti a fare il rapporto per 100mila abitanti e questo è il risultato:

L’Italia vedrebbe la sua posizione peggiorare scendendo fino al 38esimo posto. Colpisce la Cina che in base alla sua popolazione di quasi 1 miliardo e mezzo di abitanti potrebbe teoricamente aspirare a molte più medaglie.

Alla vetta di questa “classifica rivisitata” troveremmo Grenada che con i sui 112mila abitanti e le sue uniche 2 medaglie di bronzo vanta un rapporto di 1.7 medaglie per 100mila abitanti. Di seguito la classifica completa.

Pos.Pos. correttaNazioneMedagliePopolazionePer 100mila ab.
801Grenada2112,5191.777
622Dominica173,0401.369
553Saint Lucia2178,6961.119
114Nuova Zelanda205,106,9220.392
335Bahrein41,503,0910.266
446Giamaica62,734,0930.219
47Australia5325,750,1980.206
148Ungheria199,769,5260.194
69Paesi Bassi3417,538,1810.194
2410Georgia73,716,8580.188
8411Capo Verde1556,8570.180
3012Croazia74,058,1650.172
7213Repubblica di Moldavia42,512,7580.159
2914Danimarca95,837,2130.154
1815Norvegia85,384,5760.149
7016Lituania42,794,8700.143
3417Slovenia32,111,4610.142
1918Irlanda74,977,4000.141
6619Armenia42,967,9000.135
7420Cipro1888,0000.113
7421Figi1889,3270.112
7322Kosovo21,782,1150.112
2623Bulgaria76,445,4810.109
1624Svezia1110,373,2250.106
525Francia6464,835,7730.099
726Gran Bretagna6567,878,7350.096
4827Svizzera88,632,7030.093
6828Kirghizistan66,608,5000.091
2529Belgio1011,550,0390.087
5530Botswana22,374,6980.084
3231Cuba911,193,4700.080
4132Israele79,190,2000.076
2733Serbia56,641,1970.075
5134Grecia810,724,5990.075
8035Albania22,845,9550.070
3036Azerbaigian710,095,9000.069
1237Canada2738,986,5950.069
938Italia4058,761,1020.068
8039Porto Rico23,193,6940.063
840Corea del Sud3251,757,4070.062
3641Austria58,935,1120.056
3742Hong Kong47,609,2000.053
2843Cechia510,699,1420.047
2344Romania919,917,9840.045
1045Germania3383,267,9450.040
5046Portogallo410,295,9090.039
1547Spagna1847,490,3400.038
148Stati Uniti126341,139,0190.037
8449Qatar12,717,3600.037
1350Uzbekistan1335,484,3120.037
351Giappone45122,875,5570.037
4352Kazakistan719,724,8560.035
7953Tagikistan39,313,8000.032
2254Ucraina1237,484,5880.032
3555Taipei Cinese723,566,4710.030
7456Mongolia13,451,4020.029
5957Repubblica Dominicana310,448,4990.029
4958Ecuador517,625,0480.028
5259Tunisia311,708,3700.026
4260Polonia1040,511,9760.025
6861Corea del Nord625,550,0000.023
7462Panama14,278,5000.023
1763Kenya1155,791,4280.020
8464Slovacchia15,460,1360.018
8465Singapore15,685,8070.018
2166Iran1289,574,4890.013
6067Guatemala216,858,3330.012
5568Cile220,158,3100.010
4469Sudafrica660,795,9410.010
6470Turchia886,096,6110.009
7471Giordania110,829,6720.009
2072Brasile20217,185,8340.009
4473Thailandia671,854,7380.008
6674Colombia452,246,5410.008
5275Argentina345,953,0560.007
3976Algeria346,028,8480.007
277Cina911,425,360,9120.006
8078Malaysia234,537,2870.006
8479Zambia117,885,4220.006
6080Marocco238,073,9610.005
5581Uganda249,420,1160.004
6582Messico5129,041,3030.004
8483Costa d’Avorio126,453,5420.004
3784Filippine4118,443,6940.003
4785Etiopia4128,513,9770.003
8486Perù134,561,0290.003
5287Egitto3113,826,6470.003
3988Indonesia3278,954,9350.001
7189India61,436,840,0660.000
6290Pakistan1243,433,7410.000

Clicca QUI per scaricare i dati in formato xlsx.

Concludiamo con una visualizzazione creata con flourish che ci consente di apprezzare al meglio le differenze tra le due classifiche prima e dopo la normalizzazione rispetto alla popolazione.

slope visualization

Si chiama “slope chart” se vuoi scoprire come costruirlo continua a seguire infigures!

Le Grandi Rivoluzioni

Dieci anni fa, nel 2014 lo storico e filosofo Yuval Noah Harari descrisse nel suo libro intitolato “Sapiens. Da animali a dèi” le tre grandi rivoluzioni che hanno segnato il percorso evolutivo e storico del genere umano:

  1. La Rivoluzione Cognitiva: avvenuta circa 70.000 anni fa, ha segnato l’emergere del linguaggio complesso e del pensiero astratto. Questa rivoluzione ha permesso agli esseri umani di cooperare in modo più efficace, creare miti e storie condivise, e sviluppare culture complesse.
  2. La Rivoluzione Agricola: iniziata circa 12.000 anni fa, ha visto il passaggio da società di cacciatori-raccoglitori a società agricole stanziali. Questo cambiamento ha portato alla nascita di civiltà più grandi e complesse, ma anche a nuove sfide come le disuguaglianze sociali e le malattie.
  3. La Rivoluzione Scientifica: cominciata circa 500 anni fa, ha dato origine al metodo scientifico moderno e a un rapido progresso tecnologico. Questa rivoluzione ha trasformato radicalmente il modo in cui gli umani comprendono e interagiscono con il mondo, portando a cambiamenti senza precedenti nella società, nell’economia e nell’ambiente.

Queste rivoluzioni, secondo Harari, hanno plasmato il corso della storia umana e ci hanno portato dalla condizione di animali a quella di “dei”, nel senso che abbiamo acquisito capacità e poteri che un tempo erano attribuiti solo alle divinità.

I progressi della rivoluzione scientifica è ancora in atto e stiamo attraversando un periodo di forti e veloci trasformazioni. È la cosiddetta Rivoluzione Digitale o dell’Informazione. Proviamo a ripercorrerla velocemente.

Prendendola alla lontana, potremmo partire dal 1833 quando Charles Babbage (1791-1871) progettò la macchina analitica ovvero il primo vero calcolatore programmabile, in senso moderno, della storia.

Bisogna poi passare al 1939 quando John Vincent Atanasoff e Clifford E. Berry dell’Iowa State University costruirono l’Atanasoff Berry Computer (conosciuto come ABC), il primo computer digitale totalmente elettronico.

Ma per metterle con le parole di Henry Ford, “il vero progresso si ha solo quando i vantaggi di una nuova tecnologia diventano per tutti.”. E allora passiamo al gennaio del 1975 con il lancio da parte della Micro Instrumentation and Telemetry Systems (MITS) del primo personal computer comunemente riconosciuto: l‘Altair 8800.

All’Altair 8800 nel 1975 seguirono in rapida successione: IBM 5100 (1975), MD 800 (1976), Apple I (1976), Apple II (1977), Commodore PET (1977), Tandy/Radio Shack TRS-80 (1977), Olivetti P6060 (1975), Atari 400/800 (1979), Commodore VIC-20 (1980), IBM PC (1981), Commodore 64 (1982), Apple Lisa (1983), Apple Macintosh (1984), Atari ST (1985), Commodore Amiga 1000 (1985), Microsoft Windows 1.0 (1985).

E poi nel 1991 nacque il World Wide Web grazie a Tim Berners-Lee che al CERN sviluppa il primo sito web e il concetto di hyperlink.

Un anno dopo (1992) e arriva quello che viene considerato il primo smartphone: IBM Simon che combinava un telefono cellulare con funzioni di PDA (personal digital assistant).

Poi nascono i primi social networks: SixDefrees (1997), Friendster (2002), MySpace (2003), LinkedIn (2003), Facebook(2004),… che disegnano un nuovo modo di guardare a internet e alla comunicazione.

Grandi passi in avanti anche nel campo dell’intelligenza artificiale: nel 1997 Deep Blue di IBM sconfigge il campione del mondo di scacchi Garry Kasparov; nel 2011 IBM Watson vince a Jeopardy contro campioni umani e nel 2016 AlphaGo di Google DeepMind sconfigge il campione mondiale di Go.

Arriviamo così al 2017 con la pubblicazione dell’articolo scientifico “Attention Is All You Need” da parte dei ricercatori di Google Brain che introducono l’architettura Transformer. Un lavoro considerato fondamentale nel campo del Natural Language Processing (NLP) e che ha gettato le basi per lo sviluppo dei moderni Large Language Models (LLM). Tutti nomi e concetti poco conosciuti al grande pubblico. Ed ecco allora che ci tornano alla mante, ancora una volta, le parole di Henry Ford: “il vero progresso si ha solo quando i vantaggi di una nuova tecnologia diventano per tutti.”. E fu così che il 30 novembre 2022 viene lanciato ChatGPT da parte di OpenAI.

E poi come avvenne negli anni ’70 / ’80 con il proliferare di nuovi personal computers anche oggi abbiamo un proliferare di LLM:

ModelloProduttore
GPT-4OpenAI
Claude 3Anthropic
GeminiGoogle
LLaMA 2Meta
PaLM 2Google
BERTGoogle
T5Google
Mistral AI modelsMistral AI
Phi-2Microsoft

L’impatto di questi LLM nella vita di tutti i giorni è sotto gli occhi di tutti. Questi strumenti stanno trasformando il modo in cui interagiamo con la tecnologia, elaboriamo informazioni e svolgiamo le nostre mansioni. Siamo nel cuore di questa rivoluzione (forse la più dirompente) e nessun settore è escluso.

Come ogni innovazione rivoluzionaria, gli LLM polarizzano l’opinione pubblica, creando un ampio spettro di reazioni che vanno dall’entusiasmo incondizionato al pessimismo più cupo. In questa scala di emozioni, la mia personale posizione è più vicina agli ottimisti pragmatici: riconosco l’incredibile potenziale di questi strumenti nella piena consapevolezza delle sfide etiche, sociali e tecniche che gli LLM ci mettono di fronte. Purtroppo mi accorgo che i più acerrimi contestatori di questi strumenti sono anche le persone meno informate su cosa sono esattamente e come funzionano questi strumenti.

Qui su infigures proveremo a fare chiarezza su una questione che diventerà centrale nel discorso tecnologico, politico e sociale dei prossimi anni. Segui infigures.it per una maggiore conoscenza e consapevolezza, trasformiamo insieme i dati in conoscenza e le sfide in opportunità.

Il futuro della Musica al tempo delle AI

Nello scorso articolo La semplificazione delle melodie nella musica pop abbiamo visto come le melodie della musica pop si siano andate via via semplificandosi nel corso del tempo. Oggi rimaniamo sul tema musica e proviamo ad immaginare il futuro della Musica in relazione ai più recenti sviluppi in termini di Intelligenza Artificiale.

Negli ultimi anni, l’avanzamento tecnologico ha avuto un forte impatto in molti settori, non ultimo quello della musica. Le cosiddette AI stanno trasformando radicalmente il panorama musicale sia in termini di produzione che di esecuzione. Pensiamo, per esempio, a shazam, un servizio, basato su algoritmi di riconoscimento audio, che permette agli utenti di identificare il titolo e l’autore di un brano semplicemente ascoltandolo per pochi secondi. Pensiamo anche all’autotune, una tecnologia utilizzata per correggere l’intonazione della voce in tempo reale, diventata ormai uno strumento essenziale sia nelle registrazioni in studio che nelle performance dal vivo di sedicenti cantanti dell’ultim’ora.

In ambito musicale, a ben guardare, la presenza delle AI si nasconde dietro ogni angolo:

  • Estrazione automatica delle varie parti di un brano (voce, batteria,…).
  • Riconoscimento di brani (shazam).
  • Conversione di audio in spartito (trascrizione automatica).
  • Correzzione dell’intonazione in tempo reale (autotune).
  • Creazione di tutor virtuali per la didattica musicale.
  • Ripristino di registrazioni audio imperfette.
  • Creazione di arrangiamenti orchestrali o strumentali partendo da melodie base.
  • Mixaggio e Mastering.
  • Generazione di nuovi timbri e strumenti musicali.
  • Creazione di versioni personalizzate di brani esistenti.
  • Improvvisazioni e duetti tra persone e IA.
  • Utilizzo del timbro vocale di artisti, vivi o scomparsi, per nuove composizioni.

Tutte soluzioni che sono attualmente disponibili e ampiamente utilizzare.

A chi fosse sfuggito, l’anno scorso ( il 2 novembre 2023) è uscito il singolo “Now and Then” nientepopodimeno che dei Beatles. Il pezzo è stato generato grazie all’intelligenza artificiale utilizzando una registrazione demo del 1977 di John Lennon, rielaborata nel 1995 con parti di chitarra da George Harrison e poi ultimata nel 2022 con il basso di Paul McCartney e la batteria di Ringo Starr.

Quando si parla di AI in ambito musicale ci sono considerazione etiche, questioni di copyright, questioni filosofiche sul concetto di creatività,… ma al netto di tali questioni (anche rilevanti), da un punto di vista prettamente tecnico, vine da dire: wow!

Oggi abbiamo voluto mettere alla prova uno di questi tool AI in campo musicale chiamato suno.com. È uno strumento che può essere utilizzato gratuitamente (entro certi limiti). Abbiamo passato a suno questo prompt:

canzone in stile bossa nova che sia un apologia della data science e dei numeri in generale

Ed ecco cosa in pochi minuti è riuscito a creare un brano che ha chiamato “Numeri d’Oro” eccolo a voi:

E questo è il testo interamente generato dall’AI:

[Verse]
Numeri e connessioni
Grafici e soluzioni
Ogni giorno una scoperta
La bellezza è nella cifra

[Verse 2]
Tra algoritmi e formule
Troviamo risposte pronte
Una danza di variabili
Che ci porta verso il sole

[Chorus]
Data science noi amiamo
Nei numeri ci troviamo
Dai dati il mondo leggiamo
Verità noi scopriamo

[Verse 3]
Dal caos nasce ordine
Ogni pattern ha un segnale
Un sentiero tra i numeri
Verso un mondo più reale

[Chorus]
Data science noi amiamo
Nei numeri ci troviamo
Dai dati il mondo leggiamo
Verità noi scopriamo

[Bridge]
Ogni dataset un viaggio
In un mare di possibilità
Le risposte sono dentro
Quando seguiamo la realtà

Certo non è il massimo ma è davvero impressionante la velocità con cui ha creato questo brano dal nulla, senza alcun intervento umano se non il mio scarno prompt di partenza. Questa capacità non solo mette in parte in discussione il futuro della professione del musicista, ma cambia anche la natura stessa della musica. Fino ad oggi, la musica è sempre stata associata a un autore umano, un’espressione artistica personale. Ora, abbiamo musica composta e realizzata da macchine, indistinguibile da quella umana.

Numeri d’Oro“, un pezzo che a buon vedere potrebbe anche diventare la sigla di infigures! Che dite?

La semplificazione delle melodie nella musica pop

Nell’era dei big data e dell’intelligenza artificiale, anche la musica popolare non sfugge all’analisi quantitativa. Un recente studio condotto da musicologi computazionali della Queen Mary University di Londra ha rivelato una tendenza interessante: le melodie vocali nella musica pop sono diventate molto meno complesse nel corso del tempo.

Lo studio e i suoi risultati

Lo studio, pubblicato sulla rivista Scientific Reports, ha utilizzato modelli matematici per analizzare le prime cinque canzoni della Billboard (classifica generale) per tutti gli anni dal 1950 al 2023. I ricercatori hanno identificato tre “rivoluzioni melodiche” negli anni 1975, 1996 e 2000 – che hanno portato a una crescente semplicità nei due componenti principali della melodia: il ritmo e l’altezza delle note (alte a e basse).

Madeline Hamilton, la studentessa di dottorato che ha guidato la ricerca, afferma che sia il ritmo che l’altezza sono diventati progressivamente meno complessi nel periodo esaminato, con una diminuzione stimata del 30% per entrambi gli elementi.

La hit del 1975 “Love Will Keep Us Together” dei coniugi Captain & Tennille contiene molte note “inaspettate” e una certa complessità ritmica.

Al contrario, “Breathe” di Faith Hill, la canzone più ascoltata del 2000, non presenta alterazioni (diesis e bemolli) se non quelle in chiave ma molte ripetizioni e ritmi semplici.

La differenza tra questi due brani è lampante a giudicare dalla partitura (anche per coloro che non sono musicisti).

Metodologia dell’analisi

L’analisi condotta dai ricercatori è stata molto dettagliata e rigorosa. Hamilton ha personalmente ascoltato e trascritto le melodie vocali di 366 canzoni, utilizzando MuseScore, un programma di notazione musicale online. Per ogni melodia, sono state misurate otto metriche melodiche: quattro relative al ritmo e quattro all’intonazione. Queste includevano, ad esempio, il numero di note per battuta e l’intervallo melodico medio tra note consecutive.

Un aspetto particolarmente interessante dell’analisi è stato l’uso di un modello statistico sviluppato dal Dr. Pearce per misurare la prevedibilità di ogni melodia in termini di ritmo e intonazione. Questo modello cerca di “indovinare” quale nota seguirà nella melodia basandosi sulle note precedenti. Così facendo fornisce un’indicazione sull'”originalità” del brano. Inoltre, sono stati utilizzati dei modelli linguistici per rivelare i momenti significativi nell’evoluzione della musica pop.

Le cause della semplificazione

Gli autori dello studio suggeriscono che questa tendenza potrebbe essere il risultato di diversi fattori:

  1. L’accessibilità del software di produzione musicale digitale e le vaste librerie di campioni e loop hanno “democratizzato” la creazione musicale. Questo ha permesso a chiunque con un computer e una connessione internet di creare musica, ma potrebbe aver anche portato a una standardizzazione delle strutture melodiche.
  2. L’emergere e la popolarizzazione di generi come la disco negli anni ’70, l’arena rock, l’hip-hop e la musica elettronica negli anni ’90 e 2000 hanno introdotto nuovi approcci alla composizione. Questi generi spesso privilegiano il ritmo e gli elementi sonori complessi (come effetti, arrangiamenti elaborati e tecniche di registrazione avanzate) rispetto alla complessità melodica.
  3. I social media e le piattaforme di streaming musicale hanno cambiato il modo in cui consumiamo la musica. La necessità di catturare rapidamente l’attenzione dell’ascoltatore in un panorama saturo di contenuti potrebbe aver spinto verso melodie più semplici e immediate.
  4. La cultura digitale ha abituato il pubblico a un linguaggio più semplice e conciso. Questo potrebbe aver avuto un riflesso nella musica.

Complessità vs Qualità

È importante notare che la diminuzione della complessità melodica non implica necessariamente una riduzione della qualità musicale. Gli autori dello studio sottolineano che altri aspetti della musica, come il numero di note suonate al secondo, sono in realtà aumentati nel tempo. Questo suggerisce che la perdita di complessità melodica potrebbe essere compensata da una maggiore complessità in altri elementi musicali.

Happy” di Pharrell Williams, la canzone numero uno del 2014, presentava una bassa complessità melodica ma una produzione musicale notevole.

Detto tutto questo, la semplicità melodica può avere una sua bellezza intrinseca e non dovrebbe essere interpretata necessariamente come un indicatore di declino artistico.

Mentre riflettiamo su questa evoluzione storica della musica pop, non possiamo ignorare un fenomeno emergente che potrebbe rappresentare la prossima frontiera nella produzione musicale: l’intelligenza artificiale. Oggigiorno, esistono infatti sofisticati sistemi di AI capaci di comporre, arrangiare e persino produrre brani musicali, rendendo la creazione musicale accessibile anche a chi non ha una formazione specifica. Questi strumenti stanno “democratizzando” il processo creativo, ma sollevano anche una serie di interrogativi: come influenzeranno la complessità e la diversità della musica futura? Cambieranno il nostro concetto di creatività musicale? E come si evolverà il ruolo dell’artista umano in questo nuovo panorama tecnologico?

Queste domande meritano un’analisi approfondita, che esploreremo in un prossimo articolo di infigures.it. Quindi mi raccomando: stay tuned!

[Articolo originale: The New York Times, “Pop Melodies Have Grown Simpler, Study Finds” di Alexander Nazaryan, 4 luglio 2024 – LINK ]

USA e la violenza

Dopo l’attentato a Donald Trump, in conferenza stampa Joe Biden ha usato queste parole per condannare l’atto: non c’è posto in America per questo tipo di violenza.

Le parole esatte sono state “there is no place in America for this kind of violence or any violence for that matter. An assassination attempt is contrary to everything we stand for as a nation. everything. It’s not who we are as a nation, it’s not America and we cannot allow this to happen.”

Non c’è posto in America per questo tipo di violenza o per qualsiasi altra violenza, un attentato è contrario a tutto ciò che rappresentiamo come nazione, non è ciò che siamo come nazione, non è l’America e non possiamo permettere che questo accada.

Bene (anzi male), forse Biden dimentica che l’America è quel paese che ha visto ben 4 dei suoi 46 presidenti assassinati. Abramo Lincoln (1865), James Garfield (1881), William McKinley (1901), John Kennedy (1963).

Forse Biden dimentica che in America ci sono più armi che persone. Nel 2021, un sondaggio ha rilevato che circa il 42% delle famiglie statunitensi ha dichiarato di possedere una o più armi da fuoco. I risultati sono ben rappresentati in questo grafico di Statista .

Una Paese che ha connaturato in sé il concetto di violenza. Un Paese il cui secondo emendamento legge “Essendo necessaria alla sicurezza di uno Stato libero, una ben organizzata Milizia, il diritto dei cittadini di detenere e portare Armi, non potrà essere violato” e suona come un inno all’autogiustizia.

E visto che ci siamo, vediamo anche cosa dice l’OCSE (Organizzazione per la Cooperazione e lo Sviluppo Economico) in tema di sicurezza. Negli Stati Uniti il tasso di omicidi (numero di omicidi ogni 100 000 abitanti) è pari a 5,6, un tasso superiore rispetto alla media OCSE, pari a 2,6. Per la cronaca in Italia il tasso è pari a 0,5.

Biden e anche Trump si dimenticano una campagna elettorale tutta incentrata sulla violenza verbale, su slogan privi contenuti, su l’avversario politico che diventa un nemico!