Apple afferma di aver adottato un approccio “responsabile” nella formazione dei suoi modelli Apple Intelligence


Apple ha pubblicato un documento tecnico in cui descrive in dettaglio i modelli sviluppati per supportare Apple Intelligence, la gamma di funzionalità di intelligenza artificiale generativa in arrivo su iOS, macOS e iPadOS nei prossimi mesi.

Nel documento, Apple respinge le accuse secondo cui avrebbe adottato un approccio eticamente discutibile nell’addestramento di alcuni dei suoi modelli, ribadendo di non aver utilizzato dati privati ​​degli utenti e di aver attinto a una combinazione di dati disponibili al pubblico e concessi in licenza per Apple Intelligence.

“(Il) set di dati di pre-addestramento è costituito da … dati che abbiamo ottenuto in licenza dagli editori, set di dati curati e disponibili al pubblico o open supply e informazioni disponibili al pubblico analizzate dal nostro internet crawler, Applebot”, scrive Apple nel documento. “Dato il nostro focus sulla protezione della privateness degli utenti, notiamo che nessun dato privato degli utenti Apple è incluso nel combine di dati”.

A luglio, Proof Information ha riferito che Apple ha utilizzato un set di dati chiamato The Pile, che contiene sottotitoli da centinaia di migliaia di video di YouTube, per addestrare una famiglia di modelli progettati per l’elaborazione su dispositivo. Molti creatori di YouTube i cui sottotitoli sono stati travolti da The Pile non ne erano a conoscenza e non hanno acconsentito; Apple ha poi rilasciato una dichiarazione in cui affermava di non avere intenzione di utilizzare quei modelli per alimentare alcuna funzionalità AI nei suoi prodotti.

Il documento tecnico, che svela i modelli presentati per la prima volta da Apple alla WWDC 2024 a giugno, denominati Apple Basis Fashions (AFM), sottolinea che i dati di coaching per i modelli AFM sono stati ottenuti in modo “responsabile”, o responsabile secondo la definizione di Apple, almeno.

I dati di coaching dei modelli AFM includono dati internet disponibili al pubblico e dati concessi in licenza da editori non divulgati. Secondo il New York Instances, Apple ha contattato diversi editori verso la tremendous del 2023, tra cui NBC, Condé Nast e IAC, per accordi pluriennali del valore di almeno 50 milioni di dollari per addestrare modelli sugli archivi di notizie degli editori. I modelli AFM di Apple sono stati addestrati anche su codice open supply ospitato su GitHub, in particolare codice Swift, Python, C, Goal-C, C++, JavaScript, Java e Go.

L’addestramento di modelli su codice senza autorizzazione, anche codice aperto, è un punto di contesa tra gli sviluppatori. Alcune basi di codice open supply non sono concesse in licenza o non consentono l’addestramento AI nei loro termini di utilizzo, sostengono alcuni sviluppatori. Ma Apple afferma di aver “filtrato la licenza” per il codice per cercare di includere solo repository con restrizioni di utilizzo minime, come quelle con licenza MIT, ISC o Apache.

Per potenziare le competenze matematiche dei modelli AFM, Apple ha incluso specificatamente nel set di coaching domande e risposte matematiche da pagine internet, discussion board di matematica, weblog, tutorial e seminari, secondo il documento. L’azienda ha anche attinto a set di dati “di alta qualità e disponibili al pubblico” (che il documento non nomina) con “licenze che consentono l’uso per i modelli di coaching…” filtrati per rimuovere informazioni sensibili.

Tutto sommato, il set di dati di addestramento per i modelli AFM pesa circa 6,3 trilioni di token. (I token sono piccoli pezzi di dati che sono generalmente più facili da assimilare per i modelli di intelligenza artificiale generativa.) A titolo di confronto, si tratta di meno della metà del numero di token (15 trilioni) che Meta ha utilizzato per addestrare il suo modello di generazione di testo di punta, Llama 3.1 405B.

Apple ha reperito dati aggiuntivi, tra cui dati provenienti da suggestions umani e dati sintetici, per perfezionare i modelli AFM e tentare di attenuare eventuali comportamenti indesiderati, come l’emissione di sostanze tossiche.

“I nostri modelli sono stati creati con lo scopo di aiutare gli utenti a svolgere le attività quotidiane sui loro prodotti Apple, basandosi
nei valori fondamentali di Apple e radicati nei nostri principi di intelligenza artificiale responsabile in ogni fase”, afferma l’azienda.

Non c’è una pistola fumante o un’intuizione sconvolgente nel documento, e questo è dovuto a un’attenta progettazione. Raramente documenti come questi sono molto rivelatori, a causa delle pressioni aggressive ma anche perché la divulgazione pure molto potrebbe mettere le aziende in guai legali.

Alcune aziende che addestrano modelli tramite scraping di dati internet pubblici affermano che la loro pratica è protetta dalla dottrina del truthful use. Ma è una questione molto dibattuta e oggetto di un numero crescente di trigger legali.

Apple nota nel documento che consente ai webmaster di bloccare il suo crawler dall’estrazione dei loro dati. Ma questo lascia i singoli creatori in difficoltà. Cosa può fare un artista se, advert esempio, il suo portfolio è ospitato su un sito che si rifiuta di bloccare l’estrazione dei dati da parte di Apple?

Le battaglie in tribunale decideranno il destino dei modelli di IA generativa e il modo in cui vengono addestrati. Per ora, però, Apple sta cercando di posizionarsi come un attore etico, evitando al contempo un controllo legale indesiderato.


Leave a Reply

Your email address will not be published. Required fields are marked *