IDTechEx analizza l'impatto dei modelli linguistici di grandi dimensioni sul panorama dello sviluppo dei materiali

Sam Dale
Cells and biological chain,molecules and abstract conception,3d rendering. Computer digital drawing.
L'informatica dei materiali applica strategie guidate dai dati alla R&S sui materiali. Molto prima che la tecnologia dell'intelligenza artificiale generativa raggiungesse l'apice della popolarità, ha avuto una lunga storia di successi in questo campo. Un approccio comune è quello di utilizzare modelli di apprendimento automatico addestrati su database di strutture e proprietà dei materiali, che poi catturano la relazione sottostante struttura-proprietà. Invertendo questi modelli con proprietà ottimizzate, si possono suggerire nuovi potenziali materiali da studiare ulteriormente. I Large Language Models (LLM), come i modelli GPT3.5/4 alla base di ChatGPT e Copilot di Microsoft, utilizzano tattiche simili per modellare il linguaggio: nel 2024, il loro potere di migliorare lo sviluppo dei materiali sta diventando chiaro.
 
Come illustrato nel recente rapporto di IDTechEx, "Materials Informatics 2024-2034: mercati, strategie, attori", un ostacolo significativo alla redditività del software informatico per i materiali è il livello di coinvolgimento umano richiesto per l'inserimento di nuovi clienti in una piattaforma e per la trasformazione dei loro dati in un formato utilizzabile. Questo può far assomigliare le attività di un'azienda SaaS a quelle di una società di consulenza, riducendo la capacità di scalare. I LLM offrono un'ancora di salvezza sia per i fornitori di software che per gli utenti finali.
 
Rafforzare il potere dei LLM
 
 
Impatto potenziale dei LLM in informatica dei materiali. Fonte: IDTechEx
 
Utilizzando la retrieval-augmented generation (RAG), è possibile far agire un LLM come un esperto della materia, dandogli accesso a una libreria di testi e altri dati che può interrogare senza che il proprietario del LLM possa vedere questi dati. L'analogia è con la trasformazione di un esame da libro chiuso a libro aperto, senza che il modello venga riqualificato su nuovi dati. Questo è lo strumento essenziale che dà ai LLM il potere di trasformare l'informatica dei materiali, con un fattore chiave che è la capacità di definire approcci per risolvere i problemi dell'informatica dei materiali.
 
Un primo esempio commerciale proviene da FEHRMANN MaterialsX, la divisione di tecnologia dei materiali di un'azienda tedesca di leghe di lunga data. Inizialmente MaterialsX ha fornito al modello GPT-4 di OpenAI, tramite RAG, circa 40.000 pagine di libri, queste e altre informazioni specialistiche sullo sviluppo dei materiali e sulle leghe, a cui se ne sono aggiunte molte altre. MaterialsX ha citato un ricercatore di un'università tecnica tedesca che ha posto al modello una complessa domanda sulle leghe tecniche alla quale il team ha impiegato circa dieci giorni per rispondere: il modello ha impiegato solo 30 secondi. L'azienda afferma che può aiutare a definire un'intera metodologia di ricerca per risolvere i problemi di sviluppo delle leghe, interfacciandosi con altri modelli di apprendimento automatico e con una serie di set di dati per suggerire nuovi candidati materiali. Seguendo un esempio simile, RAG potrebbe essere utilizzato per migliorare la capacità di un LLM di comprendere qualsiasi area della scienza dei materiali, con la possibilità di personalizzare le informazioni fornite al LLM utilizzando i dati interni del cliente.
 
Appiattimento delle curve di apprendimento
 
Utilizzando i LLM potenziati da RAG, è possibile ridurre le barriere all'ingresso nell'informatica dei materiali: invece di dover addestrare gli scienziati dei materiali all'uso di una nuova interfaccia grafica o di utilizzare il codice per porre problemi al computer, il linguaggio naturale può diventare l'interfaccia. Questo potrebbe contribuire ad aumentare il mercato totale a cui si rivolgono le aziende di informatica dei materiali: le organizzazioni in fase di avviamento e le aziende con reparti di sviluppo dei materiali più piccoli, ad esempio, potrebbero improvvisamente diventare clienti validi.
 
Il ruolo di un'azienda di informatica dei materiali è quello di collegare le competenze degli scienziati dei materiali e degli scienziati/ingegneri dei dati per guidare lo sviluppo dei materiali. La funzione Catalyst della piattaforma di Citrine Informatics utilizza gli LLM per facilitare questa connessione in molti modi. Un aspetto chiave è Catalyst Model Expert, che consente di utilizzare il linguaggio naturale per iniettare la conoscenza delle relazioni tra le proprietà nei modelli di apprendimento automatico. In questo modo è più facile per gli scienziati dei materiali utilizzare appieno le loro conoscenze di dominio per ottenere i migliori risultati dal software di informatica dei materiali.
 
Naturalmente, tutti questi vantaggi sono inutili senza un set di dati su cui addestrare i modelli di comportamento dei materiali. Riunire e ripulire i dati da una varietà di fonti è spesso un elemento che richiede molto tempo nei progetti di informatica dei materiali, soprattutto data la difficoltà di standardizzare i dati nell'industria dei materiali. Anche in questo caso, gli LLM potrebbero aiutare le organizzazioni a costruire pipeline e a estrarre i dati dai fogli Excel isolati e dai vari file cloud che molte aziende di materiali utilizzano ancora per archiviare i dati. Sebbene la verifica manuale sia ancora un passo importante, gli LLM potrebbero fornire uno strumento importante per risolvere il dilemma della pulizia dei dati nell'informatica dei materiali.
 
Prospettive future
 
I problemi di sicurezza dei dati costituiscono il principale ostacolo all'adozione dei LLM nell'informatica dei materiali per molte organizzazioni. Uno dei timori è che i fornitori di LLM possano accedere ai dati proprietari utilizzati nella RAG. Un approccio potrebbe essere quello di utilizzare un LLM open-source in esecuzione a livello locale, ma in questo caso sarebbe probabilmente difficile eguagliare le capacità dei modelli proprietari.
 
La sfida per gli operatori SaaS dell'informatica materiale e per i fornitori di LLM è quella di rassicurare i clienti sulle loro pratiche di sicurezza dei dati. Alla luce delle notizie sull'accelerazione dell'adozione degli LLM in altri settori sensibili ai dati, come la collaborazione tra PwC, OpenAI e Harvey per la formazione e l'implementazione di modelli di base per applicazioni fiscali, legali e HR, sembra probabile che la fiducia in questo ambito possa crescere nel tempo.
 
Nel complesso, è chiaro che i LLM avranno un effetto significativo sul mercato dell'informatica dei materiali, rendendo il software più facile da usare, migliorando l'incorporazione nei modelli di apprendimento automatico delle conoscenze degli scienziati dei materiali e facilitando il processo di raccolta dei dati. Questi rappresentano una piccola selezione dei vantaggi, mentre i veri effetti di questi strumenti dovrebbero emergere nei prossimi anni.
 
Ulteriori approfondimenti
 
Il rapporto di IDTechEx "Materials Informatics 2024-2034: Markets, Strategies, Players" è giunto alla quarta edizione da quando IDTechEx ha iniziato a occuparsi del settore nel 2020. Basato su interviste di prima mano con i principali operatori del settore, il rapporto fornisce previsioni di mercato, profili degli operatori, investimenti, roadmap ed elenchi completi di aziende, rendendolo una lettura essenziale per chiunque voglia fare carriera in questo campo.
 
Per conoscere questo rapporto IDTechEx, comprese le pagine campione scaricabili, visitate il sito www.IDTechEx.com/MaterialsInformatics.
 
Per l'intera gamma di ricerche di mercato sui materiali avanzati e sui minerali critici di IDTechEx, consultare il sito www.IDTechEx.com/Research/AM.