IDTechEx analiza el impacto de los grandes modelos lingüísticos en el panorama del desarrollo de materiales
Apr 08, 2024
La informática de materiales aplica estrategias basadas en datos a la I+D de materiales. Mucho antes de que la tecnología de IA generativa alcanzara su máximo auge, ya contaba con un largo historial de éxitos en este campo. Un enfoque común consiste en utilizar modelos de aprendizaje automático entrenados en bases de datos de estructuras y propiedades de materiales, que luego capturan la relación estructura-propiedades subyacente. Invirtiendo estos modelos con propiedades optimizadas, se pueden sugerir nuevos materiales potenciales para su posterior estudio. Los grandes modelos lingüísticos (LLM), como los modelos GPT3.5/4 que hay detrás de ChatGPT y Copilot de Microsoft, utilizan tácticas similares para modelizar el lenguaje: en 2024, su poder para mejorar el desarrollo de materiales se está haciendo patente.
Como se detalla en el reciente informe de IDTechEx, "Materials Informatics 2024-2034: mercados, estrategias, actores", un obstáculo importante para la rentabilidad del software informático de materiales es el nivel de implicación humana necesario para incorporar nuevos clientes a una plataforma y obtener sus datos en un formato utilizable. Esto puede hacer que las actividades de una empresa SaaS se parezcan más a las de una consultora, lo que reduce su capacidad de ampliación. Los LLM son un salvavidas tanto para los proveedores de software como para los usuarios finales.
Aumentar el poder de los LLM

Posibles repercusiones de los LLM en informática de materiales. Fuente: IDTechEx
Mediante la generación aumentada por recuperación (RAG), se puede hacer que un LLM actúe como un experto en la materia dándole acceso a una biblioteca de texto y otros datos que puede consultar sin que el propietario del LLM pueda ver estos datos. La analogía es convertir un examen de libro cerrado a libro abierto, sin que el modelo se vuelva a entrenar con nuevos datos. Esta es la herramienta esencial que da a los LLM el poder de transformar la informática de materiales, siendo un factor clave la capacidad de establecer enfoques para resolver problemas de informática de materiales.
Un primer ejemplo comercial procede de FEHRMANN MaterialsX, la división de tecnología de materiales de una antigua empresa alemana de aleaciones. En un principio, MaterialsX proporcionó al modelo GPT-4 de OpenAI, a través de la RAG, unas 40.000 páginas de libros, información especializada sobre desarrollo de materiales y aleaciones, y desde entonces se han añadido muchas más. MaterialsX citó a un investigador de una universidad técnica alemana que planteó al modelo una compleja pregunta técnica sobre aleaciones que el equipo tardó unos diez días en responder: el modelo sólo tardó 30 segundos. La empresa afirma que puede ayudar a establecer toda una metodología de investigación para resolver problemas de desarrollo de aleaciones, interactuando con otros modelos de aprendizaje automático y una serie de conjuntos de datos para sugerir nuevos materiales candidatos. Siguiendo un ejemplo similar, RAG podría utilizarse para mejorar la capacidad de un LLM para comprender cualquier área de la ciencia de los materiales, con la posibilidad de personalizar la información suministrada al LLM utilizando los propios datos internos del cliente.
Curvas de aprendizaje más planas
Con los LLM mejorados por la RAG, pueden reducirse las barreras de entrada a la informática de materiales: en lugar de tener que formar a los científicos de materiales en el uso de una nueva interfaz gráfica de usuario o utilizar código para plantear problemas a un ordenador, el lenguaje natural puede convertirse en la interfaz. Esto podría ayudar a aumentar el mercado total al que se dirigen las empresas de informática de materiales: las organizaciones en fase inicial y las empresas con departamentos de desarrollo de materiales más pequeños, por ejemplo, podrían convertirse de repente en clientes viables.
El papel de una empresa de informática de materiales es conectar la experiencia de los científicos de materiales y los científicos/ingenieros de datos para impulsar el desarrollo de materiales. La función Catalyst de la plataforma de Citrine Informatics utiliza los LLM para facilitar esta conexión de muchas maneras. Una faceta clave es Catalyst Model Expert, que permite utilizar el lenguaje natural para inyectar conocimientos sobre relaciones entre propiedades en modelos de aprendizaje automático. Esto facilita a los científicos de materiales el uso pleno de sus conocimientos de dominio para obtener los mejores resultados del software de informática de materiales.
Por supuesto, todas estas ventajas son inútiles sin un conjunto de datos con el que entrenar los modelos de comportamiento de los materiales. La recopilación y limpieza de datos procedentes de diversas fuentes suele ser un elemento que consume mucho tiempo en los proyectos de informática de materiales, especialmente dada la dificultad de estandarizar los datos en la industria de materiales. Los LLM también podrían ayudar a las organizaciones en este aspecto, ya que podrían utilizarse para crear canalizaciones y extraer datos de las hojas de Excel aisladas y de diversos archivos en la nube que muchas empresas de materiales siguen utilizando para almacenar datos. Aunque la verificación manual sigue siendo un paso importante, los LLM podrían proporcionar una herramienta importante para aliviar el dilema de la limpieza de datos en la informática de materiales.
Perspectivas de futuro
La preocupación por la seguridad de los datos es el principal obstáculo para la adopción de los LLM en informática de materiales en muchas organizaciones. Una de las preocupaciones es que los proveedores de los LLM puedan acceder a datos patentados utilizados en el GAR. Si bien un enfoque podría ser utilizar un LLM de código abierto que se ejecute localmente, es probable que resulte difícil igualar las capacidades de los modelos propietarios.
El reto para los proveedores de SaaS de informática de materiales y para los proveedores de LLM es tranquilizar a sus clientes sobre sus prácticas de seguridad de datos. Dadas las noticias sobre la aceleración de la adopción de LLM en otros sectores sensibles a los datos, como la colaboración entre PwC, OpenAI y Harvey para formar y desplegar modelos básicos para aplicaciones fiscales, jurídicas y de recursos humanos, parece probable que la confianza aumente con el tiempo.
En general, está claro que los LLM tendrán un efecto significativo en el mercado de la informática de materiales, ya que facilitarán el uso del software, mejorarán la incorporación de los conocimientos de los científicos de materiales en los modelos de aprendizaje automático y facilitarán el proceso de recopilación de datos. Esto representa una pequeña selección de los beneficios, y se espera que los verdaderos efectos de estas herramientas surjan en los próximos años.
Más información
El informe de IDTechEx, "Materials Informatics 2024-2034: Markets, Strategies, Players", está ahora en su cuarta edición desde que IDTechEx comenzó a cubrir este campo en 2020. Basado en entrevistas de primera mano con los principales actores del sector, el informe ofrece previsiones de mercado, perfiles de actores, inversiones, hojas de ruta y listas completas de empresas, lo que lo convierte en una lectura esencial para cualquiera que desee avanzar en este campo.
Para obtener más información sobre este informe IDTechEx, incluidas las páginas de muestra descargables, visite www.IDTechEx.com/MaterialsInformatics.
Para consultar la cartera completa de estudios de mercado sobre materiales avanzados y minerales críticos de IDTechEx, visite www.IDTechEx.com/Research/AM.