Muchas empresas se centran en la potencia de cálculo y las redes cuando ponen en marcha proyectos de IA. Pero pueden estar pasando por alto la necesidad de almacenamiento masivo.
A medida que las empresas comienzan a desplegar y utilizar la inteligencia artificial (IA), muchas se dan cuenta de que necesitarán acceso a una potencia informática masiva y rápidas capacidades de red, pero las necesidades de almacenamiento pueden pasarse por alto.
Es probable que la puesta en marcha de un chatbot o la adopción de un asistente de IA no pongan a prueba la capacidad de almacenamiento de la mayoría de las empresas, pero los grandes proyectos de IA con acceso a millones de puntos de datos pueden requerir muchos terabytes de almacenamiento nuevo, con un coste potencial de decenas de millones de dólares, según algunos expertos en IA y almacenamiento.
Existe un puñado de opciones de almacenamiento, y para algunas funciones de IA, el almacenamiento en la nube o los discos duros tradicionales pueden ser adecuados, dice Jeffrey Necciai, CTO de Duos Technologies, que utiliza IA con imágenes para inspeccionar vagones de ferrocarril en movimiento.
Pero para los sistemas de IA que necesitan proporcionar respuestas o información instantáneas, los discos duros y el almacenamiento en la nube situados a cientos de kilómetros de la ubicación de las cargas de trabajo de IA pueden ser demasiado lentos, sostienen Necciai y otros expertos.
Por ejemplo, Duos Technologies proporciona información sobre vagones de ferrocarril en un plazo de 60 segundos desde que se escanea el vagón, afirma Necciai. En ese caso, Duos necesita un almacenamiento superrápido que funcione junto a sus unidades informáticas de IA.
“Si tienes una rueda rota, quieres saberlo ahora mismo”, afirma. “No procesamos nada necesariamente en la nube, porque obviamente no queremos la latencia. Necesitamos sacar esa información lo antes posible”.
No sólo el tamaño de la unidad
Las empresas que están considerando grandes proyectos de IA necesitan tener en cuenta tanto la cantidad de almacenamiento que necesitan como la capacidad de su almacenamiento para manejar múltiples tareas al mismo tiempo, dice Necciai.
“Tenemos que escribir rápidamente en el almacenamiento al mismo tiempo para varios subprocesos, y tenemos que leer rápidamente del almacenamiento de la historia para varios subprocesos”, añade. “Para nosotros era muy importante poder hacer cosas simultáneamente en ese almacenamiento”.
El año pasado, Duos escaneó 8,5 millones de vagones, y cada escaneado generó potencialmente más de 1.050 imágenes. El portal de inspección de vagones de Duos utiliza cuatro matrices de almacenamiento de alto rendimiento, cada una con 16 unidades NVMe, para una capacidad total de unos 500 terabytes.
La empresa también utiliza unos 25 terabytes de almacenamiento más tradicional para entrenar y desarrollar su IA internamente, con menos necesidad de resultados instantáneos. “Queremos aprovecharlo todo para hacer lo que necesitamos”, afirma Necciai. “Realmente se reduce a utilizar la herramienta adecuada para el trabajo adecuado”.
Intensas necesidades de datos
Al igual que Duos, algunas otras empresas que ejecutan enormes proyectos de IA están recurriendo a SSD de alta capacidad o memoria flash NAND para sus necesidades de almacenamiento.
Las opciones de memoria de alta velocidad son bastante más caras que los discos duros, con un coste de hasta 1.000 dólares por gigabyte, pero ofrecen otras ventajas. Por ejemplo, pueden ser casi tres veces más eficientes desde el punto de vista energético y ocupan menos espacio que los bastidores de servidores y discos duros, afirma Roger Corell, director senior de marketing de liderazgo del fabricante de SSD empresariales Solidigm.
A medida que las empresas adopten proyectos de IA más complejos y multimodales, y más empleados empiecen a utilizar herramientas de IA, la demanda de opciones de almacenamiento multihilo de alta capacidad no hará sino aumentar, afirma.
“La IA es muy intensa en cuanto a la cantidad de datos que hay que almacenar y la rapidez con la que hay que acceder a estos conjuntos de datos masivos”, añade Corell.
Por otra parte, además de las opciones SSD o NAND, algunas empresas están utilizando nubes privadas o instalaciones de coubicación para sus necesidades de almacenamiento, afirma Ugur Tigli, CTO de MinIO, un almacén de objetos para proyectos de IA y ML.
Los clientes de MinIO que adoptan IA suelen aumentar su capacidad de almacenamiento entre cuatro y diez veces, afirma, y anima a los usuarios de IA a gran escala a mirar más allá de la nube pública para sus necesidades de almacenamiento, ya que el coste de utilizar la nube privada o los servicios de coubicación puede ser un 60% inferior al de la nube pública.
“A escala de cientos de petabytes o uno o dos exabytes, la nube pública no resulta rentable”, afirma. “El coste total sería de decenas a cientos de millones de dólares al año, dependiendo de la capacidad, el escalonamiento y los perfiles de acceso a los datos”.
En lugar de la nube pública, los usuarios empresariales pueden construir de forma privada y “reventar” la nube para un uso adicional de la GPU, añade Tigli. “La clave es que el cálculo es elástico, pero los datos tienen gravedad y crecen a un ritmo predecible, aunque acelerado, por lo que deben diseñarse en consecuencia”, afirma.
El almacenamiento como plataforma
Otra opción son las plataformas de almacenamiento a escala de petabytes, añade Priyanka Karan, CTO de campo de la empresa de transformación digital AHEAD. Las plataformas de almacenamiento a escala de petabytes “tienen como objetivo reducir los desafíos de movimiento de datos para llevarlos desde donde aterrizaron inicialmente a lugares donde se pueden aprovechar para el entrenamiento de IA”, dice. “El objetivo no es crear un nuevo silo de almacenamiento”.
Algunas plataformas de almacenamiento disponibles se basan en flash NAND, que ofrece un alto rendimiento y baja latencia, esencial para alimentar datos a GPU y TPU, añade.
Con varias opciones disponibles, algunos usuarios y expertos en IA afirman que la cantidad y el tipo de almacenamiento necesarios dependen del proyecto de IA que esté implantando una organización.
El procesamiento por lotes fuera de línea tiene menos requisitos de memoria que las cargas de trabajo en tiempo real, afirma Karan. En algunos casos, las opciones de almacenamiento secundario pueden utilizarse para almacenar grandes cantidades de datos necesarios para entrenar y ejecutar modelos de IA, añade.
Elegir la opción de almacenamiento adecuada también depende de la gravedad de los datos, a menudo mencionada: el tamaño del conjunto de datos, si puede trasladarse a la nube para su procesamiento o si tiene sentido llevar el procesamiento a los datos. En algunos proyectos de IA, el almacenamiento de datos se ubica en un centro de datos con el cálculo de IA, en otra nube pública o en el borde donde se crean los datos.
Las empresas deben tener en cuenta muchos otros factores, como la seguridad y los retos normativos o de cumplimiento de la normativa. Con el almacenamiento en la nube, “la red, la distancia y la latencia son factores a tener en cuenta, pero deben considerar la variable del coste añadido”, afirma Karan.
Además, más allá del coste del almacenamiento en sí, puede haber tasas de transferencia de datos, de acceso y de gestión para el almacenamiento externo. Por otro lado, las opciones de almacenamiento in situ pueden implicar enormes inversiones iniciales, así como mantenimiento, energía y refrigeración, y salarios del personal.
“Las organizaciones deben evaluar sus necesidades específicas, incluido el rendimiento, el coste y la escalabilidad, para elegir la mejor solución para sus iniciativas de IA”, concluye Karan.
SUBSCRIBE TO OUR NEWSLETTER
From our editors straight to your inbox
Get started by entering your email address below.
>>> Read full article>>>
Copyright for syndicated content belongs to the linked Source : CIO – https://www.cio.com/article/2516708/almacenamiento-el-gran-olvidado-de-las-implantaciones-de-ia.html