Compartir a través de


Información general: Implementación de modelos, flujos y aplicaciones web con Inteligencia artificial de Azure Studio

Azure AI Studio admite la implementación de modelos de lenguaje grandes (LLM), flujos y aplicaciones web. La implementación de un LLM o flujo hace que esté disponible para su uso en un sitio web, una aplicación u otros entornos de producción. Esto suele implicar hospedar el modelo en un servidor o en la nube y crear una API u otra interfaz para que los usuarios interactúen con el modelo.

El proceso de interacción con un modelo implementado se denomina inferencia. La inferencia es el proceso de aplicar nuevos datos de entrada a un modelo para generar salidas.

Puede usar la inferencia en varias aplicaciones. Por ejemplo, puede usar un modelo de finalización de chat para completar automáticamente palabras o frases que una persona está escribiendo en tiempo real. También puede usar un modelo de chat para generar una respuesta a la pregunta "¿Puedes crear un itinerario para una visita de un solo día en Seattle?" Las posibilidades son infinitas.

Implementar modelos

En primer lugar, podría preguntar:

  • "¿Qué modelos puedo implementar?"

    Inteligencia artificial de Azure Studio admite la implementación de algunos de los modelos de base de lenguaje y visión más populares mantenidos por Microsoft, Hugging Face, Meta y otros.

  • "¿Cómo elijo el modelo correcto?"

    Inteligencia artificial de Azure Studio proporciona un catálogo de modelos que permite buscar y filtrar modelos en función de su caso de uso. También puede probar un modelo en un área de juegos de muestra antes de implementarlo en el proyecto.

  • "¿Desde dónde puedo implementar un modelo en Inteligencia artificial de Azure Studio?"

    Puede implementar un modelo desde el catálogo de modelos o desde la página de implementación del proyecto.

Inteligencia artificial de Azure Studio simplifica las implementaciones. Una selección simple o una línea de código implementan un modelo y generan un punto de conexión de API para que las aplicaciones lo consuman.

Modelos de Azure OpenAI

Con Azure OpenAI Service, puede acceder a los modelos de OpenAI más recientes que tienen características empresariales de Azure. Obtenga más información acerca de Cómo implementar modelos de Azure OpenAI en AI Studio.

Modelos abiertos

El catálogo de modelos ofrece acceso a una gran variedad de modelos en distintas modalidades. Puede implementar determinados modelos en el catálogo de modelos como servicio con facturación de pago por uso. Esta capacidad proporciona una forma de consumir modelos como API sin alojarlos en su suscripción, al tiempo que mantiene la seguridad y el cumplimiento empresarial que necesitan las organizaciones.

Implementación de modelos como API sin servidor

La implementación de modelos como API sin servidor no requiere una cuota de la suscripción. Esta opción le permite implementar el modelo como servicio (MaaS). Se usa una implementación de API sin servidor y se factura por token de forma de pago por uso. Para obtener más información sobre cómo implementar un modelo como una API sin servidor, consulte Implementación de modelos como API sin servidor.

Implementación de modelos con infraestructura administrada hospedada

Puede hospedar modelos abiertos en su propia suscripción con infraestructura administrada, máquinas virtuales y número de instancias para la administración de capacidad. Hay una amplia gama de modelos de Azure OpenAI, Hugging Face y NVIDIA. Obtenga más información sobre cómo implementar modelos abiertos en puntos de conexión en tiempo real.

Facturación para la implementación e inferencia de LLM en Inteligencia artificial de Azure Studio

En la tabla siguiente se describe cómo se le factura la implementación e inferencia de LLM en Inteligencia artificial de Azure Studio. Consulte supervisar los costos de los modelos ofrecidos en Azure Marketplace para obtener más información sobre cómo realizar un seguimiento de los costos.

Caso de uso Modelos de Azure OpenAI Modelos implementados como API sin servidor (pago por uso) Modelos implementados con proceso administrado
Implementación de un modelo desde el catálogo de modelos en el proyecto No, no se le factura la implementación de un modelo de Azure OpenAI en el proyecto. Sí, se le factura por la infraestructura del punto de conexión.1 Sí, se le factura la infraestructura que hospeda el modelo.2
Probar el modo de chat en el área de juegos después de implementar un modelo en el proyecto Sí, se le factura según el uso del token. Sí, se le factura según el uso del token. None
Probar un modelo en un área de juegos de muestra en el catálogo de modelos (si procede) No aplicable None None
Probar un modelo en el área de juegos en el proyecto (si procede) o en la pestaña de prueba en la página de detalles de implementación en el proyecto. Sí, se le factura según el uso del token. Sí, se le factura según el uso del token. None

1 Se factura por minuto una infraestructura de punto de conexión mínima. En el pago por uso, no se le factura por la infraestructura que hospeda el propio modelo. Después de eliminar el punto de conexión, no se acumulan cargos adicionales.

2 La facturación se realiza por minuto, en función del nivel de producto y del número de instancias usadas en la implementación desde el momento de la creación. Después de eliminar el punto de conexión, no se acumulan cargos adicionales.

Implementación de flujos

¿Qué es un flujo y por qué desea implementarlo? Un flujo es una secuencia de herramientas que se pueden usar para compilar una aplicación de IA generativa. La implementación de un flujo difiere de la implementación de un modelo en que puede personalizar el flujo con sus propios datos y otros componentes, como incrustaciones, búsqueda de bases de datos vectoriales y conexiones personalizadas. Para obtener una guía paso a paso, consulte Implementación de un flujo para la inferencia en tiempo real.

Por ejemplo, puede crear un bot de chat que use los datos para generar respuestas informadas y fundamentadas a las consultas del usuario. Al agregar los datos en el área de juegos, se genera automáticamente un flujo de avisos. Puede implementar el flujo tal como está o personalizarlo. En Inteligencia artificial de Azure Studio, también puede crear su propio flujo desde cero.

Como sea que decida crear un flujo en Inteligencia artificial de Azure Studio, puede implementarlo rápidamente y generar un punto de conexión de API para que las aplicaciones lo consuman.

Implementación de aplicaciones web

El modelo o flujo que implemente se puede usar en una aplicación web hospedada en Azure. Inteligencia artificial de Azure Studio proporciona una manera rápida de implementar una aplicación web. Para más información, vea el tutorial Chat empresarial de Inteligencia artificial de Azure Studio.

Planeación de la seguridad de la IA para un modelo implementado

En el caso de los modelos de Azure OpenAI, como GPT-4, Inteligencia artificial de Azure Studio proporciona un filtro de seguridad de inteligencia artificial durante la implementación para garantizar el uso responsable de la IA. El filtro de seguridad de IA permite moderar contenido dañino y confidencial para promover la seguridad de las aplicaciones mejoradas por IA.

Inteligencia artificial de Azure Studio también ofrece supervisión de modelos para los modelos implementados. La supervisión de modelo para LLM usa los modelos de lenguaje de GPT más recientes para supervisar y alertar cuando las salidas del modelo funcionen mal con respecto a los umbrales establecidos de seguridad y calidad de generación. Por ejemplo, puede configurar una supervisión para evaluar hasta qué punto las respuestas generadas por el modelo se alinean con la información del origen de entrada (base) y si se ajustan mucho a una oración o documento de verdad básica (similitud).

Optimización del rendimiento de un modelo implementado

La optimización de LLM requiere una consideración cuidadosa de varios factores, como las métricas operativas (por ejemplo, la latencia), las métricas de calidad (por ejemplo, la precisión) y el costo. Es importante trabajar con científicos de datos e ingenieros experimentados para asegurarse de que el modelo esté optimizado para su caso de uso específico.