Amazon Data Firehose ofrece la manera más sencilla de cargar datos de transmisión en almacenes de datos y herramientas de análisis. Data Firehose es un servicio completamente administrado que facilita el registro, la transformación y la carga de volúmenes masivos de datos de trasmisión desde cientos de miles de orígenes a Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, tablas de Apache Iceberg, puntos de enlace HTTP genéricos y proveedores de servicios como Datadog, New Relic, MongoDB y Splunk. Esto permite realizar análisis y obtener información en tiempo real.
Flujos de Firehose
Un flujo de Firehose es la entidad subyacente de Firehose. Firehose se utiliza mediante la creación de un flujo de Firehose y el envío de datos a este.
Características principales
Lanzamiento y configuración sencillos
Puede lanzar Amazon Data Firehose y crear un flujo de entrega para cargar datos en Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake,tablas de Apache Iceberg, puntos de enlace HTTP, Datadog, New Relic, MongoDB o Splunk, con tan solo unos clics, en la Consola de administración de AWS. Puede enviar datos al flujo de entrega mediante una llamada a la API de Firehose, o bien con la ejecución del agente Linux que ofrecemos en el origen de datos. Data Firehose carga continuamente los datos en los destinos especificados.
Escalado elástico para administrar un rendimiento variable de datos
Una vez lanzado, se aumenta o reduce automáticamente el escalado vertical de flujos de Firehose para administrar gigabytes por segundo o más de velocidad de datos de entrada y mantener la latencia de los datos a los niveles que especifique para la transmisión, dentro de los límites. No necesita intervención ni mantenimiento.
Cargue nuevos datos en segundos
Puede especificar un tamaño por lotes o un intervalo por lotes para controlar la rapidez con que los datos se cargan en los destinos. Por ejemplo, puede establecer el intervalo del lote entre cero segundos y 15 minutos. Asimismo, puede especificar si los datos deben comprimirse o no. El servicio admite algoritmos de compresión comunes, entre otros, GZip, Snappy compatible con Hadoop, Zip y Snappy. El agrupamiento por lotes y la compresión de datos antes de cargarlos permite controlar la rapidez con que se reciben nuevos datos en los destinos.
Compatibilidad con varios orígenes de datos
Firehose lee fácilmente los datos de más de 20 orígenes de datos, incluidos los clústeres sin servidor de Amazon MSK y MSK, Amazon Kinesis Data Streams, Registros de Amazon CloudWatch, Amazon SNS, AWS IoT Core y más.
Conversión de formato de Apache Parquet u ORC
Firehose admite los formatos de datos en columnas, como Apache Parquet y Apache ORC, que están optimizados para el análisis y el almacenamiento rentables mediante el uso de servicios como Amazon Athena, Amazon Redshift Spectrum, Amazon EMR y otras herramientas basadas en Hadoop. Firehose puede convertir el formato de datos de entrada de JSON a formatos Parquet u ORC antes de almacenarlos en Amazon S3 para ahorrar costos de almacenamiento y análisis.
Entrega de datos particionados a S3
Particione dinámicamente sus datos en streaming antes de la entrega a S3 mediante claves definidas de forma estática o dinámica como “customer_id” o “transaction_id”. Firehose agrupa los datos según estas claves y realiza la entrega en prefijos de S3 con una clave única, lo que facilita la ejecución de análisis de alto rendimiento y rentables en S3 con Athena, EMR y Redshift Spectrum. Más información »
Transformaciones de datos integradas
Puede configurar Amazon Data Firehose para que prepare los datos de streaming antes de cargarlos en los almacenes de datos. Tan solo debe seleccionar una función de AWS Lambda desde la pestaña de configuración de flujo de Amazon Data Firehose en la consola de administración de AWS. Amazon Data Firehose aplicará automáticamente la función a todos los registros de datos de entrada y cargará los datos transformados en los destinos. Amazon Data Firehose proporciona esquemas de Lambda prediseñados para convertir orígenes de datos comunes, como los registros de Apache y del sistema, a formatos JSON y CSV. Puede utilizar estos esquemas prediseñados sin ningún cambio o personalizarlos más, o bien escribir sus propias funciones personalizadas. También puede configurar Amazon Data Firehose para que reintente de forma automática los trabajos con errores y para que cree copias de seguridad de los datos de streaming sin procesar. Más información »
Compatibilidad con varios destinos de datos
Firehose lee fácilmente los datos de más de 20 orígenes de datos, incluidos los clústeres sin servidor de Amazon MSK y MSK, Amazon Kinesis Data Streams, registros de Amazon CloudWatch, Amazon SNS, AWS IoT Core y más. Actualmente, Amazon Data Firehose es compatible con los destinos de Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, tablas de Apache Iceberg, puntos de enlace HTTP, Datadog, New Relic, MongoDB y Splunk. Puede especificar el bucket de Amazon S3, la tabla de Amazon Redshift, el dominio de Amazon OpenSearch Service, los puntos de enlace HTTP o el proveedor de servicio en el que deberían cargarse los datos.
Cifrado automático opcional
Amazon Data Firehose ofrece la opción de que los datos se cifren automáticamente después de cargarlos en el destino. Como parte de la configuración del flujo de Firehose, puede especificar una clave de cifrado de AWS Key Management System (KMS).
Métricas para supervisar el rendimiento
Amazon Data Firehose expone varias métricas a través de la consola, así como en Amazon CloudWatch, entre las que se incluyen el volumen de datos enviados, el volumen de datos cargados en los destinos, los límites del flujo de Firehose, los números de registros acelerados y la tasa de éxito de la carga.
Precio de pago por uso
Con Amazon Data Firehose, solo paga por el volumen de datos que usted transmite a través del servicio y, si corresponde, por la conversión de formato de datos. También pagará por la entrega y la transferencia de datos a Amazon VPC cuando corresponda. No se requieren tarifas mínimas ni compromisos iniciales. No necesita mano de obra para operar, escalar y mantener la infraestructura o aplicaciones personalizadas a fin de capturar y cargar los datos de streaming.
Obtenga más información sobre los precios de Amazon Data Firehose