DataForce Labs

Glosario de datos

Definiciones operativas, bilingues y compartibles para conversar con precision sobre arquitectura de datos, ingenieria, gobierno, FinOps, analitica, seguridad e IA en produccion.

44 terminos
7 clusters
ES/EN bilingue

Arquitectura de Datos

7

Contrato de datos

Arquitectura de Datos

Acuerdo operativo entre productores y consumidores de datos sobre estructura, semántica, calidad, responsables y cambios esperados.

Ejemplo

Una tabla crítica de ventas declara campos obligatorios, reglas de calidad, dueño y política de cambios antes de alimentar reportes o modelos.

Semántica de datos

Arquitectura de Datos

Conjunto de significados compartidos que permite interpretar métricas, entidades y eventos de la misma forma entre áreas.

Ejemplo

Ingresos, venta neta y margen deben tener reglas explícitas para que finanzas, operaciones y analítica no comparen cifras incompatibles.

Capa semántica

Arquitectura de Datos

Capa que centraliza definiciones de métricas, entidades, relaciones y reglas de negocio para que las herramientas consuman criterios consistentes.

Ejemplo

El tablero ejecutivo y el modelo de forecast consultan la misma definición versionada de cliente activo.

Data Mesh

Arquitectura de Datos

Enfoque organizacional donde dominios de negocio publican datos como productos, con responsabilidad clara y estándares federados.

Ejemplo

Logística publica un producto de datos de entregas con contrato, SLA y documentación para consumo de BI, operaciones e IA.

Producto de datos

Arquitectura de Datos

Activo de datos diseñado para consumo repetible, con dueño, documentación, contrato, calidad medible, soporte y una audiencia clara.

Ejemplo

Un dataset de pedidos confiable no es solo una tabla: incluye definición, linaje, SLA, reglas de acceso y canal de soporte.

Modelo canónico

Arquitectura de Datos

Representación común de entidades, atributos y relaciones usada para reducir traducciones inconsistentes entre sistemas y dominios.

Ejemplo

Cliente, contrato y producto tienen estructuras compartidas antes de viajar entre CRM, facturación, analítica y atención.

Linaje de datos

Arquitectura de Datos

Trazabilidad del recorrido de un dato desde su origen hasta sus transformaciones, consumos, responsables e impactos aguas abajo.

Ejemplo

Antes de cambiar una columna, el equipo ve qué pipelines, tableros, reportes regulatorios o modelos dependen de ella.

Data Engineering

9

Data Lakehouse

Data Engineering

Arquitectura que combina almacenamiento flexible tipo lake con prácticas de confiabilidad, gobernanza y consulta propias de un warehouse.

Ejemplo

Eventos crudos, tablas curadas y datasets analíticos conviven con control de versiones, calidad y acceso gobernado.

DataOps

Data Engineering

Disciplina operativa para entregar datos confiables mediante automatización, pruebas, monitoreo, versionamiento y colaboración entre equipos.

Ejemplo

Un pipeline no pasa a producción si falla una prueba de esquema, frescura o volumen esperado.

Observabilidad de datos

Data Engineering

Capacidad de detectar, explicar y priorizar incidentes de datos usando señales de frescura, volumen, esquema, linaje y calidad.

Ejemplo

Una alerta informa que una tabla llegó tarde, identifica el pipeline afectado y muestra qué tableros dependen de ella.

Patrón de integración donde los datos se extraen, transforman y luego cargan en una plataforma destino.

Ejemplo

Datos de nómina se transforman antes de llegar al warehouse para cumplir reglas contables y de seguridad.

Patrón donde los datos se extraen y cargan primero, y las transformaciones se ejecutan dentro de la plataforma analítica.

Ejemplo

Eventos de e-commerce llegan al lakehouse y luego se transforman en tablas curadas para marketing y operaciones.

Técnica para capturar cambios de una fuente transaccional y propagarlos sin recargar todo el conjunto de datos.

Ejemplo

Cada actualización de inventario viaja al sistema analítico en minutos sin reprocesar millones de registros históricos.

Procesamiento batch

Data Engineering

Ejecución de cargas o transformaciones en bloques programados, útil cuando la latencia no necesita ser inmediata.

Ejemplo

El cierre diario consolida ventas, costos y devoluciones durante la madrugada para el reporte ejecutivo.

Procesamiento streaming

Data Engineering

Procesamiento continuo de eventos a medida que ocurren, usado cuando la operación requiere baja latencia.

Ejemplo

Fraude, telemetría o asignación de rutas requieren reaccionar al evento mientras todavía importa.

Orquestación de pipelines

Data Engineering

Coordinación de dependencias, horarios, reintentos, alertas y estados de ejecución entre tareas de datos.

Ejemplo

La carga de margen solo corre cuando ventas, costos e inventario terminaron correctamente.

Gobierno de Datos

6

Gobernanza de datos

Gobierno de Datos

Sistema de decisiones, responsabilidades, políticas y controles para gestionar datos con calidad, seguridad y valor de negocio.

Ejemplo

El comité no solo aprueba políticas: define dueños, prioridades, excepciones y mecanismos de seguimiento.

Catálogo de datos

Gobierno de Datos

Inventario consultable de activos de datos, metadatos, dueños, descripciones, linaje, calidad y reglas de acceso.

Ejemplo

Un analista encuentra la tabla correcta de clientes, entiende su definición y solicita acceso sin depender de mensajes informales.

Metadatos

Gobierno de Datos

Información que describe un activo de datos: origen, significado, dueño, esquema, sensibilidad, uso, calidad y relaciones.

Ejemplo

La columna email indica formato esperado, clasificación de privacidad y sistemas que la consumen.

Calidad de datos

Gobierno de Datos

Grado en que los datos cumplen requisitos de exactitud, completitud, consistencia, oportunidad, unicidad y validez para un uso concreto.

Ejemplo

Un dato puede ser suficiente para tendencia semanal y, al mismo tiempo, insuficiente para facturación o riesgo crediticio.

Gestión de entidades maestras como cliente, producto, proveedor o ubicación para mantener identidad y atributos consistentes.

Ejemplo

Retail evita tener tres clientes distintos para la misma persona al unificar identificadores y reglas de supervivencia.

Data steward

Gobierno de Datos

Rol responsable de cuidar la definición, calidad, uso y resolución de problemas de datos dentro de un dominio o proceso.

Ejemplo

El steward de cartera valida reglas de morosidad y prioriza correcciones cuando se detectan inconsistencias.

FinOps Datos

6

FinOps de datos

FinOps Datos

Aplicación de prácticas FinOps a plataformas de datos para conectar costos cloud con consumo, arquitectura, responsables y valor generado.

Ejemplo

Un job costoso se evalúa por frecuencia, usuarios reales, SLA y alternativa técnica antes de ampliar infraestructura.

Unit economics de datos

FinOps Datos

Lectura del costo por unidad útil de consumo, como consulta, pipeline, modelo, cliente, dominio o decisión soportada.

Ejemplo

No basta saber cuánto cuesta el warehouse: importa cuánto cuesta cada reporte crítico o predicción usada en operación.

Showback

FinOps Datos

Práctica de mostrar costos por área, producto o dominio sin trasladar necesariamente el cobro interno.

Ejemplo

Marketing ve el costo de sus consultas y campañas analíticas aunque el presupuesto siga centralizado.

Chargeback

FinOps Datos

Modelo donde los costos de plataforma se asignan o cobran internamente a los equipos que generan el consumo.

Ejemplo

Cada dominio asume el costo de sus pipelines, almacenamiento y consultas con reglas transparentes de asignación.

Rightsizing

FinOps Datos

Ajuste de recursos cloud al nivel realmente necesario de desempeño, disponibilidad y crecimiento esperado.

Ejemplo

Un cluster sobredimensionado se reduce después de medir carga, ventanas de ejecución y consumo real.

Etiquetado de costos

FinOps Datos

Uso de etiquetas obligatorias para atribuir consumo cloud a productos, dominios, ambientes, dueños o centros de costo.

Ejemplo

Sin etiquetas de ambiente y dueño, una alerta de gasto no sabe a quién llamar ni qué apagar primero.

IA en Producción

9

Prácticas para versionar, desplegar, monitorear y gobernar modelos de machine learning durante su ciclo de vida operativo.

Ejemplo

Cada modelo tiene dataset de entrenamiento trazable, métrica de desempeño, control de cambios y monitoreo de drift.

Prácticas para operar aplicaciones basadas en modelos de lenguaje: prompts, evaluaciones, seguridad, costos, observabilidad y versionamiento.

Ejemplo

Un asistente empresarial registra versiones de prompt, latencia, costo por respuesta, fuentes usadas y resultados de evaluación.

Feature store

IA en Producción

Repositorio gobernado de variables reutilizables para entrenamiento e inferencia, diseñado para consistencia, trazabilidad y reutilización.

Ejemplo

La variable recurrencia de compra se calcula una vez y se usa igual en entrenamiento, scoring y monitoreo.

Patrón donde un modelo genera respuestas usando información recuperada desde fuentes externas relevantes y controladas.

Ejemplo

Un asistente consulta políticas internas actualizadas antes de responder sobre vacaciones, compras o cumplimiento.

Embeddings

IA en Producción

Representaciones numéricas de textos, imágenes u otros objetos que permiten comparar similitud semántica.

Ejemplo

Dos documentos con palabras distintas pueden quedar cerca en el espacio vectorial si hablan del mismo problema.

Base vectorial

IA en Producción

Sistema diseñado para almacenar embeddings y encontrar elementos semánticamente cercanos con baja latencia.

Ejemplo

El buscador del asistente encuentra contratos parecidos aunque el usuario no escriba las palabras exactas.

Drift de modelo

IA en Producción

Pérdida de desempeño de un modelo cuando cambian los datos, el comportamiento de usuarios, el contexto o la relación entre variables.

Ejemplo

Un modelo de demanda entrenado antes de una nueva política comercial empieza a subestimar compras recurrentes.

Evaluación de prompts

IA en Producción

Proceso para medir si un prompt produce respuestas correctas, útiles, consistentes, seguras y alineadas con el negocio.

Ejemplo

Cada cambio de prompt se prueba contra casos críticos antes de llegar al asistente usado por clientes.

Guardrails de IA

IA en Producción

Controles que reducen respuestas inseguras, incorrectas o fuera de alcance mediante políticas, filtros, validaciones y límites operativos.

Ejemplo

El asistente no ejecuta una acción financiera si no confirma identidad, permisos y reglas del proceso.

Analítica

3

BI operativo

Analítica

Analítica diseñada para decisiones frecuentes de operación, con métricas accionables, latencia adecuada y responsables claros.

Ejemplo

Un tablero de despacho muestra rutas atrasadas y permite activar acciones, no solo mirar indicadores al final del día.

Métrica norte

Analítica

Métrica principal que resume el valor central que una organización o producto busca mejorar de forma sostenida.

Ejemplo

Una plataforma logística puede priorizar entregas completas a tiempo sobre volumen bruto de envíos.

Single source of truth

Analítica

Principio de consumir una definición confiable y gobernada para evitar múltiples versiones contradictorias de la misma realidad.

Ejemplo

Ventas del mes no depende del tablero que alguien abrió, sino de una métrica oficial con reglas documentadas.

Seguridad de Datos

4

Modelo de acceso donde los permisos se asignan según roles y responsabilidades, no caso por caso de forma manual.

Ejemplo

Un analista de riesgo ve carteras y métricas agregadas, pero no datos personales que no necesita para su función.

Enmascaramiento de datos

Seguridad de Datos

Técnica para ocultar o transformar datos sensibles reduciendo exposición sin impedir ciertos usos operativos o analíticos.

Ejemplo

Soporte ve los últimos dígitos de un documento, mientras auditoría autorizada puede consultar el valor completo.

Minimización de datos

Seguridad de Datos

Principio de recolectar, almacenar y procesar solo los datos necesarios para un propósito legítimo y definido.

Ejemplo

Un formulario no solicita fecha de nacimiento si basta con validar mayoría de edad.

Retención de datos

Seguridad de Datos

Política que define cuánto tiempo conservar datos, por qué motivo, en qué condiciones y cuándo eliminarlos o archivarlos.

Ejemplo

Logs técnicos se conservan por meses, mientras evidencia regulatoria puede requerir años y controles más estrictos.

Mejor decision editorial

Si queremos viralizar, el glosario debe tener menu propio.

No como adorno de navegacion, sino como activo evergreen: cada termino puede circular solo, enlazar articulos y traer busquedas tecnicas de largo plazo.