Maestría en Big Data y Ciencia de Datos

URI permanente para esta colecciónhttps://hdl.handle.net/20.500.14809/8185

Examinar

Envíos recientes

Mostrando 1 - 11 de 11
  • ÍtemAcceso Abierto
    Minería de datos educativos para mejorar el rendimiento académico: Un caso de estudio en el bachillerato
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Vásquez Ojeda, Santiago Javier; Pérez Argudo, Washington Oswaldo
    El objetivo de este estudio es analizar el rendimiento académico de los estudiantes de bachillerato utilizando Minería de datos y modelos predictivos para identificar las variables clave que influyen en su desempeño. La metodología empleada se basa en el uso de técnicas estadísticas y de aprendizaje automático, como la regresión lineal, árboles de decisión, Random Forest y Boosted Trees, aplicadas a datos académicos y socioeconómicos obtenidos de la base de datos del Ineval se analizaron datos de los años 2023–2024. Los resultados indican que el modelo de Random Forest es el más preciso, alcanzando una precisión del 85%, seguido por Boosted Trees con un 83%. Las variables socioeconómicas, como el ingreso familiar y el nivel educativo de los padres, junto con el rendimiento académico previo y la asistencia a clases, fueron identificadas como los factores más influyentes en el rendimiento de los estudiantes. En conclusión, este estudio subraya la importancia de integrar Data Mining en la educación, ya que permite personalizar las estrategias pedagógicas y tomar decisiones informadas para mejorar el rendimiento académico de los estudiantes, considerando un enfoque multidimensional que abarque tanto los aspectos académicos como los socioeconómicos.
  • ÍtemAcceso Abierto
    Dimensionamiento y caracterización de las curvas de carga de transformadores de distribución utilizando clustering y modelos predictivos de aprendizaje automático
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Torres Bermeo, Pedro Adrián; Varela Aldás, José Luis
    El dimensionamiento eficiente y la caracterización de las curvas de carga de los transformadores de distribución son desafíos cruciales para las empresas eléctricas, especialmente ante la creciente variabilidad de la demanda, impulsada por cargas emergentes como los vehículos eléctricos. Este estudio aplica técnicas de clustering y modelos predictivos para analizar y predecir el comportamiento de la demanda de los transformadores, optimizar los factores de utilización y mejorar la planificación de la infraestructura. Se evaluaron tres algoritmos de clustering, K-shape, DBSCAN y DTW con K-means, para determinar cuál caracteriza mejor las curvas de carga de los transformadores. Los resultados muestran que DTW con K-means proporciona la mejor segmentación, con una similitud de correlación cruzada de 0.9552 y un índice de consistencia temporal de 0.9642. Para la modelación predictiva, se probaron algoritmos supervisados, donde Random Forest alcanzó la mayor precisión al predecir el tipo de curva de carga correspondiente para cada transformador (0.78), y el modelo SVR obtuvo el mejor desempeño en la predicción de la carga máxima, explicando el 90% de la variabilidad de la carga (R² = 0.90). Los modelos fueron aplicados a 16,696 transformadores del sector eléctrico ecuatoriano, validando la predicción de carga con una precisión del 98.55%. Adicionalmente, la asignación optimizada de la potencia nominal de los transformadores redujo la capacidad instalada en 39.27%, incrementando el factor de utilización de los transformadores de 31.79% a 52.35%. Estos hallazgos resaltan el valor de los enfoques basados en datos para optimizar los sistemas de distribución eléctrica.
  • ÍtemAcceso Abierto
    Segmentación avanzada de clientes en la industria de suplementos naturales para mejorar las estrategias de marketing mediante herramientas de Big Data
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Paz Ojeda, Jorge Enrique; Sánchez Montero, Ivanna Karina
    La compañía Nature’s Sunshine Products, dedicada a la comercialización de suplementos naturales. Sus sucursales de Latinoamérica (NSP Latam) cada vez enfrentan mayores dificultades para alcanzar sus metas comerciales una de las causas es la falta de aplicación de herramientas tecnológicas que le permitan comprender a profundidad el comportamiento de sus clientes. Esta situación ha limitado el impacto de sus estrategias de marketing, afectando tanto la fidelización como el aprovechamiento de oportunidades de venta. Ante este problema, el objetivo del estudio fue aplicar una metodología de segmentación avanzada basada en el análisis RFM (Recencia, Frecuencia y Valor Monetario) y técnicas de agrupamiento como K-means, DBSCAN y clustering jerárquico, con el fin de identificar patrones de comportamiento que orienten decisiones comerciales más efectivas. La hipótesis planteada sostiene que, mediante el uso de algoritmos de segmentación y análisis de datos, es posible clasificar a los clientes en grupos con características similares, lo que permitirá implementar estrategias personalizadas y mejorar los resultados del negocio. Para esto, se trabajó con una base de datos de más de 79.000 registros de ventas, de los últimos dos años, la cual fue procesada mediante con herramientas de Big Data en entornos como Python y Google Colab. Los resultados demostraron que el algoritmo K-means fue el más efectivo, permitiendo identificar cuatro segmentos claros: Platinum, Gold, Silver y Bronze, cada uno con niveles distintos de compra, compra más reciente y frecuencia de compra. Esta clasificación ofrece a la empresa una base sólida para optimizar sus campañas, enfocar sus recursos y fortalecer la relación con sus clientes. En conclusión, la integración de tecnologías de análisis de datos en esta industria no solo mejora la comprensión del mercado, sino que también impulsa la competitividad y sostenibilidad del negocio en el tiempo.
  • ÍtemAcceso Abierto
    Segmentación del consumo energético mediante K-Means: Aplicaciones en tarifación, detección de outliers y predicción de demanda en sistemas sin medición inteligente
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Muyulema Masaquiza, Wilmer Darío; Ayala Chauvin, Manuel Ignacio
    La gestión de la demanda de energía en sistemas que carecen de medición inteligente presenta un desafío importante para los distribuidores eléctricos, principalmente debido a la ausencia de datos en tiempo real. Esta investigación evalúa la eficacia del algoritmo K-Means cuando se aplica a los registros de facturación mensual de 221.401 clientes residenciales de Empresa Eléctrica Ambato Regional Centro Norte S.A. (EEASA) (Ecuador) durante el período 2023-2024. La metodología abarcó la limpieza de datos, la normalización de la puntuación Z y la validación empleando los índices Silhouette (0,55) y Davies-Bouldin (0,51). Además, se utilizaron modelos de regresión lineal (LR) y bosque aleatorio (RF) para pronosticar la demanda, y este último arrojó un R2 de 0,67. Los hallazgos delinearon ocho grupos distintos, lo que facilitó la formulación de tasas más representativas, la identificación de valores atípicos a través del método de rango intercuartílico (IQR) y la mejora de la estimación del consumo. Se concluye que este enfoque de segmentación no supervisada constituye una herramienta robusta y rentable para la planificación energética en entornos de red desprovistos de infraestructura inteligente.
  • ÍtemAcceso Abierto
    Implementación de la inteligencia artificial para el análisis de sentimientos de la percepción pública al Facebook de la Policía Nacional del Ecuador
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Murillo Coll, María Mercedes; Rubio Proaño, Andrés Xavier
    El análisis de sentimientos en redes sociales se ha convertido en una herramienta clave para comprender la percepción pública sobre instituciones como la Policía Nacional del Ecuador. Dado que las redes sociales permiten a los ciudadanos expresar opiniones, preocupaciones y denuncias, su análisis sistemático mediante inteligencia artificial (IA) y Big Data es crucial para mejorar la comunicación y confianza institucional. Este estudio emplea técnicas avanzadas de procesamiento de lenguaje natural (NLP) para evaluar la opinión ciudadana en Facebook. Se usaron tres modelos: BERT, basado en deep learning, para comprender el contexto del texto; NRC, que clasifica emociones en categorías como alegría, miedo o ira; y VADER, diseñado para interpretar el tono emocional en textos informales. El proceso metodológico incluyó tres fases principales: extracción de datos mediante web scraping, preprocesamiento del texto eliminando caracteres irrelevantes, y análisis de sentimientos con los modelos mencionados. Los resultados reflejan distintas percepciones sobre la Policía Nacional del Ecuador. BERT identificó una mayoría de comentarios positivos (51,45 %), indicando una visión favorable; NRC mostró una alta presencia de emociones negativas (46,85 %), especialmente ira y miedo, reflejando preocupaciones ciudadanas; y VADER clasificó la mayoría como neutros (73,99 %), lo que sugiere limitaciones en la precisión del modelo para este análisis. Los hallazgos resaltan la necesidad de estrategias comunicacionales efectivas para mejorar la imagen institucional y abordar preocupaciones de la ciudadanía. Se recomienda ampliar el estudio a otras plataformas como Twitter e Instagram, aplicar modelos híbridos para mejorar la precisión del análisis y fortalecer el uso de Big Data para la toma de decisiones en seguridad pública. Este enfoque permitirá optimizar la relación entre la Policía Nacional y la comunidad, promoviendo mayor confianza y transparencia.
  • ÍtemAcceso Abierto
    Predicción de la severidad de accidentes de tránsito en Quito mediante inteligencia artificial: Un enfoque de clasificación binaria
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Morillo Hernández, Jean Kevin; Rubio Proaño, Andrés Xavier
    En Ecuador, los accidentes de tránsito representan un desafío creciente para la seguridad vial, agravado por un incremento del 20,10% del parque vehicular en Pichincha durante 2023 y por el hecho de que el 44,38% de los accidentes involucraron víctimas. Esta situación evidencia deficiencias en la planificación y gestión de la movilidad y seguridad vial. El objetivo de esta investigación fue desarrollar modelos de inteligencia artificial para la predicción binaria de la severidad de los accidentes de tránsito en Quito, clasificándolos en “con víctimas” y “sin víctimas”. La metodología incluyó la recopilación de datos de la Agencia Nacional de Tránsito entre enero de 2017 y abril de 2024, obteniéndose 35.632 registros tras filtrado geográfico y preprocesamiento mediante codificación cíclica y análisis de correlación. Se evaluaron los algoritmos Random Forest, XGBoost, LightGBM y FFNN en versiones base y optimizadas, priorizando la reducción de falsos negativos. Los resultados mostraron mayor frecuencia de accidentes los sábados y durante horas pico, siendo los atropellos los más propensos a generar víctimas; además, factores como exceso de velocidad y no ceder el paso a peatones resultaron determinantes. El modelo LightGBM optimizado obtuvo el mejor desempeño, con recall del 87% y AUC-ROC de 0,9373, reduciendo los falsos negativos a 648 casos. El análisis con SHAP indicó que variables como “Motocicleta” y “Peatón” aumentan la probabilidad de accidentes con víctimas, mientras que “Conductor Ausente” reduce ese riesgo. En conclusión, los modelos de inteligencia artificial demostraron alta capacidad predictiva, identificando patrones y factores críticos que influyen en la severidad de los accidentes en Quito, apoyando decisiones de gestión vial y priorización de recursos de emergencia.
  • ÍtemAcceso Abierto
    Estudio de ubicación de vehículos eléctricos en el área de concesión de la EEQ a través de minería de datos de consumo residencial
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Mera Maldonado, Luis Andres; Calle García, Víctor Emilio
    Este estudio aborda la problemática para la identificación de usuarios de vehículos eléctricos (VE’s) que realizan cargas en sus residencias sin la utilización de medidores de energía dedicados, en la ciudad de Quito, según lo establece la normativa vigente, lo que dificulta la medición y el monitoreo de la demanda energética asociada. El presente trabajo, propone una metodología basada en técnicas de minería de datos, el cual permite analizar patrones de consumo eléctrico residencial e identificar anomalías compatibles con la carga de VE. Se aplican algoritmos de agrupamiento (K-Means) para dividir a los usuarios en grupos según similitudes en el consumo mensual. Adicionalmente, en un mapa de ubicación de los usuarios identificados se presentan los resultados de forma visual la distribución geográfica y con ello facilitar la planificación de la infraestructura de carga. El análisis se basa en datos de consumo eléctrico mensual de hogares en Quito. La metodología incluye la preparación de la base de datos, la aplicación del algoritmo K- Means, la validación de los resultados y la generación de un mapa geográfico. Se utilizan herramientas como RStudio y Python con bibliotecas como Pandas, NumPy, Scikit-learn y Folium, así como la API de Google Maps. La aplicación de la metodología permitió identificar 109 clientes residenciales como potenciales usuarios de vehículos eléctricos sin medidor dedicado, cuyos patrones de consumo mostraron un incremento sostenido y una alta similitud con los perfiles de carga conocidos. Geográficamente, estos usuarios se concentran principalmente en la zona norte de Quito y en los valles de Cumbayá y Tumbaco. Se concluye que, a pesar de las limitaciones por la granularidad mensual de los datos, la minería de datos es una herramienta viable y eficaz para que las empresas eléctricas puedan estimar la penetración de la electromovilidad en el sector residencial, facilitando así una mejor planificación de la infraestructura y gestión de la demanda energética.
  • ÍtemAcceso Abierto
    Proyección de la adopción de sistemas fotovoltaicos y su impacto en una red de distribución eléctrica utilizando lógica difusa
    (Ambato: Universidad Tecnológica Indoamérica, 2025) López Eugenio, Kevin Patricio; Varela Aldás, José Luis
    La creciente adopción de sistemas fotovoltaicos plantea nuevos retos para la planificación energética y la estabilidad de la red. Este estudio propone una metodología basada en lógica difusa para identificar a los potenciales adoptantes de sistemas fotovoltaicos mediante la integración de variables como el consumo de energía, la tarifa eléctrica, la radiación solar y el nivel socioeconómico. El enfoque se aplicó a una red de distribución real y se comparó con un método presentado anteriormente que selecciona a los usuarios basándose únicamente en el elevado consumo de energía. El modelo de lógica difusa demostró un rendimiento superior al identificar el 77,03 [%] de los adoptantes reales, superando a la estrategia de selección anterior. Además, el estudio evalúa el impacto técnico de la integración fotovoltaica en la red de distribución mediante simulaciones de flujo de potencia, analizando las pérdidas de energía, perfiles de voltaje y la cargabilidad de los activos. Los resultados ponen en evidencia que, si bien los sistemas fotovoltaicos reducen las pérdidas de energía, también pueden plantear problemas de regulación del voltaje en condiciones de alta penetración. La metodología propuesta es una herramienta de apoyo a la toma de decisiones para las empresas eléctricas y los entes de control, ya que mejora la precisión de las previsiones de adopción y sirve de base para la planificación de infraestructura. Su flexibilidad y su naturaleza basada en reglas la hacen adaptable a diferentes entornos normativos y técnicos, lo que permite replicarla en todo el mundo para iniciativas de transición energética sostenible.
  • ÍtemAcceso Abierto
    Evaluación inteligente del riesgo crediticio: Un enfoque explicable con aprendizaje automático y modelos de lenguaje de gran tamaño
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Guaman Lloacana, Henry Antonio; Orellana Cordero, Marcos Patricio
    Este estudio aborda la evaluación del riesgo crediticio en cooperativas mediante la integración de un modelo de árbol de decisión explicable y un chatbot basado en Phi4. Se utilizó un conjunto de datos de 5000 registros, considerando variables clave como edad, número de dependientes, antigüedad en la institución, monto solicitado, segmento crediticio y duración del empleo. El modelo de árbol de decisión, configurado con parámetros optimizados (profundidad máxima, ccp_alpha, número mínimo de muestras para división y hojas), alcanzó una precisión del 90,47%, demostrando su capacidad para discriminar entre clientes “seguros” e “inseguros”. Además, se evaluaron otros modelos (OneR, PART y PRISM), siendo PART y el árbol de decisión los que presentaron el mejor equilibrio entre precisión e interpretabilidad. La incorporación del chatbot, entrenado mediante técnicas de transferencia de aprendizaje y desplegado en un entorno local seguro, proporcionó explicaciones claras sobre las decisiones crediticias, facilitando auditorías por organismos reguladores. La propuesta destaca la importancia de emplear enfoques de inteligencia artificial explicable (XAI) para mejorar la inclusión financiera, optimizar recursos y reducir los tiempos de procesamiento. Se reconocen limitaciones relacionadas con la calidad del conjunto de datos y se sugiere integrar modelos híbridos y expandir las fuentes de información en futuras investigaciones para lograr evaluaciones más robustas y adaptables. Este enfoque integral mejora significativamente la eficiencia y la transparencia en la gestión.
  • ÍtemAcceso Abierto
    Segmentación de clientes en mora para optimizar estrategias de cobranza mediante K-means
    (Ambato: Universidad Tecnológica Indoamérica, 2025) Gordillo Montesdeoca, Víctor Eduardo; Martínez Tatamues, Pastora Fernanda
    La gestión de la mora en tarjetas de crédito representa un reto significativo para las instituciones financieras, dado su impacto en el riesgo crediticio y la rentabilidad. Este trabajo plantea un modelo para clasificar a los clientes en mora utilizando el algoritmo K-means, con el propósito de identificar patrones de comportamiento que faciliten la implementación de estrategias más eficaces para la recuperación de deudas. La investigación se basó en la metodología CRISP-DM, abarcando la recolección y evaluación de la información histórica de los clientes, el procesamiento de variables como la edad, el monto adeudado y los días de mora, y la aplicación del clustering para agrupar a los clientes en categorías con características similares. La selección del número adecuado de grupos se realizó el método Elbow (codo), y la calidad del modelo se validó a través del coeficiente de Silhouette. Los hallazgos identificaron tres grupos principales de clientes morosos, diferenciados por sus niveles de deuda, el tiempo en mora y sus hábitos de pago. El modelo demostró ser efectivo para clasificar a los clientes según su riesgo, permitiendo identificar estrategias focalizadas de cobranza.
  • ÍtemAcceso Abierto
    Una arquitectura híbrida GAS-ATT-LSTM para el pronóstico de series de tiempo financieras no estacionarias
    (Amabto: Universidad Tecnológica Indoamérica, 2025) Astudillo Quimbiulco, Kevin Segundo; Flores Sánchez, Miguel Alfonso
    Este estudio propone un enfoque híbrido para analizar y pronosticar series de tiempo financieras no estacionarias, combinando modelos estadísticos con redes neuronales profundas. Se presenta un modelo que integra tres componentes clave: el modelo Generalized Autoregressive Score (GAS), que captura la dinámica de la volatilidad; un mecanismo de atención (ATT), que identifica las características más relevantes dentro de la secuencia; y una red neuronal Long Short-Term Memory (LSTM), que recibe las salidas de los módulos anteriores para generar los pronósticos de precios. Esta arquitectura se denomina GAS-ATT-LSTM. Se evaluaron variantes unidireccionales y bidireccionales del modelo utilizando datos financieros reales del índice Nasdaq Composite, Invesco QQQ Trust, ProShares UltraPro QQQ, Bitcoin y los futuros del oro y la plata. El desempeño del modelo propuesto se comparó con cinco arquitecturas de referencia: LSTM Bidireccional, GARCH-LSTM Bidireccional, ATT-LSTM, GAS- LSTM y GAS-LSTM Bidireccional, utilizando ventanas móviles de 3, 5 y 7 días. Los resultados muestran que GAS-ATT-LSTM, especialmente en su versión bidireccional, supera de manera consistente a los modelos de referencia en la mayoría de los activos y horizontes de pronóstico. Destaca por su capacidad de adaptación a distintos niveles de volatilidad y estructuras temporales, logrando mejoras significativas tanto en precisión como en estabilidad. Estos hallazgos confirman la efectividad del modelo híbrido propuesto como una herramienta robusta para el pronóstico de series de tiempo financieras complejas.