Saturday 19 November 2016

5 Media Móvil Centrada En El Período

David, Sí, MapReduce está diseñado para operar en una gran cantidad de datos. Y la idea es que en general, el mapa y las funciones de reducción no deberían cuidar cuántos mapeadores o cuántos reductores hay, esa es sólo la optimización. Si piensas cuidadosamente sobre el algoritmo que publiqué, puedes ver que no importa qué asignador obtiene qué partes de los datos. Cada registro de entrada estará disponible para cada operación de reducción que lo necesite. Ndash Joe K Sep 18 12 at 22:30 En el mejor de mi entendimiento el promedio móvil no está bien mapas al paradigma de MapReduce ya que su cálculo es esencialmente la ventana deslizante sobre datos ordenados, mientras que MR es el procesamiento de los rangos no intersectados de los datos ordenados. Solución que veo es como sigue: a) Para implementar particionador personalizado para poder hacer dos particiones diferentes en dos ejecuciones. En cada ejecución, los reductores obtendrán diferentes rangos de datos y calcularán el promedio móvil cuando sea apropiado. Voy a tratar de ilustrarlo: En la primera ejecución, los datos de los reductores deberían ser: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Aquí usted cacluate el promedio móvil para algunos Qs. En la próxima ejecución, los reductores deberían obtener datos como: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Y caclular el resto de promedios móviles. A continuación, tendrá que agregar los resultados. Idea de particionista personalizado que tendrá dos modos de funcionamiento - cada vez que se divide en rangos iguales, pero con algún cambio. En un pseudocódigo se verá así. Partición (keySHIFT) / (MAXKEY / numOfPartitions) donde: SHIFT se tomará de la configuración. MAXKEY valor máximo de la clave. Supongo que por simplicidad empiezan con cero. RecordReader, IMHO no es una solución ya que se limita a la división específica y no se puede deslizar sobre el límite de divisiones. Otra solución sería implementar la lógica personalizada de dividir datos de entrada (es parte del InputFormat). Se puede hacer para hacer 2 diapositivas diferentes, similar a la partición. Cuando el cálculo de un promedio móvil corriendo, colocando el promedio en el período de tiempo medio tiene sentido En el ejemplo anterior que calculó el promedio de los primeros 3 períodos de tiempo y lo colocó al lado del período 3. Podríamos haber colocado El promedio en el medio del intervalo de tiempo de tres períodos, es decir, al lado del período 2. Esto funciona bien con períodos de tiempo impares, pero no tan bueno para incluso períodos de tiempo. Entonces, ¿dónde colocaríamos el primer promedio móvil cuando M 4 Técnicamente, el promedio móvil caería en t 2,5, 3,5. Para evitar este problema, suavizar las MA utilizando M 2. Así, suavizar los valores suavizados Si la media de un número par de términos, tenemos que suavizar los valores suavizados La siguiente tabla muestra los resultados utilizando M 4.Moving Promedios y centrado Media móvil Un par de puntos sobre la estacionalidad en una serie de tiempo se repiten, incluso si parecen obvias. Una es que el término 8220season8221 no se refiere necesariamente a las cuatro estaciones del año que resultan de la inclinación del eje Earth8217s. En la analítica predictiva, 8220season8221 a menudo significa precisamente eso, porque muchos de los fenómenos que estudiamos varían con la progresión de la primavera a través del invierno: ventas de engranajes de invierno o de verano, incidencia de ciertas enfermedades generalizadas, eventos meteorológicos causados ​​por la ubicación del Corriente de chorro y cambios en la temperatura del agua en el Océano Pacífico oriental, y así sucesivamente. Igualmente, los acontecimientos que ocurren regularmente pueden actuar como estaciones meteorológicas, a pesar de que sólo tienen una conexión tenue con los solsticios y equinoccios. Los turnos de ocho horas en hospitales y fábricas a menudo se expresan en la incidencia de consumos y gastos de energía allí, una temporada es de ocho horas de duración y las estaciones ciclo todos los días, no todos los años. Las fechas de vencimiento de los impuestos señalan el inicio de una inundación de dólares en los tesoros municipales, estatales y federales, la temporada puede ser de un año (impuestos a la renta personal), seis meses (impuestos a la propiedad en muchos estados), trimestrales ), y así. Es un poco extraño que tengamos la palabra 8220season8221 para referirnos generalmente al período de tiempo que se repite regularmente, pero no hay término general para el período de tiempo durante el cual ocurre una vuelta completa de las estaciones. 8220Cycle8221 es posible, pero en analítica y pronóstico ese término se suele considerar un período de duración indeterminada, como un ciclo económico. En ausencia de un término mejor, se utilizó en este y en los siguientes capítulos. Esto no es sólo reflexión terminológica. Las formas en que identificamos las estaciones y el período de tiempo durante el cual las estaciones tienen repercusiones reales, aunque a menudo menores, en cómo medimos sus efectos. En las siguientes secciones se discute cómo algunos analistas varían la forma en que calculan los promedios móviles según si el número de estaciones es impar o incluso. Usando los promedios móviles en lugar de los promedios simples Suponga que una gran ciudad está considerando la reasignación de su policía de tránsito para abordar mejor la incidencia de la conducción mientras está deteriorada, lo que la ciudad cree que ha ido aumentando. Hace cuatro semanas, entró en vigor una nueva legislación que legalizaba la posesión y el uso recreativo de la marihuana. Desde entonces, el número diario de arrestos por tráfico de DWI parece estar subiendo. La complicación es el hecho de que el número de detenciones parece aumentar los viernes y los sábados. Para ayudar a planificar los requerimientos de mano de obra en el futuro, le gustaría prever cualquier tendencia subyacente que se establezca. A usted también le gustaría tiempo el despliegue de sus recursos para tener en cuenta cualquier temporada relacionada con el fin de semana que ocurre. La Figura 5.9 tiene los datos relevantes con los que tiene que trabajar. Figura 5.9 Con este conjunto de datos, cada día de la semana constituye una temporada. Incluso observando el gráfico de la figura 5.9. Usted puede decir que la tendencia del número de detenciones diarias está para arriba. You8217ll tiene que planificar para ampliar el número de oficiales de tráfico, y esperamos que la tendencia se estabilice pronto. Además, los datos corroboran la idea de que más arrestos ocurren rutinariamente los viernes y sábados, por lo que su asignación de recursos necesita abordar esos picos. Pero usted necesita cuantificar la tendencia subyacente, para determinar cuántos policías adicionales tienen que traer. También es necesario para cuantificar el tamaño esperado de los picos de fin de semana, para determinar cuántos policías adicionales que necesita para ver los conductores erráticos en esos días. El problema es que aún no sabes cuánto del aumento diario se debe a la tendencia y cuánto se debe a ese efecto de fin de semana. Usted puede comenzar por detrending la serie de tiempo. Anteriormente en este capítulo, en 8220Simple Seasonal Averages, 8221 usted vio un ejemplo de cómo detrend una serie de tiempo con el fin de aislar los efectos estacionales usando el método de promedios simples. En esta sección usted verá cómo hacerlo utilizando promedios móviles, probablemente, el enfoque de promedios móviles se usa más a menudo en el análisis predictivo que el enfoque de promedios simples. Hay varias razones para la mayor popularidad de las medias móviles, entre ellas, que el enfoque de las medias móviles no le pide que colapse sus datos en el proceso de cuantificación de una tendencia. Recordemos que el ejemplo anterior hizo necesario colapsar los promedios trimestrales con los promedios anuales, calcular una tendencia anual y luego distribuir una cuarta parte de la tendencia anual en cada trimestre del año. Este paso era necesario para eliminar la tendencia de los efectos estacionales. Por el contrario, el enfoque de las medias móviles le permite desviar la serie de tiempo sin recurrir a ese tipo de maquinación. La figura 5.10 muestra cómo funciona el enfoque de las medias móviles en el presente ejemplo. Figura 5.10 El promedio móvil en el segundo gráfico aclara la tendencia subyacente. La Figura 5.10 añade una columna de media móvil y una columna para estaciones específicas. Al conjunto de datos de la figura 5.9. Ambas adiciones requieren cierta discusión. Los picos en los arrestos que tienen lugar los fines de semana le da razón para creer que usted está trabajando con temporadas que se repiten una vez cada semana. Por lo tanto, comience por obtener el promedio para el período que abarca8212, es decir, las primeras siete temporadas, de lunes a domingo. La fórmula para el promedio en la celda D5, la primera media móvil disponible, es la siguiente: Esta fórmula se copia y se pega a través de la celda D29, por lo que tiene 25 promedios móviles basados ​​en 25 ciclos de siete días consecutivos. Observe que para mostrar las primeras y últimas observaciones de la serie temporal, he ocultado las filas 10 a 17. Puede mostrarlas, si lo desea, en el libro de este capítulo, disponible en el sitio web del editor. Haga una selección múltiple de filas visibles 9 y 18, haga clic con el botón secundario en uno de sus encabezados de fila y elija Mostrar en el menú contextual. Cuando ocultas las filas de una hoja de trabajo, como he hecho en la figura 5.10. Los datos cartografiados en las filas ocultas también se ocultan en el gráfico. Las etiquetas del eje x sólo identifican los puntos de datos que aparecen en el gráfico. Debido a que cada promedio móvil en la Figura 5.10 abarca siete días, ningún promedio móvil se empareja con las tres primeras o últimas tres observaciones reales. Copiar y pegar la fórmula en la celda D5 hasta un día a la celda D4 lo hace fuera de las observaciones8212 no hay ninguna observación registrada en la celda C1. Del mismo modo, no hay promedio móvil registrado por debajo de la celda D29. Copiar y pegar la fórmula en D29 en D30 requeriría una observación en la celda C33, y no hay observación disponible para el día que la célula representaría. Sería posible, por supuesto, acortar la longitud de la media móvil a, digamos, cinco en lugar de siete. Hacerlo significaría que las fórmulas de promedio móvil en la Figura 5.10 podrían comenzar en la celda D4 en lugar de D5. Sin embargo, en este tipo de análisis, desea que la duración de la media móvil sea igual al número de estaciones: siete días en una semana para eventos que se repiten semanalmente implica un promedio móvil de siete y cuatro trimestres en un año para eventos que Recur anualmente implica un promedio móvil de longitud cuatro. En líneas similares, generalmente cuantificamos los efectos estacionales de tal manera que se suman a cero dentro del período de tiempo abarcador. Como se vio en la primera sección de este capítulo, en los promedios simples, esto se hace calculando el promedio de (digamos) los cuatro trimestres de un año y luego restando el promedio del año de cada cifra trimestral. De este modo se asegura que el total de los efectos estacionales es cero. A su vez, ese 8217s útil porque pone los efectos estacionales en un pie de igualdad 8212a efecto de verano de 11 es tan lejos de la media como un efecto de invierno de 821111. Si desea promedio de cinco estaciones en lugar de siete para obtener su media móvil, you8217re mejor De encontrar un fenómeno que se repite cada cinco temporadas en lugar de cada siete. Sin embargo, cuando se toma el promedio de los efectos estacionales más tarde en el proceso, es improbable que estos promedios sumen a cero. Es necesario en ese punto recalibrar, o normalizar. Los promedios para que su suma sea cero. Cuando se hace esto, los promedios promedio estacionales expresan el efecto en un período de tiempo de pertenecer a una estación particular. Una vez normalizados, los promedios estacionales se denominan los índices estacionales que este capítulo ya ha mencionado varias veces. En la Figura 5.10 también se muestra lo que se conoce como estaciones estacionales específicas en la columna E. Estas son las que quedan después de restar el promedio móvil de la observación real. Para tener una idea de lo que representan los temporales específicos, considere el promedio móvil en la celda D5. Es la media de las observaciones en C2: C8. Las desviaciones de cada observación de la media móvil (por ejemplo, C2 8211 D5) se garantiza que suman a cero 8212 que es una característica de un promedio. Por lo tanto, cada desviación expresa el efecto de estar asociado con ese día en particular en esa semana en particular. Es una temporada específica, entonces específica porque la desviación se aplica a ese lunes o martes particular y así sucesivamente, y estacional, porque en este ejemplo se trata cada día como si fuera una estación en el período abarcador de una semana. Debido a que cada temporada específica mide el efecto de estar en esa temporada frente a la media móvil para ese grupo de (aquí) siete temporadas, puede posteriormente mediar las estaciones específicas de una temporada en particular (por ejemplo, todos los viernes en su Series temporales) para estimar ese efecto general, más que específico, de la temporada. Ese promedio no se confunde con una tendencia subyacente en la serie temporal, ya que cada estación específica expresa una desviación de su propio promedio móvil. Alinear los promedios móviles también es la cuestión de alinear las medias móviles con el conjunto de datos original. En la Figura 5.10. He alineado cada promedio móvil con el punto medio de la gama de observaciones que incluye. Así, por ejemplo, la fórmula en la celda D5 promedia las observaciones en C2: C8, y la he alineado con la cuarta observación, el punto medio del rango promedio, colocándolo en la fila 5. Esta disposición se denomina una media móvil centrada . Y muchos analistas prefieren alinear cada media móvil con el punto medio de las observaciones que promedia. Tenga en cuenta que en este contexto, 8220midpoint8221 se refiere a la mitad de un período de tiempo: El jueves es el punto medio de lunes a domingo. No se refiere a la mediana de los valores observados, aunque, por supuesto, podría funcionar de esa manera en la práctica. Otro enfoque es el promedio móvil de arrastre. En ese caso, cada media móvil se alinea con la observación final de que promedia 8212 y, por lo tanto, sigue detrás de sus argumentos. Esta es a menudo la disposición preferida si se desea utilizar un promedio móvil como pronóstico, como se hace con el suavizado exponencial, porque su promedio móvil final coincide con la observación disponible final. Centrado Medios móviles con números pares de las estaciones Normalmente adoptamos un procedimiento especial cuando el número de estaciones es incluso en lugar de impar. Ese es el estado típico de las cosas: tienden a haber incluso números de estaciones en el período abarcador para temporadas típicas, como meses, trimestres y períodos cuadrienales (para las elecciones). La dificultad con un número par de estaciones es que no hay punto medio. Dos no es el punto medio de un rango que comienza en 1 y termina en 4, y tampoco es 3 si se puede decir que tiene uno, su punto medio es 2,5. Seis no es el punto medio de 1 a 12, y tampoco es 7 su punto medio puramente teórico es 6,5. Para actuar como si existiera un punto medio, debe agregar una capa de promediación encima de los promedios móviles. Vea la Figura 5.11. Figura 5.11 Excel ofrece varias maneras de calcular una media móvil centrada. La idea detrás de este enfoque para conseguir una media móvil que se centró en un punto medio existente, cuando hay un número par de temporadas, es tirar de ese punto medio hacia delante por la mitad de una temporada. Se calcula un promedio móvil que sería centrado en, digamos, el tercer punto en el tiempo si cinco temporadas en lugar de cuatro constituyeran una vuelta completa del calendario. Esto se realiza tomando dos promedios móviles consecutivos y haciendo un promedio de ellos. Así en la Figura 5.11. Hay un promedio móvil en la celda E6 que promedia los valores en D3: D9. Debido a que hay cuatro valores estacionales en D3: D9, el promedio móvil en E6 se considera centrado en la temporada imaginaria 2.5, medio punto por debajo de la primera temporada candidata disponible, 3. (Las estaciones 1 y 2 no están disponibles como puntos medios para Falta de datos al promedio antes de la Temporada 1.) Tenga en cuenta, sin embargo, que el promedio móvil en la celda E8 promedia los valores en D5: D11, el segundo a través del quinto en la serie de tiempo. Ese promedio se centra en (imaginario) punto 3.5, un período completo por delante de la media centrada en 2,5. Mediante el promedio de los dos promedios móviles, por lo que el pensamiento va, puede tirar el punto central del primer promedio móvil hacia adelante por medio punto, de 2,5 a 3. That8217s lo que los promedios en la columna F de la figura 5.11 hacer. La celda F7 proporciona el promedio de las medias móviles en E6 y E8. Y el promedio en F7 está alineado con el tercer punto de datos en la serie de tiempo original, en la celda D7, para enfatizar que el promedio se centra en esa temporada. Si se expande la fórmula en la celda F7, así como las medias móviles en las celdas E6 y E8, verá que resulta ser un promedio ponderado de los primeros cinco valores de la serie temporal, con el primer y el quinto valor dados un peso De 1 y el segundo a cuarto valores dado un peso de 2. Eso nos lleva a una forma más rápida y sencilla de calcular una media móvil centrada con un número par de estaciones. Todavía en la Figura 5.11. Los pesos se almacenan en el rango H3: H11. Esta fórmula devuelve el primer promedio móvil centrado, en la celda I7: Esa fórmula devuelve 13.75. Que es idéntico al valor calculado por la fórmula de doble promedio en la celda F7. Haciendo la referencia a los pesos absolutos, por medio de los signos de dólar en H3: H11. Puede copiar la fórmula y pegarla en la medida de lo necesario para obtener el resto de las medias móviles centradas. Detrender la serie con los promedios móviles Cuando haya substraído las medias móviles de las observaciones originales para obtener las estaciones específicas, ha eliminado la tendencia subyacente de la serie. Lo que se deja en las estaciones estacionales es normalmente una serie horizontal y estacionaria con dos efectos que hacen que los estacionales específicos se aparten de una línea absolutamente recta: los efectos estacionales y el error aleatorio en las observaciones originales. La figura 5.12 muestra los resultados de este ejemplo. Figura 5.12 Los efectos estacionales específicos para el viernes y el sábado permanecen claros en la serie de tendencias. El gráfico superior de la figura 5.12 muestra las observaciones diarias originales. Tanto la tendencia general al alza como los picos estacionales del fin de semana son claros. El gráfico inferior muestra los datos estacionales específicos: el resultado de la detrensión de la serie original con un filtro de media móvil, como se describió anteriormente en 8220. Entendiendo las estaciones específicas.8221 Puede ver que la serie detrended es ahora prácticamente horizontal (una línea de tendencia lineal para los estacionales específicos Tiene una ligera desviación hacia abajo), pero los picos estacionales del viernes y del sábado todavía están en su lugar. El siguiente paso es pasar de los datos estacionales específicos a los índices estacionales. Vea la Figura 5.13. Figura 5.13 Los efectos estacionales específicos se promedian primero y luego se normalizan para alcanzar los índices estacionales. En la figura 5.13. Las series estacionales específicas en la columna E se reordenan en la forma tabular mostrada en el intervalo H4: N7. El propósito es simplemente hacer más fácil calcular los promedios estacionales. Estos promedios se muestran en H11: N11. Sin embargo, las cifras en H11: N11 son promedios, no desviaciones de un promedio, y por lo tanto podemos esperar que suman a cero. Todavía tenemos que ajustarlos para que expresen desviaciones de un gran medio. Esa gran media aparece en la celda N13, y es el promedio de los promedios estacionales. Podemos llegar a los índices estacionales restando la media grande en N13 de cada uno de los promedios estacionales. El resultado está en el rango H17: N17. Estos índices estacionales ya no son específicos de un promedio móvil determinado, como es el caso de los datos estacionales específicos en la columna E. Debido a que se basan en un promedio de cada instancia de una temporada dada, expresan el efecto promedio de una temporada dada a través del Cuatro semanas en la serie de tiempo. Además, son medidas de una estación, un día en las detenciones de tráfico frente a la media durante un período de siete días. Ahora podemos usar esos índices estacionales para desestacionalizar la serie. Utilizaremos la serie desestacionalizada para obtener pronósticos a través de la regresión lineal o el método Holt8217s de suavizar las series de tendencias (discutidas en el Capítulo 4). Entonces simplemente agregamos los índices estacionales de nuevo en los pronósticos para reseasonalized ellos. Todo esto aparece en la figura 5.14. Figura 5.14 Después de tener los índices estacionales, los toques finales que se aplican aquí son los mismos que en el método de promedios simples. Los pasos ilustrados en la figura 5.14 son en gran parte los mismos que los de las figuras 5.6 y 5.7. En las siguientes secciones. Desestacionalización de las observaciones Reste los índices estacionales de las observaciones originales para desestacionalizar los datos. Puede hacerlo como se muestra en la Figura 5.14. En el que las observaciones originales y los índices estacionales se disponen como dos listas que comienzan en la misma fila, las columnas C y F. Esta disposición hace que sea un poco más fácil estructurar los cálculos. También puede hacer la resta como se muestra en la Figura 5.6. En el que se muestran en un formato tabular las observaciones trimestrales originales (C12: F16), los índices trimestrales (C8: F8) y los resultados desestacionalizados (C20: F24). Ese arreglo hace que sea un poco más fácil concentrarse en los índices estacionales y los trimestres desastrosos. Pronóstico de las observaciones desestacionalizadas En la Figura 5.14. Las observaciones desestacionalizadas están en la columna H y en la figura 5.7 se encuentran en la columna C. Independientemente de si se desea usar un enfoque de regresión o un enfoque de suavizado para el pronóstico, es mejor organizar las observaciones desestacionalizadas en una lista de una sola columna. En la Figura 5.14. Las previsiones están en la columna J. La siguiente fórmula de matriz se introduce en el rango J2: J32. Anteriormente en este capítulo, señalé que si omite el argumento x-values ​​de los argumentos de la función TREND () function8217s, Excel proporciona los valores predeterminados 1. 2. N. Donde n es el número de valores y. En la fórmula dada, H2: H32 contiene 31 valores y. Dado que falta el argumento que normalmente contiene los valores x, Excel proporciona los valores predeterminados 1. 2. 31. Estos son los valores que queremos utilizar de todos modos, en la columna B, por lo que la fórmula dada es equivalente a TREND (H2: H32, B2: B32). Y eso 8217s la estructura utilizada en D5: D24 de la Figura 5.7: Haciendo el pronóstico de un paso hacia adelante Hasta ahora se han arreglado para los pronósticos de las series temporales desestacionalizadas de t 1 a t 31 en la figura 5.14. Y de t 1 a t 20 en la figura 5.7. Estas previsiones constituyen información útil para diversos fines, incluida la evaluación de la exactitud de las previsiones mediante un análisis RMSE. Pero su propósito principal es pronosticar por lo menos el siguiente período de tiempo aún no observado. Para conseguirlo, puede pronosticar primero desde la función TREND () o LINEST () si utiliza la regresión o desde la fórmula de suavizado exponencial si utiliza el método Holt8217s. A continuación, puede agregar el índice estacional asociado a la regresión o el pronóstico de suavizado, para obtener un pronóstico que incluya tanto la tendencia como el efecto estacional. En la Figura 5.14. Se obtiene el pronóstico de regresión en la celda J33 con esta fórmula: En esta fórmula, los valores y en H2: H32 son los mismos que en las otras fórmulas TREND () en la columna J. Así son los valores x (por defecto) de 1 A través de 32. Ahora, sin embargo, suministra un nuevo valor x como el tercer argumento de la función 8217, que le indica a TREND () que busque en la celda B33. It8217s 32. El siguiente valor de t. Y Excel devuelve el valor 156.3 en la celda J33. La función TREND () en la celda J33 indica a Excel, en efecto, 8220Cálculo de la ecuación de regresión para los valores en H2: H32 regresó a los valores t de 1 a 31. Aplique esa ecuación de regresión al nuevo valor de x de 32 y devuelva el resultado.8221 Encontrará el mismo enfoque en la celda D25 de la Figura 5.7. Donde la fórmula para obtener el pronóstico de un paso adelante es la siguiente: Adición de los índices estacionales Volver En El paso final es reseasonalize los pronósticos mediante la adición de los índices estacionales a las previsiones de tendencia, invirtiendo lo que hizo cuatro pasos atrás cuando se resta el Índices de las observaciones originales. Esto se hace en la columna F en la figura 5.7 y la columna K en la figura 5.14. No olvide agregar el índice estacional apropiado para el pronóstico de un paso adelante, con los resultados mostrados en la celda F25 en la Figura 5.7 y en la celda K33 en la Figura 5.14. (I8217ve sombreó las celdas un paso adelante en la Figura 5.7 y la Figura 5.14 para resaltar las previsiones). Puede encontrar gráficos de tres representaciones de los datos de detención de tráfico en la Figura 5.15. La serie desestacionalizada, el pronóstico lineal a partir de los datos desestacionalizados y las previsiones reseasonalized. Tenga en cuenta que los pronósticos incorporan tanto la tendencia general de los datos originales como sus picos del viernes / sábado. Figura 5.15 Representación gráfica de las previsiones.


No comments:

Post a Comment