Saturday 23 September 2017

Gewichtete Gleitende Durchschnitt Standard Abweichung


Hallo, ich habe seit 3 ​​Jahren einige Prozessdaten gesammelt und möchte eine EWMA-Prospektanalyse nachahmen, um zu sehen, ob mein Set-Glättungsparameter alle wichtigen Änderungen (ohne zu viele Fehlalarme) erkennt. Es scheint, wie die meisten Lehrbücher und Literatur, die ich gesehen habe, die eine mittlere und Standardabweichung verwenden, um die Kontrollgrenzen zu berechnen. Dies ist in der Regel die In-Control-Mittel und Standardabweichung von einigen historischen Daten, oder der Mittelwert und sd der Bevölkerung, aus der die Proben gezogen werden. Ich habe keine Informationen. Gibt es eine andere Möglichkeit, die Kontrollgrenzen zu berechnen, gibt es eine Variation des EWMA-Diagramms, die keine Mittel - und Standardabweichung verwendet. Alle kreativen Ideen Vielen Dank im Voraus Um sicherzustellen, dass ich das verstehe, könntest du die EWMA-Mittel und Varianz berechnen, aber du Don39t haben eine Grundlinie, um sie zu vergleichen Es klingt für mich, wie Sie eine überwachte Technik haben (was davon ausgeht, dass Sie definieren können, wie es zuschlagen wird), aber Sie wollen eine unbeaufsichtigte Technik (die nur nach Unterschieden sucht, ohne einen Status anzurufen und einen anderen zu nennen Quotamtquot). Für unbeaufsichtigte Techniken kommt das Clustering in den Sinn, aber es müsste modifiziert werden, um auf Zeitschriften anzuwenden. Wie wäre es mit Generalized Likelihood Ratio (GLR) ndash Jim Pivarski Jun 25 14 at 2:49 Wenn wir auf en. wikipedia. orgwikiEWMAchart verweisen. Ich kann die Zi für meine gegebene Lambda berechnen, aber wenn es um die Kontrollgrenzen geht, habe ich keine historischen Daten, um die T und S zu berechnen. Danke, ich werde in GLR schauen und auch auf Cross Validated posten. Ndash user3295481 Yeah, T und S sind die mittlere und Standardabweichung einer Baselineverteilung, die entweder a priori oder aus einem Trainingsdatensatz ermittelt wird. Der Trainings-Datensatz repräsentiert, wie die Daten quittiert werden sollen, daher ist dies eine überarbeitete Technik und Sie wollen eine unbeaufsichtigte Technik. GLR isn39t exponentiell gewichtet, aber es findet dynamisch eine Pause in den Daten zwischen zwei verschiedenen Distributionen und kombiniert Daten auf jeder Seite der Pause, um mehr robuste Ergebnisse zu erhalten. Es könnte sein, was du willst. Ndash Jim Pivarski Jun 25 14 um 3:00 Aus praktischer Sicht ist die Verwendung der statistischen Analyse historischer Daten allein selten. Ja, es gibt einige Hinweise darauf, wie der Prozess (und sein Kontrollsystem) durchführen, aber das Wichtigste ist bei weitem ein gutes Verständnis und Kenntnis der technischen Grenzen. Ich beziehe mich auf die Betriebsgrenzen, die durch die Spezifikationen und Leistungsmerkmale der verschiedenen Geräte bestimmt sind. Dies ermöglicht es, ein gutes Verständnis dafür zu entwickeln, wie sich der Prozess verhalten soll (in Bezug auf optimale Betriebspunkt - und Oberlängenregelgrenzen) und wo die Bereiche der größten Abweichung vom Optimum sind. Das hat sehr wenig mit der statistischen Analyse der historischen Daten zu tun, und viel mit der Prozesstechnikmetallurgie zu tun - je nach Art des Prozesses, mit dem Sie es zu tun haben. Die Regelgrenzen werden letztlich bestimmt, was der Process Manager Process Engineer WANTS, der in der Regel (aber nicht immer) innerhalb der Namensschildkapazität des Gerätes liegt. Wenn Sie innerhalb der operativen Grenzen arbeiten, und Sie sind im Bereich der Prozessoptimierung, dann ja, statistische Analyse ist weit verbreitet und kann einen guten Einblick bieten. Abhängig von der Variabilität Ihres Prozesses, wie gut Ihr Steuerungssystem eingerichtet ist, und die Homogenität Ihres Futtermittelprodukts, variieren die Oberleitungssteuerungsgrenzen. Ein guter Ausgangspunkt ist der optimale Betriebspunkt (z. B. 100 m3hr), dann verwenden Sie eine vernünftige Menge an historischen Daten, um eine Standardabweichung zu berechnen und machen Sie Ihre obere Grenze 100 1 Standard dev und Ihre untere Grenze 100 - 1 Standard dev. Das ist keineswegs eine harte und schnelle Regel, aber es ist ein vernünftiger Ausgangspunkt. Antwortete am 7. Februar 16 um 12: 12Below kannst du meine C-Methode sehen, um Bollinger Bands für jeden Punkt zu berechnen (gleitender Durchschnitt, Up-Band, Down-Band). Wie Sie sehen können, verwendet diese Methode 2 für Loops, um die bewegte Standardabweichung mit dem gleitenden Durchschnitt zu berechnen. Es enthielt eine zusätzliche Schleife, um den gleitenden Durchschnitt über die letzten n Perioden zu berechnen. Diese konnte ich entfernen, indem ich den neuen Punktwert zu Beginn des Loops zum totalaverage hinzufüge und den i - n Punktwert am Ende der Schleife beseitige. Meine Frage ist jetzt grundsätzlich: Kann ich die restliche innere Schleife in einer ähnlichen Weise entfernen, die ich mit dem gleitenden Durchschnitt gehandhabt habe, fragte Jan 31 13 um 21:45 Die Antwort ist ja, können Sie. Mitte der 80er Jahre entwickelte ich gerade einen solchen Algorithmus (vermutlich nicht original) in FORTRAN für eine Prozessüberwachungs - und Steuerungsanwendung. Leider war das vor über 25 Jahren und ich erinnere mich nicht an die genauen Formeln, aber die Technik war eine Erweiterung des einen für bewegte Durchschnitte, mit Berechnungen zweiter Ordnung statt nur linearen. Nach dem Betrachten deines Codes einige, denke ich, dass ich aussäumen kann, wie ich es damals getan habe. Beachten Sie, wie Ihre innere Schleife eine Summe von Quadraten macht: in der gleichen Weise, dass Ihr Durchschnitt ursprünglich eine Summe von Werten hatte. Die einzigen zwei Unterschiede sind die Reihenfolge (ihre Macht 2 anstelle von 1) und dass Sie den Durchschnitt subtrahieren Jeder Wert, bevor du ihn quadratst. Nun, das könnte unzertrennlich aussehen, aber in Wirklichkeit können sie getrennt werden: Jetzt ist der erste Begriff nur eine Summe von Quadraten, du gehst damit in der gleichen Weise, dass du die Summe der Werte für den Durchschnitt machst. Der letzte Term (k2n) ist nur die durchschnittliche quadratische Zeit der Periode. Da du das Ergebnis sowieso bis dahin teilt, kannst du einfach den neuen Mittelwert ohne die zusätzliche Schleife hinzufügen. Schließlich, im zweiten Term (SUM (-2vi) k), da SUM (vi) total kn können Sie es dann in diese ändern: oder nur -2k2n. Das ist -2 mal das durchschnittliche Quadrat, sobald die Periode (n) wieder aufgeteilt ist. Also die endgültige kombinierte Formel ist: (achten Sie darauf, die Gültigkeit von diesem zu überprüfen, da ich es aus der Oberseite meines Kopfes ableiten) Und die Einbindung in Ihren Code sollte so etwas aussehen: Vielen Dank dafür. Ich habe es als Grundlage für eine Implementierung in C für die CLR verwendet. Ich entdeckte, dass in der Praxis können Sie so aktualisieren, dass newVar ist eine sehr kleine negative Zahl, und die sqrt scheitert. Ich habe eine if eingeführt, um den Wert auf Null für diesen Fall zu begrenzen. Nicht Idee, aber stabil. Dies geschah, als jeder Wert in meinem Fenster den gleichen Wert hatte (ich benutzte eine Fenstergröße von 20 und der Wert in Frage war 0,5, falls jemand versucht, es zu versuchen und zu reproduzieren.) Ndash Drew Noakes Jul 26 13 um 15:25 Ive Gebraucht commons-mathe (und dazu beigetragen, dass Bibliothek) für etwas sehr ähnlich zu diesem. Seine Open-Source, Portierung zu C sollte einfach sein, wie Shop-gekauft Kuchen (haben Sie versucht, eine Torte von Grund auf neu). Check it out: commons. apache. orgmathapi-3.1.1index. html. Sie haben eine StandardDeviation Klasse. Gehe in die Stadt beantwortet Jan 31 13 um 21:48 You39re Willkommen Sorry Ich didn39t haben die Antwort you39re suchen. Ich habe definitiv nicht bedeuten, Portierung der gesamten Bibliothek nur die minimale notwendige Code, die ein paar hundert Zeilen oder so sein sollte. Beachten Sie, dass ich keine Ahnung habe, welche gesetzlichen Urheberrechtsbeschränkungen Apache auf diesen Code hat, also musst du das heraus überprüfen. Wenn du es verfolgst, hier ist der Link. So dass Variance FastMath ndash Jason Jan 31 13 um 22:36 Die wichtigsten Informationen wurden bereits oben gegeben - aber vielleicht ist das immer noch von allgemeinem Interesse. Eine kleine Java-Bibliothek zur Berechnung des gleitenden Durchschnitts und der Standardabweichung steht hier zur Verfügung: githubtools4jmeanvar Die Implementierung basiert auf einer Variante der oben genannten Welfords-Methode. Methoden zum Entfernen und Ersetzen von Werten wurden abgeleitet, die für das Verschieben von Wertfenstern verwendet werden können. Exploring Die exponentiell gewichtete Moving Average Volatility ist das häufigste Maß an Risiko, aber es kommt in mehreren Geschmacksrichtungen. In einem früheren Artikel haben wir gezeigt, wie man einfache historische Volatilität berechnet. (Um diesen Artikel zu lesen, siehe Volatilität verwenden, um zukünftiges Risiko zu beurteilen.) Wir haben Googles aktuelle Aktienkursdaten verwendet, um die tägliche Volatilität auf der Grundlage von 30 Tagen Lagerbestand zu berechnen. In diesem Artikel werden wir die einfache Volatilität verbessern und den exponentiell gewichteten gleitenden Durchschnitt (EWMA) diskutieren. Historische Vs. Implizite Volatilität Zuerst können wir diese Metrik in ein bisschen Perspektive bringen. Es gibt zwei breite Ansätze: historische und implizite (oder implizite) Volatilität. Der historische Ansatz geht davon aus, dass Vergangenheit Prolog ist, messen wir die Geschichte in der Hoffnung, dass es prädiktiv ist. Implizite Volatilität hingegen ignoriert die Geschichte, die sie für die Volatilität der Marktpreise löst. Es hofft, dass der Markt am besten weiß und dass der Marktpreis, auch wenn implizit, eine Konsensschätzung der Volatilität enthält. (Für verwandte Lesung siehe die Verwendungen und Grenzen der Volatilität.) Wenn wir uns nur auf die drei historischen Ansätze konzentrieren (links oben), haben sie zwei Schritte gemeinsam: Berechnen Sie die Reihe der periodischen Renditen Bewerben Sie ein Gewichtungsschema Zuerst haben wir Berechnen Sie die periodische Rückkehr. Das ist typischerweise eine Reihe von täglichen Renditen, bei denen jede Rückkehr in kontinuierlich zusammengesetzten Begriffen ausgedrückt wird. Für jeden Tag nehmen wir das natürliche Protokoll des Verhältnisses der Aktienkurse (d. h. der Preis heute geteilt durch den Preis gestern und so weiter). Dies führt zu einer Reihe von täglichen Renditen, von u i zu u i-m. Je nachdem wie viele Tage (m Tage) wir messen. Das bringt uns zum zweiten Schritt: Hier unterscheiden sich die drei Ansätze. In dem vorherigen Artikel (mit Volatility To Gauge Future Risk), haben wir gezeigt, dass unter ein paar akzeptablen Vereinfachungen, die einfache Varianz ist der Durchschnitt der quadrierten Renditen: Beachten Sie, dass dies summiert jede der periodischen Renditen, dann teilt diese Summe durch die Anzahl der Tage oder Beobachtungen (m). Also, es ist wirklich nur ein Durchschnitt der quadratischen periodischen Rückkehr. Setzen Sie einen anderen Weg, jede quadratische Rückkehr wird ein gleiches Gewicht gegeben. Wenn also Alpha (a) ein Gewichtungsfaktor ist (speziell 1 m), dann sieht eine einfache Varianz so aus: Die EWMA verbessert sich auf einfache Abweichung Die Schwäche dieses Ansatzes ist, dass alle Renditen das gleiche Gewicht verdienen. Gestern (sehr neuere) Rückkehr hat keinen Einfluss mehr auf die Varianz als die letzten Monate zurück. Dieses Problem wird durch die Verwendung des exponentiell gewichteten gleitenden Durchschnitts (EWMA) behoben, bei dem neuere Renditen ein größeres Gewicht auf die Varianz haben. Der exponentiell gewichtete gleitende Durchschnitt (EWMA) führt Lambda ein. Der als Glättungsparameter bezeichnet wird. Lambda muss kleiner als eins sein. Unter dieser Bedingung wird anstelle von gleichen Gewichten jede quadrierte Rendite mit einem Multiplikator wie folgt gewichtet: Zum Beispiel neigt RiskMetrics TM, ein Finanzrisikomanagement-Unternehmen, dazu, ein Lambda von 0,94 oder 94 zu verwenden. In diesem Fall ist das erste ( (1 - 0,94) (94) 0 6. Die nächste quadratische Rückkehr ist einfach ein Lambda-Vielfaches des vorherigen Gewichts in diesem Fall 6 multipliziert mit 94 5,64. Und das dritte vorherige Tagegewicht ist gleich (1-0,94) (0,94) 2 5,30. Das ist die Bedeutung von Exponential in EWMA: jedes Gewicht ist ein konstanter Multiplikator (d. h. Lambda, der kleiner als eins sein muss) des vorherigen Tagegewichts. Dies stellt eine Varianz sicher, die gewichtet oder voreingenommen auf neuere Daten ist. (Um mehr zu erfahren, schau dir das Excel-Arbeitsblatt für Googles-Volatilität an.) Der Unterschied zwischen einfacher Volatilität und EWMA für Google ist unten dargestellt. Die einfache Volatilität wirkt effektiv jede periodische Rendite um 0,196, wie in Spalte O gezeigt (wir hatten zwei Jahre täglich Kursdaten, das sind 509 tägliche Renditen und 1509 0,196). Aber beachten Sie, dass Spalte P ein Gewicht von 6, dann 5.64, dann 5.3 und so weiter zuteilt. Das ist der einzige Unterschied zwischen einfacher Varianz und EWMA. Denken Sie daran: Nachdem wir die ganze Serie (in Spalte Q) zusammengefasst haben, haben wir die Varianz, die das Quadrat der Standardabweichung ist. Wenn wir Volatilität wollen, müssen wir uns daran erinnern, die Quadratwurzel dieser Varianz zu nehmen. Was ist der Unterschied in der täglichen Volatilität zwischen der Varianz und EWMA im Googles-Fall Sein signifikant: Die einfache Varianz gab uns eine tägliche Volatilität von 2,4, aber die EWMA gab eine tägliche Volatilität von nur 1,4 (siehe die Kalkulationstabelle für Details). Anscheinend hat sich die Googles-Volatilität in jüngster Zeit niedergelassen, eine einfache Varianz könnte künstlich hoch sein. Heutige Varianz ist eine Funktion von Pior Days Variance Youll bemerken wir brauchten, um eine lange Reihe von exponentiell abnehmenden Gewichten zu berechnen. Wir werden die Mathematik hier nicht machen, aber eines der besten Features der EWMA ist, dass die ganze Serie bequem auf eine rekursive Formel reduziert: Rekursive bedeutet, dass heutige Varianzreferenzen (d. h. eine Funktion der vorherigen Tagesabweichung) ist. Sie finden diese Formel auch in der Kalkulationstabelle, und sie erzeugt genau das gleiche Ergebnis wie die Langzeitberechnung Es heißt: Die heutige Varianz (unter EWMA) ist gleichbedeutend mit der vulkanischen Varianz (gewichtet durch Lambda) plus gestern quadrierte Rückkehr (gewogen von einem Minus Lambda). Beachten Sie, wie wir nur zwei Begriffe zusammenfügen: gestern gewichtete Varianz und gestern gewichtet, quadratische Rückkehr. Dennoch ist Lambda unser Glättungsparameter. Ein höheres Lambda (z. B. RiskMetrics 94) zeigt einen langsamen Abfall in der Serie an - in relativer Hinsicht werden wir mehr Datenpunkte in der Serie haben und sie werden langsamer abfallen. Auf der anderen Seite, wenn wir das Lambda reduzieren, zeigen wir einen höheren Zerfall an: die Gewichte fallen schneller ab, und als direkte Folge des schnellen Zerfalls werden weniger Datenpunkte verwendet. (In der Kalkulationstabelle ist Lambda ein Eingang, also kannst du mit seiner Empfindlichkeit experimentieren). Zusammenfassung Volatilität ist die momentane Standardabweichung eines Bestandes und die häufigste Risikometrität. Es ist auch die Quadratwurzel der Varianz. Wir können die Abweichung historisch oder implizit (implizite Volatilität) messen. Wenn man historisch misst, ist die einfachste Methode eine einfache Varianz. Aber die Schwäche mit einfacher Abweichung ist, dass alle Renditen das gleiche Gewicht bekommen. So stehen wir vor einem klassischen Kompromiss: Wir wollen immer mehr Daten, aber je mehr Daten wir haben, desto mehr wird unsere Berechnung durch entfernte (weniger relevante) Daten verdünnt. Der exponentiell gewichtete gleitende Durchschnitt (EWMA) verbessert die einfache Varianz durch die Zuordnung von Gewichten zu den periodischen Renditen. Auf diese Weise können wir beide eine große Stichprobengröße verwenden, aber auch ein größeres Gewicht auf neuere Renditen geben. (Um ein Filmtutorium zu diesem Thema zu sehen, besichtige die Bionische Schildkröte.) Eine Art von Steuern, die auf Kapitalgewinne von Einzelpersonen und Kapitalgesellschaften erhoben wird. Kapitalgewinne sind die Gewinne, die ein Investor ist. Ein Auftrag, eine Sicherheit bei oder unter einem bestimmten Preis zu erwerben. Ein Kauflimitauftrag erlaubt es Händlern und Anlegern zu spezifizieren. Eine IRS-Regel (Internal Revenue Service), die strafrechtliche Abhebungen von einem IRA-Konto ermöglicht. Die Regel verlangt das. Der erste Verkauf von Aktien von einem privaten Unternehmen an die Öffentlichkeit. IPOs werden oft von kleineren, jüngeren Unternehmen ausgesucht. DebtEquity Ratio ist Schuldenquote verwendet, um eine company039s finanzielle Hebelwirkung oder eine Schuldenquote zu messen, um eine Person zu messen. Eine Art von Vergütungsstruktur, die Hedge-Fondsmanager in der Regel beschäftigen, in welchem ​​Teil der Entschädigung ist performance based. whuber - Dies ist falsch, wie Sie vermutet haben. Es korrigiert, wenn die Gewichte selbst Frequenzen sind. Aber obwohl Frequenzen in die Berechnung der Prozentsätze in diesem Fall die Gewichte, obwohl nicht spezifiziert, sind keine Frequenzen des Auftretens, sondern etwas anderes mit quotdata volumequot zu tun. Also das ist die falsche Antwort. Ndash Rex Kerr Sep 8 15 um 17:50 Die Formeln sind verschiedene Orte, einschließlich Wikipedia. Der Schlüssel ist zu bemerken, dass es davon abhängt, was die Gewichte bedeuten. Insbesondere werden Sie verschiedene Antworten bekommen, wenn die Gewichte Frequenzen sind (dh Sie versuchen nur, Ihre Gesamtsumme zu addieren), wenn die Gewichte tatsächlich die Varianz jeder Messung sind oder wenn Sie nur einige externe Werte, die Sie aufzwingen, deine Daten. In deinem Fall sieht es oberflächlich aus wie die Gewichte sind Frequenzen, aber theyre nicht. Sie erzeugen Ihre Daten aus Frequenzen, aber es ist nicht einfach, 45 Datensätze von 3 und 15 Datensätzen von 4 in Ihrem Datensatz zu haben. Stattdessen müssen Sie die letzte Methode verwenden. (Eigentlich ist das alles Müll - man braucht wirklich ein anspruchsvolleres Modell des Prozesses zu verwenden, der diese Zahlen erzeugt. Sie haben anscheinend nicht etwas, das ausspuckt Normalerweise verteilte Zahlen, so dass das System mit der Standardabweichung charakterisiert ist Nicht das Richtige zu tun.) In jedem Fall ist die Formel für die Varianz (von der man die Standardabweichung auf normale Weise berechnet) mit Zuverlässigkeitsgewichten, wo x Summe wi xi Summe wi das gewichtete Mittel ist. Sie haben keine Schätzung für die Gewichte, die ich davon ausgehen, dass Sie nehmen möchten, um proportional zur Zuverlässigkeit zu sein. Nehmen Sie Prozentsätze, wie Sie es sind, wird die Analyse schwierig machen, auch wenn theyre von einem Bernoulli-Prozess generiert, denn wenn Sie eine Punktzahl von 20 und 0 erhalten, haben Sie unendlichen Prozentsatz. Die Gewichtung durch die Umkehrung der SEM ist eine gemeinsame und manchmal optimale Sache zu tun. Sie sollten vielleicht eine Bayes'sche Schätzung oder Wilson-Punktzahl verwenden. Antwortete am 8. September um 17:48 1. Die Diskussion über die verschiedenen Bedeutungen von Gewichten war, was ich in diesem Thread die ganze Zeit suchte. Es ist ein wichtiger Beitrag zu all diesen Seiten39 Fragen zu gewichteten Statistiken. (Ich bin ein wenig besorgt über die parenthetischen Bemerkungen über normale Verteilungen und Standardabweichungen, obwohl, weil sie fälschlicherweise vorschlagen, dass SDs keinen Gebrauch außerhalb eines Modells auf der Grundlage der Normalität haben.) Ndash whuber 9830 Sep 8 15 at 18:23 whuber - Nun, Zentralgrenze Theorem zur Rettung, natürlich Aber für das, was das OP tat, versucht, diesen Satz von Zahlen mit einer mittleren und Standardabweichung zu charakterisieren, scheint außerordentlich ratsam zu sein. Und im Allgemeinen, für viele Verwendungen die Standardabweichung endet locken ein in ein falsches Gefühl des Verstehens. Zum Beispiel, wenn die Verteilung ist alles andere als normal (oder eine gute Annäherung davon), die sich auf die Standardabweichung wird Ihnen eine schlechte Vorstellung von der Form der Schwänze, wenn es genau diese Schwänze, die Sie wahrscheinlich am meisten interessiert in statistisch sind testen. Ndash Rex Kerr Sep 8 15 um 19:44 RexKerr Wir können die Standardabweichung kaum beschuldigen, wenn Leute Interpretationen darauf setzen, die unverdient sind. Aber man geht von der Normalität weg und betrachte die viel breitere Klasse von stetigen, symmetrischen unimodalen Verteilungen mit endlicher Varianz (zum Beispiel). Dann liegen zwischen 89 und 100 Prozent der Verteilung innerhalb von zwei Standardabweichungen. Das ist oft ziemlich nützlich zu wissen (und 95 liegt so ziemlich in der Mitte, also ist es nicht mehr als etwa 7 off) mit vielen gemeinsamen Verteilungen, der sinkende Symmetrie-Aspekt ändert sich nicht viel (z. B. Blick auf die exponentielle, zum Beispiel). Ctd ndash Glenb 9830 Okt 1 15 um 23:57 Uhr

No comments:

Post a Comment