Wkonl

Hoe men outliers in data verwerpen

Experimentele gegevens moeten worden onderzocht voor uitschieters om zinvolle conclusies uit te trekken. In het eenvoudigste geval wordt dit bereikt door het berekenen van het gemiddelde en de standaarddeviatie met alle datapunten en af ​​te geven die meer dan 3 standaardafwijkingen van het gemiddelde.

Aangezien het aantal monsters in de gegevensset toeneemt, de kans op het zien extreme monsters ook toe. Ter compensatie voor de verhoogde kans die over extreme waarden, worden de volgende wijzigingen voorgesteld.

Stappen

Hoe men outliers in data verwerpen. Bereken het gemiddelde gebruik van alle datapunten, met inbegrip van vermoedelijke uitbijters.
Hoe men outliers in data verwerpen. Bereken het gemiddelde gebruik van alle datapunten, met inbegrip van vermoedelijke uitbijters.
  1. 1
    Bereken het gemiddelde gebruik van alle datapunten, met inbegrip van vermoedelijke uitbijters.
  2. 2
    Bereken de standaarddeviatie met
  3. 3
    Voor elk gegevenspunt, xi, berekenen, in een aparte kolom,
    • Voor elke z> 0, berekenen Nc, het gebied onder de normale verdelingskromme tussen z en ∞, in een aparte kolom. U kunt dit doen in Excel met behulp van N * de stand.NORM.VERD () functie, of met behulp van de volgende formule:
    • Voor elke z <0, berekenen Nc, het gebied onder de normale verdelingskromme tussen - ∞ en z in een aparte kolom. U kunt dit doen in Excel met behulp van 1 - N * de stand.NORM.VERD () functie, of met behulp van de volgende formule:
    • Als Nc <0,05, verwerpen het gegevenspunt als een uitschieter.
  4. 4
    De figuur hieronder toont een reeks gegevens punten met de eerste twee opzettelijk duidelijk anders dan de anderen te zijn. Er waren 80 gegevenspunten, met een gemiddelde van 1122,6 en een standaarddeviatie van 1,430.
    • De lage uitschieter was 1117, met een berekende z = 3,899. De Na waarde was 0.004, dat is minder dan 0.05, dus dit punt kan veilig als uitbijter worden afgewezen.
    • De hoge uitbijter was 1128, met een computer z = 3.794. De Na waarde was 0.006, dat is minder dan 0.05, dus dit punt kan ook veilig als uitbijter worden afgewezen.

Tips

  • Als uitschieters voordoen, moet de reden voor de uitschieter worden geïdentificeerd voorafgaand aan weg te gooien. Als een waarde is een data-entry fout of van een ander proces, indien mogelijk gecorrigeerd moet worden in plaats van te verwijderen. Als de waarde van het proces of de bevolking je studeert en is niet een data-entry fout mag niet worden verwijderd. Het is een onderdeel van de natuurlijke variabiliteit van de gegevens en te kwantificeren in de variabiliteit.

Waarschuwingen

  • Deze procedure veronderstelt dat de waarden die worden gegenereerd door het proces of populatie volgen een normale verdeling. Hoewel meetfouten kan een normale verdeling in veel gevallen te volgen, kan vele bevolkingsgroepen en processen niet volgens een normale verdeling. Als gevolg van de in dit artikel beschreven procedure kan resulteren in foutief wissen waarden van de data. Ook zelfs met gegevens die normaal sommige waarden verdeeld over 3 standaardafwijkingen zal optreden bij een groot aantal waarnemingen.
  • Het wordt niet beschouwd beproefde statistische methoden om uitschieters te ontdoen zonder sterke reden. Weggooien uitschieters zonder oorzaak meestal resulteert in onderschatting van de werkelijke variabiliteit van het proces dat de data genereert. Uitschieters komen typisch uit drie mogelijke oorzaken:
    • Data entry fout.
    • Waarden van een andere populatie of proces.
    • Werkelijke ongewone waarden in de data.