Wykrywanie wartości odstających z wykorzystaniem nowego podejścia hybrydowego
Eksploracja danych jest procesem wydobywania ukrytych i użytecznych informacji z danych. Wykrywanie wartości odstających jest fundamentalną częścią eksploracji danych i w ostatnim czasie cieszy się ogromnym zainteresowaniem środowiska naukowego. Wynik odstający to obiekt danych, który odbiega od innych obserwacji. Wykrywanie wartości odstających ma istotne zastosowanie w czyszczeniu danych, jak również w eksploracji punktów odbiegających od normy w celu wykrywania oszustw, analizy giełdowej, wykrywania włamań, marketingu, czujników sieciowych. Większość istniejących badań koncentruje się na numerycznych zbiorach danych, które nie mają bezpośredniego zastosowania w przypadku kategorycznych zbiorów danych, gdzie uporządkowanie danych i obliczenie odległości pomiędzy punktami danych nie ma większego sensu. Ponadto, wiele z obecnych metod wykrywania wartości odstających wymaga czasu kwadratowego w odniesieniu do rozmiaru zbioru danych i zwykle wymaga wielokrotnego skanowania danych; cechy te są niepożądane, gdy zbiory danych są duże. W niniejszej pracy skoncentrowano się i oceniono eksperymentalnie metodę wykrywania wartości odstających, która jest ukierunkowana na zbiory kategoryczne. Ponadto, jest to prosty, skalowalny i wydajny algorytm wykrywania wartości odstających, który ma tę zaletę, że pozwala wykrywać wartości odstające w kategorycznych lub numerycznych zbiorach danych poprzez per