Dystrybucja rang. Międzynarodowy studencki biuletyn naukowy Analiza rang jako metoda badawcza

Pierwszą rzeczą, która przyciąga uwagę w dziedzinie dokumentów, jest niezwykle szybki wzrost ich populacji.

Ten powszechnie znany fakt skłania do poważnego zastanowienia się, do czego może prowadzić taki wzrost. Być może jednak nasze obawy okazały się płonne i w przyszłości tempo wzrostu liczby dokumentów wyhamuje? Jak dotąd statystyki pokazują coś przeciwnego.

Tak zmienił się na przykład przepływ informacji dokumentalnej w chemii. W 1732 roku holenderski profesor podsumował i opublikował całe dziedzictwo chemii w książce liczącej 1433 strony. W 1825 r. szwedzki uczony Berzelius opublikował wszystko, co było znane w chemii, w 8 tomach o łącznej objętości 4150 stron. Obecnie amerykańskie czasopismo abstraktowe Chemical Abstracts, wydawane od 1907 roku, publikuje niemal wszystkie informacje z zakresu chemii, przy czym pierwszy milion abstraktów opublikowany jest 31 lat od jego powstania, drugi po 18 latach, trzeci po 7 latach, a czwarty po 4 latach !

Mniej więcej ten sam schemat wzrostu liczby dokumentów można prześledzić w innych obszarach nauki. Zaobserwowano, że przyrost dokumentów jest wykładniczy. Jednocześnie coroczny wzrost przepływów informacje naukowe i techniczne wynosi 7...10%. Obecnie co 10...15 lat objętość informacji naukowo-technicznej (STI) podwaja się. Krzywą wzrostu liczby dokumentów można więc opisać wykładnikiem postaci

y = Ae kt

Gdzie y– suma wiedzy odziedziczonej od poprzednich pokoleń, mi– podstawa logarytmów naturalnych ( mi = 2,718...), T– indeks czasu (g); A– suma wiedzy na początku odliczania (z T = 0), K– współczynnik charakteryzujący prędkość wiedzy, za którego odpowiednik przyjmuje się przepływy informacji naukowo-technicznej. Na T≈ 10...15 lat Na = 2A.

Łatwo sobie wyobrazić, że tego typu wzrost liczby dokumentów naukowych nie wróży nam dobrze na przyszłość, nawet najbliższą. Lasy zamieniły się w góry papieru, w których tonie bezradny badacz...

Jednak, jak pokazuje historia nauki i techniki, warunki, w jakich się one rozwijają, nie są stałe, dlatego często dochodzi do zaburzenia mechanizmu wykładniczego wzrostu przepływów STI. Naruszenie to tłumaczy się szeregiem czynników ograniczających, w szczególności wojnami, brakiem materiałów i zasoby ludzkie itp. W rzeczywistości wzrost liczby dokumentów nie podlega więc zależności wykładniczej, chociaż w pewnych okresach rozwoju nauki i technologii w niektórych dziedzinach wiedzy objawia się to dość wyraźnie. Jaka jest przyczyna tak szybkiego wzrostu przepływu informacji dokumentalnej?



W poprzednich rozdziałach zwracaliśmy uwagę na fakt, że informacja odgrywa ogromną rolę w rozwoju społeczeństwo towarzyszy temu przyspieszony wzrost wolumenu informacji. Wysokość strumienie dokumentalne informacji naukowej można wiązać ze wzrostem liczby twórców informacji naukowej. Tempo tego wzrostu opisuje funkcja wykładnicza. Na przykład w ciągu ostatnich 50 lat liczba naukowców w ZSRR podwajała się co 7 lat, w USA co 10 lat, w krajach europejskich co 10...15 lat.

Oczywiście tempo wzrostu liczby pracowników naukowych musi wyhamować i osiągnąć mniej więcej stałą wartość w stosunku do całej populacji pracującej. W przeciwnym razie po pewnym czasie cała populacja będzie zajęta pracami badawczo-rozwojowymi, co jest nierealne. Dlatego w przyszłości należy spodziewać się spowolnienia tempa przyrostu dokumentów naukowych. Obecnie wskaźniki te są nadal wysokie i budzą niepokój konsumentów informacji: jak przechowywać i przetwarzać dokumenty, jak znaleźć wśród nich ten, którego potrzebują?

Sytuacja wydaje się beznadziejna: obowiązujące w królestwie dokumentów prawo wykładniczego wzrostu dokumentów gwałtownie pogorszyło zarówno problemy „mieszkalne”, jak i „transportowe”.

Jak się jednak okazuje, obowiązuje tu prawo, które nieco łagodzi obecną sytuację...

Pod koniec lat 40. naszego stulecia J. Zipf po zebraniu ogromnego materiału statystycznego próbował wykazać, że rozmieszczenie słów w języku naturalnym podlega jednemu prostemu prawu, które można sformułować w następujący sposób. Jeżeli sporządzisz listę wszystkich słów występujących w wystarczająco dużym tekście, to ułóż te wyrazy w kolejności malejącej według częstości ich występowania w tym tekście i ponumeruj je w kolejności od 1 (numer porządkowy najczęściej występującego słowa) do R, to dla dowolnego słowa iloczyn jego numeru seryjnego (rangi) / w takim zestawieniu i częstotliwości jego występowania w tekście będzie wartością stałą, posiadającą w przybliżeniu tę samą wartość dla dowolnego słowa z tej listy. Analitycznie prawo Zipfa można wyrazić jako



ks = C,

Gdzie F– częstotliwość występowania słowa w tekście;
R– ranga (liczba porządkowa) słowa na liście;
Z– stała wartość empiryczna.

Powstałą zależność wyraża się graficznie za pomocą hiperboli. Po zbadaniu szerokiej gamy tekstów i języków,

uwzględniając języki mające tysiące lat, dla każdego z nich J. Zipf skonstruował wskazane zależności, przy czym wszystkie krzywe miały ten sam kształt – kształt „schodów hiperbolicznych”, tj. przy zamianie jednego tekstu na inny ogólny charakter podział nie uległ zmianie.

Prawo Zipfa zostało odkryte eksperymentalnie. Później B. Mandelbrot zaproponował jego teoretyczne uzasadnienie. Uważał, że język pisany można porównać do kodowania, w którym wszystkie znaki mają pewną „wartość”. Opierając się na wymaganiach dotyczących minimalnego kosztu wiadomości, B. Mandelbrot matematycznie doszedł do zależności podobnej do prawa Zipfa

ks γ = C ,

gdzie γ jest wartością (bliską jedności), która może się różnić w zależności od właściwości tekstu.

J. Zipf i inni badacze odkryli, że takiemu rozkładowi podlegają nie tylko wszystkie naturalne języki świata, ale także inne zjawiska o charakterze społecznym i biologicznym: rozkład naukowców według liczby opublikowanych przez nich artykułów (A. Lotka, 1926), miasta amerykańskie według liczby ludności (J. Zipf, 1949), ludność według dochodów w krajach kapitalistycznych (V. Pareto, 1897), rodzaje biologiczne według liczby gatunków (J. Willis, 1922) itp.

Najważniejszą rzeczą dla rozważanego przez nas problemu jest fakt, że dokumenty w dowolnej dziedzinie wiedzy mogą być rozpowszechniane zgodnie z tym prawem. Szczególnym przypadkiem jest prawo Bradforda, które jest bezpośrednio związane nie z rozkładem słów w tekście, ale z rozkładem dokumentów w obrębie określonego obszaru tematycznego.

Angielski chemik i bibliograf S. Bradford, badając artykuły z zakresu geofizyki stosowanej i smarowania, zauważył, że dystrybucja czasopism naukowych zawierających artykuły na temat smarowania oraz czasopism zawierających artykuły na temat geofizyki stosowanej uległa zmianie forma ogólna. Na podstawie ustalonego faktu S. Bradford sformułował schemat podziału publikacji pomiędzy publikacjami.

Główne znaczenie wzoru jest następujące: jeśli czasopism naukowych uporządkuj w kolejności malejącej liczbę artykułów według konkretny problem, wówczas czasopisma znajdujące się na powstałej liście można podzielić na trzy strefy, tak aby w każdej strefie liczba artykułów o danej tematyce była taka sama. Jednocześnie w pierwszej strefie, tzw. strefie rdzenia, znajdują się czasopisma specjalistyczne poświęcone bezpośrednio poruszanej tematyce. Liczba czasopism specjalistycznych w obszarze głównym jest niewielka. Drugą strefę tworzą czasopisma poświęcone częściowo danemu obszarowi, a ich liczba znacznie wzrasta w porównaniu z liczbą czasopism w rdzeniu. Trzecia strefa, największa pod względem liczby publikacji, skupia czasopisma, których tematyka jest bardzo odległa od poruszanej tematyki.

Zatem przy równej liczbie publikacji na określony temat w każdej strefie liczba tytułów czasopism gwałtownie wzrasta przy przechodzeniu z jednej strefy do drugiej. S. Bradford ustalił, że liczba czasopism w trzeciej strefie będzie w przybliżeniu tyle razy większa niż w drugiej strefie, ile razy liczba tytułów w drugiej strefie będzie większa niż w pierwszej. Oznaczmy R 1 – liczba magazynków w I strefie, R 2 – w 2., R 3 – liczba magazynków w 3 strefie.

Jeśli A– stosunek liczby magazynków w strefie II do liczby magazynków w strefie I, wówczas wzór odkryty przez S. Bradforda można zapisać następująco:

P 1: P 2: P 3 = 1: A : A 2

P 3: P 2 = P 2: P 1 = A.

Zależność ta nazywa się prawem Bradforda.

B. Vickery udoskonalił model S. Bradforda. Odkrył, że czasopisma, uszeregowane (ułożone) w malejącej kolejności artykułów na dany temat, można podzielić nie na trzy strefy, ale na dowolną liczbę stref. Jeżeli czasopisma ułożone zostaną w kolejności malejącej liczby artykułów o danym zagadnieniu, to na powstałej liście można wyróżnić kilka stref, z których każda zawiera tę samą liczbę artykułów. Akceptujemy następujący zapis X– liczba artykułów w każdej strefie. Tx– liczba czasopism zawierających X artykuły, T 2X– liczba logów zawierająca 2 X artykuły, tj. suma tytułów czasopism w I i II strefie, T 3X– liczba logów zawierająca 3 X artykuły, tj. suma tytułów czasopism w I, II i III strefie, T 4X– liczba logów zawierająca 4 X artykuły.

Wtedy ten wzór będzie wyglądał

Przesyłka : T 2X : T 3X : T 4X : ... = 1: A : A 2: A 3: ...

Wyrażenie to w interpretacji B. Vickery’ego nazywa się prawem Bradforda.

Jeśli prawo Zipfa charakteryzuje wiele zjawisk o charakterze społecznym i biologicznym, to prawo Bradforda jest szczególnym przypadkiem rozkładu Zipfa dla systemu czasopism o tematyce naukowo-technicznej.

Z tych wzorców można wyciągnąć wnioski o ogromnych korzyściach praktycznych.

Jeśli więc ułożyć jakieś czasopisma w kolejności malejącej według liczby artykułów na danym profilu, to według Bradforda można je podzielić na trzy grupy zawierające równą liczbę artykułów. Wybierzmy grupę 8 tytułów czasopism, które zajmują pierwsze 8 miejsc na wynikowej liście. Następnie, aby podwoić liczbę artykułów na interesującym nas profilu, będziemy musieli dodać kolejne 8 do istniejących 8 A tytuły czasopism. Jeśli A= 5 (wartość tę stwierdzono eksperymentalnie dla niektórych obszarów tematycznych), to liczba tych tytułów wynosi 40. Wtedy łączna liczba tytułów czasopism wyniesie 48, czyli oczywiście znacznie więcej niż 8. Jeśli spróbujemy uzyskać trzy razy więcej artykułów, będziemy musieli już pokryć 8 + 5 · 8 + 5 2 · 8 = 256 pozycji! Spośród nich jedna trzecia interesujących nas artykułów koncentruje się zaledwie w 8 czasopismach, tj. Artykuły są rozmieszczone nierównomiernie w tytułach czasopism. Z jednej strony występuje koncentracja znacznej liczby artykułów na dany temat w kilku czasopismach specjalistycznych, z drugiej strony występuje rozproszenie tych artykułów w ogromna liczba publikacje na tematy pokrewne lub odległe od rozpatrywanego tematu, podczas gdy w praktyce konieczne jest zidentyfikowanie głównych źródeł z interesującego nas obszaru wiedzy naukowo-technicznej, a nie przypadkowych publikacji.

Wzorce koncentracji i rozproszenia informacji naukowo-technicznej w obszarze dokumentów pozwalają na precyzyjne wyselekcjonowanie tych publikacji, w których z największym prawdopodobieństwem znajdą się publikacje odpowiadające określonemu profilowi ​​wiedzy. W procesie masowym wsparcie informacyjne W skali kraju stosowanie tych przepisów pozwala na ograniczenie ogromnych kosztów dla gospodarki narodowej.

Obecnego rozproszenia publikacji nie można oceniać wyłącznie jako zjawiska szkodliwego. W rozproszonym środowisku poprawiają się możliwości międzybranżowej wymiany informacji.

Próba skupienia wszystkich publikacji o jednym profilu w kilku czasopismach, tj. zapobieganie ich rozproszeniu będzie miało negatywne konsekwencje, nie mówiąc już o tym, że nie zawsze możliwe jest dokładne przypisanie dokumentu do tego czy innego profilu.

Wyniki testów prawa dyspersji Bradforda, jak wykazał S. Brooks, wykazują różny stopień zgodności. Pomimo wprowadzone poprawki, model Bradforda nie odzwierciedla różnorodności rozkładów rzeczywistych. Rozbieżność tę można wytłumaczyć faktem, że Bradford swoje wnioski opierał na doborze tablic odnoszących się wyłącznie do wąskich obszarów tematycznych.

Wielką zasługą J. Zipfa i S. Bradforda jest to, że zainicjowali rygorystyczne badania przepływów informacji dokumentalnej (DIF), czyli zbiorów dokumentów naukowych, publikacji i materiałów niepublikowanych (np. raportów z prac badawczo-rozwojowych). Dalsze badania, wśród których poczesne miejsce zajmują prace radzieckiego specjalisty z zakresu informatyki V.I. Gorkova pokazała, że ​​możliwe jest określenie nie tylko parametrów ilościowych zbiorów dokumentów naukowych, ale także zbiorów elementów atrybutów dokumentów naukowych: autorów, terminów, indeksów systemów klasyfikacyjnych, tytułów publikacji, tj. nazwy elementów charakteryzujących treść dokumentów naukowych. Można na przykład uporządkować czasopisma w kolejności malejącej liczby opublikowanych w nich autorów, według malejącej średniej wielkości publikowanych w nich artykułów lub uporządkować zbiór dokumentów według dowolnego jego elementu.

O kolejności decyduje ranking (kolejność umieszczenia) nazw elementów według częstotliwości ich występowania w kolejności malejącej. Taki uporządkowany zbiór nazw elementów nazywany jest rozkładem rang. Rozkłady, które kiedyś badał Zipf, to typowe przykłady rozkłady rang. Okazało się, że rodzaj rozkładu rang i jego struktura charakteryzują zbiór dokumentów, do którego należy dany rozkład rang. Okazało się, że po skonstruowaniu rozkłady rang w większości przypadków mają postać prawa Zipfa z poprawką Mandelbrota:

ks γ = C.

W tym przypadku współczynnik γ jest wartością zmienną. Stałość współczynnika γ zachowana jest jedynie w środkowej części wykresu rozkładu. Sekcja ta ma postać linii prostej, jeśli wykres powyższego wzoru zostanie naniesiony we współrzędnych logarytmicznych. Sekcja dystrybucji z γ = konst nazywa się środkową strefą rozkładu rang (wartość argumentu w tym obszarze waha się od inr 1, do inr 2). Wartości argumentów od 0 do inr 1 odpowiada strefie jądra dystrybucji rang, a wartości argumentów z inr 2 do inr 3 – tzw. strefa obcięcia.

Jaki sens ma istnienie trzech wyraźnie wyodrębnionych stref rozkładów rang? Jeśli to drugie odnosi się do terminów tworzących jakąkolwiek dziedzinę wiedzy, to strefa nuklearna, czyli strefa jądra rozkładu rang, zawiera najczęściej używane, ogólne terminy naukowe. Strefa środkowa zawiera terminy najbardziej charakterystyczne dla danej dziedziny wiedzy, które łącznie wyrażają jej specyfikę, odrębność od innych nauk i „obejmują jej główną treść”. Strefa obcięcia zawiera terminy, które są stosunkowo rzadko stosowane w tej dziedzinie wiedzy.

Zatem podstawa słownictwa dowolnej dziedziny wiedzy koncentruje się w centralnej strefie rozkładu rang. Używając określeń strefy nuklearnej, ten obszar wiedzy „łączy się z bardziej ogólnymi obszarami wiedzy”, a strefa obcięcia pełni rolę awangardy, jakby „poszukiwała” powiązań z innymi gałęziami nauki. Gdyby zatem kilka lat temu w rankingowym rozkładzie terminów z obszaru tematycznego „Obróbka metali” znalazłby się termin „lasery”, to z uwagi na jego rzadkie występowanie z pewnością znalazłby się w strefie okrojonej: powiązania pomiędzy technologia laserowa i obróbka metali były właśnie „po omacku”” Jednak dziś termin ten niewątpliwie mieściłby się w strefie centralnej, co świadczyłoby o jego dość częstym występowaniu, a co za tym idzie, stabilnym powiązaniu technologii laserowej z obróbką metali.

Wykres rozkładu rang jest pełny głębokie znaczenie: Mimo wszystko względna wielkość danej strefy na wykresie można ocenić na podstawie charakterystyki całej dziedziny wiedzy. Wykres z dużą strefą rdzenia i małą strefą obcięcia należy do dość szerokiego i najprawdopodobniej konserwatywnego obszaru wiedzy. Dynamiczne gałęzie nauki charakteryzują się zwiększoną strefą obcięcia. Niewielki rozmiar strefy nuklearnej może świadczyć o oryginalności dziedziny wiedzy, do której należy skonstruowany rozkład rang itp. Tym samym na podstawie analizy rozkładu rang okazało się, że możliwe jest dokonanie jakościowej oceny przepływów informacji dokumentacyjnej w powiązaniu z dziedzinami nauki, w których one powstały. Królestwo dokumentów przybiera kształt systemu, w którym elementy są ze sobą powiązane i można badać wzorce rządzące tymi połączeniami!

Jak informacje się starzeją...

Starzenie się... Znaczenie tego pojęcia nie wymaga wyjaśnień, jest ono doskonale znane każdemu. Nasza planeta się starzeje i drzewa się starzeją. Rzeczy i ludzie, którzy je posiadają, starzeją się. Dokumenty też się starzeją. Strony książek żółkną, litery bledną, okładki ulegają zniszczeniu. Ale co to jest? Student, odrzucając podarowaną mu w bibliotece książkę, z pogardą zauważa: „To już przestarzałe!”, choć książka wciąż wygląda na zupełnie nową! Oczywiście nie ma tu żadnej tajemnicy. Książka jest nowa, jednak zawarte w niej informacje mogą być nieaktualne. W odniesieniu do dokumentów starzenie się rozumiane jest nie jako fizyczne starzenie się nośnika informacji, ale jako dość złożony proces starzenia się zawartych na nim informacji. Zewnętrznie proces ten objawia się utratą zainteresowania naukowców i specjalistów publikacjami w miarę wydłużania się czasu, jaki upływa od ich publikacji. Jak wykazało badanie 17 bibliotek przeprowadzone przez jeden z branżowych organów informacyjnych, 62% trafień dotyczyło czasopism młodszych niż 1,5 roku; 31% zamówień dotyczy czasopism w wieku 1,5...5 lat; 6% – dla czasopism w wieku od 6 do 10 lat; 7% – dla czasopism starszych niż 10 lat. Publikacje wydane stosunkowo dawno temu są konsultowane znacznie rzadziej, co rodzi twierdzenie, że są one przestarzałe. Jakie mechanizmy kontrolują proces starzenia się dokumentów?

Jeden z nich jest bezpośrednio związany z kumulacją, agregacją informacji naukowej. Często materiał, którego przedstawienie sto lat temu wymagało całego cyklu wykładów, można teraz wyjaśnić w ciągu kilku minut za pomocą dwóch lub trzech formuł. Odpowiednie kursy wykładowe są beznadziejnie przestarzałe: nikt już z nich nie korzysta.

Po uzyskaniu dokładniejszych danych przybliżone dane, a co za tym idzie dokumenty, w których są publikowane, stają się nieaktualne. Dlatego też, gdy mówią o starzeniu się informacji naukowej, mają najczęściej na myśli jej doprecyzowanie, bardziej rygorystyczną, zwięzłą i uogólnioną prezentację w procesie tworzenia nowej informacji naukowej. Jest to możliwe dzięki temu, że informacja naukowa ma właściwość kumulacji, tj. pozwala na bardziej zwięzłą, uogólnioną prezentację.

Czasami starzenie się informacji dokumentalnej ma inny mechanizm: przedmiot, którego opis mamy, zmienia się z biegiem czasu tak bardzo, że informacje na jego temat stają się niedokładne. Tak się starzeją Mapy geograficzne: pustynie zastępują pastwiska, pojawiają się nowe miasta i morza.

Proces starzenia można postrzegać także jako utratę informacji mających praktyczną przydatność dla konsumenta. Oznacza to, że nie może już go używać do osiągnięcia swoich celów.

I wreszcie, proces ten można rozpatrywać z punktu widzenia zmian w tezaurusie danej osoby. Z tych pozycji te same informacje mogą być „nieaktualne” dla jednej osoby i „nieaktualne” dla innej.

Stopień starzenia informacji dokumentalnych nie jest taki sam różne rodzaje dokumenty. Na tempo jego starzenia wpływa w różnym stopniu wiele czynników. Cech starzenia się informacji w każdej dziedzinie nauki i techniki nie da się wywnioskować na podstawie abstrakcyjnych rozważań czy przeciętnych danych statystycznych – są one organicznie powiązane z trendami rozwojowymi każdej z nich. osobna branża nauka i technologia.

Aby w jakiś sposób określić tempo starzenia się informacji, bibliotekarz R. Barton i fizyk R. Kebler z USA, przez analogię do okresu półtrwania substancji radioaktywnych, wprowadzili „okresy półtrwania” artykułów naukowych. Okres półtrwania to czas, w którym opublikowano połowę całej aktualnie używanej literatury z dowolnej dziedziny lub tematu. Jeżeli okres półtrwania publikacji z fizyki wynosi 4,6 roku, to oznacza to, że 50% wszystkich obecnie używanych (cytowanych) publikacji z tej dziedziny ma nie więcej niż 4,6 roku. Oto wyniki, jakie uzyskali Barton i Kebler: za publikacje z fizyki – 4,6 roku, fizjologii – 7,2, chemii – 8,1, botaniki – 10,0, matematyki – 10,5, geologii – 11,8 lat. Jednakże, choć właściwość starzenia się informacji ma charakter obiektywny, nie ujawnia wewnętrznego procesu rozwoju danego obszaru wiedzy i ma raczej charakter opisowy. Dlatego wnioski dotyczące starzenia się informacji należy traktować bardzo ostrożnie.

Niemniej jednak nawet przybliżone oszacowanie tempa starzenia się informacji i dokumentów je zawierających ma ogromną wartość praktyczną: pozwala uwzględnić tylko tę część królestwa dokumentów, w której najprawdopodobniej znajdują się dokumenty zawierające podstawowe informacje o danym nauka. Jest to ważne nie tylko dla pracowników bibliotek naukowo-technicznych i organów informacji naukowo-technicznej, ale także dla samych konsumentów NTI.

Rozwiązanie dla automatyzacji?

Do modelowania struktury zużycia energii w przedsiębiorstwie stosuje się rozkłady rang, zaś do modelowania struktury zainstalowanych i naprawianych urządzeń elektrycznych stosuje się rozkłady typów.


Dystrybucje rang. Rozkłady rang obejmują te rozkłady, w których główną cechą jest pojemność elektryczna wszystkich typów produktów.

Rozkład mocy elektrycznych wszystkich rodzajów produktów wytwarzanych w jednym konkretnym przedsiębiorstwie odnosi się do rozkładu rang. Parametrem rozkładu rang jest współczynnik rangi. Można uzyskać krzywe rozkładu rang oraz wyznaczyć współczynniki rankingowe dla okresów sprawozdawczych (w ujęciu kwartałowym, półrocznym lub rocznym). Jeżeli współczynnik rankingu pozostaje stały w czasie, oznacza to, że struktura produktów i struktura zużycia energii elektrycznej nie zmieniają się w czasie. Wzrost współczynnika rankingu pokazuje, że na przestrzeni lat przedsiębiorstwo zwiększyło różnorodność produktów i różnicę w kosztach energii do produkcji poszczególnych typów.

Jeśli dla każdego rodzaju produktu produkcji wieloproduktowej obliczymy pojemność elektryczną jako stosunek rocznego zużycia energii elektrycznej do wielkości produkcji tego typu, to dla przedsiębiorstwa jako całości wartości te podlegają rozkładowi rang . Uzyskane parametry rozkładu rang na przestrzeni lat wykazują dość stabilną tendencję wzrostową. Wzrost współczynnika rankingu pokazuje, że na przestrzeni lat zwiększa się różnorodność produktów wytwarzanych w przedsiębiorstwie oraz różnica w kosztach energii do produkcji poszczególnych typów.

Zbiór krzywych rozkładu rang reprezentuje powierzchnię. Analiza dynamiki strukturalnej i topologicznej (trajektorii ruchu człowieka po krzywej rozkładu rang) na tej powierzchni pozwala uzyskać szereg czasowy pojemności elektrycznej każdego badanego rodzaju produktu, co jest interesujące z punktu widzenia możliwości prognozowania parametrów zużycia energii. Można stwierdzić, że istnieje silna korelacja pomiędzy rocznym zużyciem energii w produkcji wieloproduktowej, strukturą wytwarzanych produktów oraz różnorodnością wytwarzanych produktów.

Struktura zainstalowanego i naprawianego sprzętu. Rozkład rang i gatunków

Które dystrybucje są klasyfikowane jako rankingowe

Opcja 2 (z ponad 20 opcjami). W pierwszym etapie respondent dzieli proponowane opcje na dwie lub trzy grupy: 1 – odpowiednie, 2 – nieodpowiednie, trzecia grupa może składać się z opcji, które respondentowi trudno jest zaklasyfikować do innych grup. Jeżeli podczas pierwszego podziału w grupie odpowiedniej pozostanie więcej niż 10-12 pozycji, wówczas respondent proszony jest o ponowne podzielenie tej grupy według zasady dokładnie odpowiedniej – możliwie odpowiedniej. Po zidentyfikowaniu odpowiednich opcji respondent musi dokonać bezpośredniego rankingu, sortując opcje od najlepszej do najgorszej. Zgodnie z wynikami selekcji każdemu respondentowi przypisuje się wartości rang, najlepiej w odwrotnej kolejności (najlepsza wartość to 10, następna to 9, najgorsza to 1; przy więcej niż 10 wyborach przypisywane są wszystkie ostatnie wybory wartość 1.

Jak już wspomniano, wskaźniki rang służą do charakteryzowania kształtu rozkładu szeregu zmienności. Rozumiemy przez to takie jednostki badanej tablicy, które zajmują określone miejsce w szeregu zmian (na przykład dziesiąta, dwudziesta itd.). Nazywa się je kwantylami lub gradientami. Kwantyle z kolei podlegają podziałowi

Dlaczego statystyka rang Dunna (dt) do testowania kontrastów (patrz równanie (41)) wymaga tabel rozkładu normalnego, a nie testu

Metody nieparametryczne. Nieparametryczne metody statystyczne, w odróżnieniu od parametrycznych, nie opierają się na żadnych założeniach dotyczących praw dystrybucji danych3. Współczynnik korelacji rang Spearmana i współczynnik korelacji rang Kendalla są często używane jako nieparametryczne kryteria relacji zmiennych.

Histogram to graficzne przedstawienie rozkładów statystycznych dowolnej wielkości według cechy ilościowej. Wygodnie jest skonstruować histogram (gr. histos - tkanka) z góry, wykreślając odpowiednie czynniki wzdłuż osi odciętych i ich sumy rang wzdłuż osi rzędnych. Histogram może pokazywać spadki, zgodnie z czym wskazane jest grupowanie czynników ze względu na stopień ich wpływu na badany wskaźnik.

Przedstawione koncepcje cenologiczne mogą posłużyć jako podstawa do zmiany organizacji systemu 111 IF w przedsiębiorstwie przemysłowym (w warsztacie). W tym przypadku nie stosuje się rozkładu typów zainstalowanego sprzętu elektrycznego, ale reprezentację całej listy, na przykład maszyn elektrycznych, w postaci rozkładu H uporządkowanego według parametrów. Odbywa się to w następujący sposób. Cały zestaw zainstalowanych maszyn jest uszeregowany według ich znaczenia (ważności) w procesie technicznym lub innym. Każdy pojazd ma przypisaną własną rangę (numer). Pierwszą rangę przypisuje się maszynie, która w największym stopniu determinuje proces produkcyjny. Drugie dotyczy kolejnej najważniejszej maszyny itp., tak że ostatnie miejsca zajmują maszyny, których awaria nie ma wpływu, lub raczej ma bardzo mały wpływ na produkcję i inną działalność przedsiębiorstwa. Operacja nadawania rangi nie wymaga szczególnej precyzji, dlatego dana maszyna może trafić na nieco inne miejsce na danej liście rankingowej.

Wykorzystamy fakt x2(12)-rozkładu zmiennej losowej m (n - 1) W (m), który występuje w przybliżeniu) w przypadku, gdy w badanej populacji nie występuje zależność wielorzędowa. Kryterium sprowadza się wówczas do sprawdzenia nierówności (2.18). Ustaliwszy poziom istotności kryterium a = 0,05, dowiadujemy się z tabeli. A.4 wartość punktu 5% rozkładu x2 z 12 stopniami swobody X OB(12) = 21,026. Jednocześnie t (n - I) W (t) = - 28-12-0,08 - 27.

Przede wszystkim należy ponownie zauważyć, że rozkład częstotliwości jest zawsze symetryczny. Dane tabeli 6.9 pokazują, że odpowiednio symetria częstotliwości odzwierciedla symetrię ilościowego wyznaczania współczynnika korelacji rang w oparciu o inwersje Kinv. Współczynniki korelacji Spearmana (p) i Kendalla (T). Metody te mają zastosowanie nie tylko do wskaźników jakościowych, ale także ilościowych, szczególnie przy małej liczebności populacji, gdyż nieparametryczne metody korelacji rang nie wiążą się z żadnymi ograniczeniami dotyczącymi charakteru rozkładu cechy.

Po otrzymaniu ciągu rozkładów ft(P) pojawia się zadanie zbadania procesu przejścia między nimi, tj. mobilność regionów według cen. Jak zauważa Fields, Ok (2001), samo pojęcie mobilności nie jest jasno zdefiniowane; literatura dotycząca mobilności nie dostarcza jednolitego opisu analizy (nie ma też ustalonej terminologii). Jednakże w literaturze ekonomicznej i socjologicznej panuje zgoda co do dwóch głównych koncepcji mobilności. Pierwsza to mobilność względna (lub rangowa) związana ze zmianami w uporządkowaniu, w naszym przypadku, regionów według poziomu cen. Drugą koncepcją jest mobilność bezwzględna (lub ilościowa), związana ze zmianami samych poziomów cen w regionach. Obydwa te pojęcia zostaną wykorzystane w poniższej analizie.

Inne procedury. Rozważamy procedurę opartą na statystyce rang Steele'a do porównań średnich eksperymentalnych i kontrolnych omówioną wcześniej. Ta alternatywna procedura zakłada również rozkłady uporządkowane stochastycznie. W przypadku tej klasy rozkładów procedura jest mniej efektywna w szczególnym przypadku rozkładów; różnią się tylko przesunięciem (patrz

Metoda rang sekwencyjnych Hole'a z eliminacją dla rozkładów uporządkowanych stochastycznie. Rozkłady uporządkowane stochastycznie obejmują rozkłady, które różnią się jedynie przesunięciem, ale nie rozkłady normalne z różnymi wariancjami. Nie wiemy, czy metoda jest wrażliwa na odchylenia od założenia porządku stochastycznego.

Planowanie i przeprowadzanie eksperymentów w celu określenia parametrów ataków sieciowych

Na kolejnym etapie sprawdzania modelu ruchu należy sprawdzić, czy model ten można zastosować do zadań związanych z bezpieczeństwem sieci, w szczególności do wykrywania ataków sieciowych.

Aby poznać szczegóły nieuprawnionego włamania, zdecydowano się przeprowadzić eksperymenty symulujące próby ataków. Przeprowadzono je w sieci Samara State Aerospace University (SSAU).

Jako źródło ataku wykorzystano dane zdalne. komputery osobiste, podłączonego do Internetu, zlokalizowanego w sieci zewnętrznej w stosunku do badanej. Celem ataku był jeden z wewnętrznych serwerów sieci SSAU. Jako czujnik NetFlow wybrano router graniczny sieci SSAU Cisco 6509, a kolektorem NetFlow był ten sam serwer, który został zaatakowany.

W skanowaniu brał udział tylko jeden komputer, ponieważ atak polegający na skanowaniu portów przeprowadzany jest z pojedynczych źródeł. Do skanowania wykorzystano program Nmap, który otrzymał polecenie przeprowadzenia pełnego skanowania wszystkich portów atakowanego serwera.

Nmap to bezpłatne narzędzie przeznaczone do różnorodnego niestandardowego skanowania sieci IP dowolną liczbą obiektów, określania stanu obiektów skanowanej sieci (portów i odpowiadających im usług). Nmap używa wielu różne metody skany takie jak UDP, TCP (połączenie), TCP SYN (półotwarte), FTP proxy (przełom FTP), Reverse-ident, ICMP (ping), FIN, ACK, Xmas Tree, SYN i NULL.

Podczas przeprowadzania ataku DDoS jako atakowany cel wybrano ten sam serwer WWW, co podczas skanowania. Źródłem ataku było kilka komputerów znajdujących się w sieci zewnętrznej. W pierwszej części eksperymentu atakujące komputery jednocześnie przez pół godziny wysyłały żądania ping, przeprowadzając atak typu Flood ICMP. W drugiej części eksperymentu atakujące komputery przeprowadziły atak DDoS przy użyciu specjalistycznego programu LOIC. W ciągu godziny serwer WWW został zaatakowany przy użyciu różne rodzaje ruch: HTTP, UDP, TCP. Podczas wszystkich eksperymentów zbierano dane, które następnie analizowano w celu zidentyfikowania wzorców różne rodzaje ataki.

Rysunek 1.16 – Schemat eksperymentu

Dane o przepływie stanowiące podstawę analizy zostały zebrane z routera brzegowego sieci Cisco 6509. Do zebrania danych z routera wykorzystano moduł zbierający NetFlow nfdump. Dane NetFlow są eksportowane do analizy co pięć minut. Co pięć minut generowany jest plik wskazujący parametry wszystkich przepływów zarejestrowanych w tym czasie na routerze. Parametry te są wymienione we wstępie i obejmują: czas rozpoczęcia strumienia, czas trwania strumienia, protokół przesyłania danych, adres źródłowy i port, adres i port docelowy, liczbę przesłanych pakietów, liczbę przesłanych danych w bajtach.

W wyniku analizy danych zebranych podczas skanowania sieci ujawniono gwałtowny wzrost liczby aktywnych przepływów przy niemal stałym natężeniu przesyłanego ruchu (patrz rys. 1.16). Każdy komputer skanujący wygenerował w ciągu 5 minut około 10-20 tysięcy bardzo krótkich strumieni (o wielkości do 50 bajtów). Jednocześnie łączna liczba aktywnych strumieni na routerze, generowanych przez wszystkich użytkowników, wynosiła około 50-60 tysięcy.

Rysunek 1.17 przedstawia wykres stanu sieci, na osi odciętych wykreślono liczbę zakończonych przepływów N, a na osi współrzędnych wykreślono całkowite obciążenie kanału w megabitach na sekundę (Mbit/s). Każdy punkt na wykresie odzwierciedla stan badanej sieci z poprzedniego pięciominutowego interwału, pokazując zależność średniego obciążenia kanału od liczby aktywnych przepływów. Kropki odpowiadają normalnym stanom sieci, a trójkąty odpowiadają stanom sieci zarejestrowanym podczas skanowania portów. Segmenty pokazane na wykresie i równoległe do osi rzędnych przedstawiają przedziały ufności dla średniego obciążenia obliczonego dla pięciu przedziałów przepływu (20000-30000, 30000-40000, 40000-50000, 50000-60000, 60000-70000).


Rysunek 1.17 – Skanowanie portów

Na podstawie wyników eksperymentu z żądaniami ping stwierdzono, że każdy atakujący komputer otrzymywał tylko jeden bardzo długi strumień ruchu ICMP, jeśli żądania były wysyłane na jednym porcie. Ponieważ dane dotyczące jednego przepływu są zapisywane dopiero po jego zakończeniu, niezbędne dane zostały zapisane do pliku nfdump po zakończeniu ataku. Wykryto jeden wyjątkowo długi przepływ ruchu ICMP; jego źródłem był komputer atakujący. Tym samym w wyniku analizy danych eksperymentalnych udało się zidentyfikować atak typu Flood ICMP. Należy zauważyć, że aby osiągnąć wynik - awarie System informacyjny Jeden aktywny przepływ ruchu ICMP zdecydowanie nie wystarczy; muszą istnieć dziesiątki tysięcy żądań.

Analiza eksperymentu symulacyjnego Ataki DDoS Narzędzie LOIC wykazało również gwałtowny wzrost liczby aktywnych wątków wraz ze wzrostem przesyłanego ruchu. Narzędzie wysyła dane równolegle do różnych portów docelowych, tworząc w ten sposób duża liczba krótkie strumienie trwające do minuty (patrz ryc. 1.18). Trójkąty przedstawiają stany sieci zarejestrowane podczas ataku.


Rysunek 1.18 – Atak DDoS

Stało się zatem oczywiste, że za pomocą protokołu NetFlow można zidentyfikować nie tylko moment rozpoczęcia ataku, ale także określić jego typ. Szczegółowy opis algorytmy wykrywania ataków oraz prace nad stworzeniem bezpiecznego hostingu znajdziesz w kolejnych rozdziałach.

Literatura

1. Bolla R., Bruschi R. Ocena wydajności i wewnętrzne pomiary RFC 2544 dla otwartego routera opartego na systemie Linux //High Performance Switching and Routing, 2006 Warsztaty nt. – IEEE, 2006. – s. 6 s.

2. Fraleigh C. i in. Pomiary ruchu na poziomie pakietów w sieci szkieletowej Sprint IP //IEEE. – 2003. – T. 17. – Nr. 6. – s. 6-16.

3. Park K., Kim G., Crovella M. O związku między rozmiarami plików, protokołami transportowymi i samopodobnym ruchem sieciowym //Protokoły sieciowe, 1996. Proceedings., 1996 Międzynarodowa konferencja nt. – IEEE, 1996. – s. 171-180.

4. Fred S. B. i in. Statystyczny podział przepustowości: badanie zatorów na poziomie przepływu //ACM SIGCOMM Computer Communication Review. – ACM, 2001. – T. 31. – Nr. 4. – s. 111-122.

5. Barakat C. i in. Model przepływowy ruchu szkieletowego Internetu //Materiały z 2. warsztatów ACM SIGCOMM na temat pomiarów Internetu. – ACM, 2002. – s. 35-47.

6. Sukhov A. M. i in. Aktywne przepływy w diagnostyce rozwiązywania problemów na łączach szkieletowych //Journal of High Speed ​​​​Networks. – 2011. – T. 18. – Nr. 1. – s. 69-81.

7. Skanowanie sieci Lyon G. F. Nmap: Oficjalny przewodnik projektu Nmap dotyczący wykrywania sieci i skanowania bezpieczeństwa. – Niepewnie, 2009.

8. Haag P. Obserwuj swoje przepływy dzięki NfSen i NFDUMP //50. spotkanie RIPE. – 2005.

Rozkłady rang do określania wartości progowych zmiennych sieciowych i analizowania ataków DDoS

Wstęp

Wykładniczemu wzrostowi ruchu internetowego i liczby źródeł informacji towarzyszy szybki wzrost liczby nietypowych warunków sieciowych. Anomalne warunki sieciowe można wytłumaczyć zarówno czynnikami sztucznymi, jak i ludzkimi. Rozpoznanie stanów anomalnych wywołanych przez atakujących jest dość trudne ze względu na fakt, że imitują oni działania zwykli użytkownicy. Dlatego takie anomalne warunki są niezwykle trudne do zidentyfikowania i zablokowania. Zadania zapewnienia niezawodności i bezpieczeństwa usług internetowych wymagają badania zachowań użytkowników na konkretnym zasobie.

W artykule omówiona zostanie identyfikacja anomalnych warunków sieciowych oraz metody przeciwdziałania atakom DDoS. (Distributed Denial of Service, rozproszony atak typu „odmowa usługi”) to rodzaj ataku, w którym pewna liczba komputerów w Internecie zwanych „zombie”, „botami” lub siecią botów (botnetem) na polecenie atakującego zaczyna wysyłać prośby o usługę od ofiary. Kiedy liczba żądań przekracza pojemność serwerów ofiary, nowe żądania od prawdziwych użytkowników nie są już obsługiwane i stają się niedostępne. W takim przypadku ofiara ponosi straty finansowe.

W badaniach opisanych w tym rozdziale podręcznika zastosowano jednolite podejście matematyczne. Zidentyfikowano szereg najważniejszych zmiennych sieciowych, które generowane są przez zewnętrzny pojedynczy adres IP podczas dostępu do danego serwera lub lokalna sieć. Do takich zmiennych należą: częstotliwość dostępu do serwera www (na danym porcie), liczba aktywnych wątków, ilość przychodzącego ruchu TCP, UDP i ICMP itp. Zbudowana infrastruktura umożliwiła pomiar wartości powyższych zmiennych sieciowych.

Po znalezieniu tych wartości dla analizowanych zmiennych w dowolnym momencie należy skonstruować rozkład rang. Aby to zrobić, znalezione wartości są ułożone w kolejności malejącej. Analiza stanów sieci zostanie przeprowadzona poprzez porównanie odpowiednich rozkładów. Porównanie to jest szczególnie wyraźne, gdy na tym samym wykresie przedstawiono rozkłady stanu anomalnego i normalnego sieci. Takie podejście ułatwia określenie granicy pomiędzy normalnymi i anomalnymi stanami sieci.

Eksperymenty z atakiem DDoS na usługę można przeprowadzić z wykorzystaniem emulacji w warunkach laboratoryjnych. Jednocześnie wartość uzyskanych wyników jest znacznie mniejsza niż podczas ataku DDoS na uruchomioną usługę komercyjną, ponieważ emulator nie jest w stanie w pełni odtworzyć prawdziwej sieci komputerowej. Ponadto, aby w pełni zrozumieć zasady i metody ataku DDoS, konieczne jest doświadczenie z nim. W związku z tym autorzy anonimowo zgodzili się na przeprowadzenie prawdziwego ataku DDoS na specjalnie przygotowany serwis WWW. Podczas ataku rejestrowano ruch sieciowy i zbierano statystyki NetFlow. Badanie rozkładów rang dla liczby przepływów i różnych typów ruchu przychodzącego generowanego przez pojedynczy zewnętrzny adres IP, co umożliwiło wyznaczenie wartości progowych. Przekroczenie wartości progowych można uznać za oznakę atakującego węzła, co pozwala na wyciągnięcie wniosków na temat skuteczności metod wykrywania i przeciwdziałania.

1

1. Kudrin B.I. Wprowadzenie do technologii. – wyd. 2, poprawione, dodatkowe. – Tomsk: JST, 1993. – 552 s.

2. Matematyczny opis cenoz i praw techniki. Filozofia i kształtowanie się technologii / wyd. B.I. Kudrina // Badania cenologiczne. - Tom. 1-2. – Abakan: Centrum Badań Systemowych, 1996. – 452 s.

3. Gnatyuk V.I. Prawo optymalnej konstrukcji technocenoz: monografia. – Zagadnienie 29. Badania cenologiczne. – M.: Wydawnictwo TSU – Centrum Badań Systemowych, 2005. – 452 s. (http://www.baltnet.ru/~gnatukvi/ind.html).

4. Gurina R.V. Analiza rang systemów edukacyjnych (podejście cenologiczne): wytyczne dla pedagogów. – Wydanie 32. „Badania cenologiczne”. – M.: Tekhnetika, 2006. – 40 s. (http://www.gurinarv.ulsu.ru).

5. Gurina R.V., Dyatlova M.V., Khaibullov R.A. Analiza rang układów astrofizycznych i fizycznych // Nauka Kazańska. – 2010 r. – nr 2. – s. 8-11.

6. Gurina R.V., Lanin A.A. Granice stosowania prawa podziału rang // Technogeniczna samoorganizacja i matematyczny aparat badań cenologicznych. - Tom. 28. „Studia cenologiczne”. – M.: Centrum Badań Systemowych, 2005. –P. 429-437.

7. Khaibullov R.A. Analiza rankingowa systemów kosmicznych // Aktualności Państwowego Okręgu Administracyjnego w Pułkowie. Materiały z drugiej konferencji młodzieżowej w Pułkowie. – St. Petersburg, 2009. – Nr 219. – Zeszyt. 3. – s. 95-105.

8. Uchaikin M.V. Zastosowanie prawa podziału rang do obiektów Układu Słonecznego // Aktualności Państwowego Okręgu Administracyjnego w Pułkowie. Materiały z drugiej konferencji młodzieżowej w Pułkowie. – St. Petersburg, 2009. – Nr 219. – Zeszyt. 3. – s. 87-95.

Przez rozkład rang (RD) rozumie się rozkład uzyskany w wyniku procedury rankingowej sekwencji wartości parametrów przypisanych do rangi. Ranga r to liczba osób w kolejności w RR. Ranking to procedura porządkowania obiektów według stopnia ekspresji cechy w porządku malejącym tej cechy. Rzeczywisty RR można wyrazić różnymi zależnościami matematycznymi i mieć odpowiadający im wygląd graficzny, jednak najważniejsze są rozkłady rang hiperbolicznych (HRD), gdyż odzwierciedlają one znak „cenozy” – przynależności do zbioru uszeregowanych obiektów (elementów, osoby) do cenoz. Teorię cenoz w odniesieniu do wyrobów technicznych opracował profesor MPEI B.I. Kudrin ponad 30 lat temu (www kudrinbi.ru) i z sukcesem wdrożony w praktyce. Metody konstruowania eksploracji geologicznej i ich późniejsze wykorzystanie w celu optymalizacji cenozy stanowią główne znaczenie analizy rang (RA) (podejście cenologiczne), której treść i technologia wyznaczają nowy kierunek, który obiecuje świetne rezultaty praktyczne. Prawo hiperbolicznego rozkładu rang osobników w technocenozie (rozkład H) ma postać:

W = A / r β (1)

gdzie W jest parametrem rankingowym jednostek; r - numer rangi jednostki (1,2,3....); A jest maksymalną wartością parametru najlepszego osobnika o randze r = 1, tj. w pierwszym punkcie; β - współczynnik rangi charakteryzujący stopień stromości krzywej PP (dla technocenoz 0,5< β < 1,5 ).

Jeśli jakikolwiek parametr cenozy jest uszeregowany, wówczas PP nazywa się rankingiem parametrycznym. Podporządkowanie wspólnoty jednostek prawu rozwoju geologicznego (1) jest główną oznaką cenozy, ale nie jest ona wystarczająca. Oprócz tej cechy cenozy, w przeciwieństwie do innych społeczności, mają ogólne środowisko siedlisko, a jego obiekty objęte są walką o zasoby.

W I. Gnatyuk opracował metodę RA do optymalizacji technicznych systemów cenozy. Możliwości praktycznego wykorzystania RZS w pedagogice opisuje R.V. Gurina (http://www.gurinarv.ulsu.ru), a także opracowała metodologię jej zastosowania w tym obszarze. Liczba osobników w cenozie określa siłę populacji. Terminologia pochodzi z biologii, z teorii biocenoz. „Cenoza” to wspólnota. Termin biocenoza, wprowadzony przez Mobiusa (1877), stał się podstawą ekologii jako nauki. B.I. Kudrin przeniósł pojęcia „cenozy”, „jednostki”, „populacji”, „gatunku” z biologii na technologię: w technologii „jednostki” to indywidualne produkty techniczne, Specyfikacja techniczna, a duży zestaw produktów technicznych (jednostek), których RR wyraża prawo (1), nazywa się technocenoza.

W sfera społeczna„jednostki” to ludzie zorganizowani w grupy społeczne (klasy, grupy badawcze), wówczas siłą populacji jest liczba uczniów w danej grupie. Szkoła to także socjocenoza, składająca się z jednostek – poszczególnych jednostek strukturalnych – klas. Tutaj siła populacji to liczba klas w szkole. Cenozą o większej skali jest zespół szkół, gdzie indywidualną jednostką strukturalną tej cenozy jest szkoła. Parametry rankingowe W w technocenozach to parametry techniczne lub fizyczne charakteryzujące jednostkę, na przykład rozmiar, waga, zużycie energii, energia promieniowania itp. W socjocenozach, w szczególności pedagogicznych, ocenianymi parametrami są wyniki w nauce, ocena punktowa uczestników olimpiad lub testów; liczba studentów przyjętych na uniwersytety itd., a w rankingu oceniani są sami studenci, klasy, grupy badawcze, szkoły itd.

Badania przeprowadzone w ostatnich latach wykazały, że zbiory obiektów kosmicznych wielu układów (galaktyk, Układu Słonecznego, gromad galaktyk itp.) reprezentują cenozy (kosmocenozy, astrocenozy). Jednak astrocenozy różnią się od tenocenoz i socjocenoz tym, że człowiek nie może wpływać na ich stan, zmieniać ich i optymalizować. W przestrzeni obiekty są sztywno połączone ze sobą siłami grawitacyjnymi, które determinują ich zachowanie. Specyfika astrocenoz nie została do końca wyjaśniona, nie opracowano metody RA w odniesieniu do astrocenoz, co zadecydowało o celu pracy. Cel został podzielony na kilka zadań:

1. Badanie metody RA, określenie możliwości zastosowania metody RA do systemów astrofizycznych-cenoz (tj. w jakim stopniu RA ma zastosowanie do astrocenoz).

2. Opis krok po kroku zastosowanie metody RA do astrocenoz.

Po przestudiowaniu metodologii stosowania RA dla technocenoz zidentyfikowano jej wspólne (uniwersalne) elementy, które mają zastosowanie do wszystkich typów cenoz. Zatem metoda RA obejmuje następujące uniwersalne etapy procedury.

1. Identyfikacja cenozy – zbioru obiektów badanej zbiorowości (systemu).

2. Identyfikacja parametrów rankingowych. Takimi parametrami mogą być masa, rozmiar obiektów, koszt, niezawodność energetyczna, procent pierwiastków w składzie badanego obiektu, wyniki uczestników testu Unified State Exam itp.

3. Parametryczny opis cenozy. Utworzenie arkusza kalkulacyjnego (bazy danych) zawierającego usystematyzowane informacje o parametrach poszczególnych osobników cenozy.

4. Konstrukcja tabelarycznego RR. Tabelaryczne RR jest tabelą składającą się z dwóch kolumn: parametrów osobników W uporządkowanych według rangi oraz numeru rangi indywidualnego r (r = 1,2,3...). Pierwszą rangę zajmuje osoba z maksymalną wartością parametru, drugą pozycję zajmuje osoba z największą wartością parametru spośród innych osobników itd.

5. Konstrukcja graficznego empirycznego RR. Wykres empirycznej krzywej rankingu ma postać hiperboli: na osi odciętych naniesiono liczbę rangową r, a na osi rzędnych badany parametr W, rys. 1, a. Wszystkie dane pochodzą z tabelarycznego RR.

Ryż. 1. Hiperbola (a) i „rektyfikowana” zależność hiperboliczna w podwójnej skali logarytmicznej (b); B = lnA

6. Aproksymacja empirycznego RR. Aproksymacja i wyznaczanie parametrów PP odbywa się najczęściej za pomocą programów komputerowych, za ich pomocą wyznacza się przedział ufności, wyznacza parametry krzywej rozkładu A i B, a także wyznacza współczynnik regresji Re (lub Re2), pokazujący stopień zbliżenia hiperboli empirycznej do hiperboli teoretycznej. W tym przypadku rysowana jest idealna krzywa przybliżenia (i, jeśli to konieczne, po obu jej stronach - linie przedziału ufności).

7. Linearyzacja GR: konstrukcja empirycznego RR we współrzędnych logarytmicznych. Wyjaśnijmy proces linearyzacji zależności (1). Biorąc logarytm zależności (1) W = A / r β, otrzymujemy:

lnW = lnA - β ln r (2)

Wyznaczanie:

lnW = y; lnA = B = stała; ln r = x, (3)

otrzymujemy (2) w postaci:

y = B - β x. (4)

Równanie (4) jest malejącą funkcją liniową (ryc. 1, b). Tylko lnW jest wykreślane wzdłuż osi rzędnych, a lnr jest wykreślane wzdłuż osi odciętych. Aby skonstruować wykres liniowy, sporządzana jest tabela wartości empirycznych lnW i lnr, na podstawie której za pomocą programów komputerowych budowany jest wykres zależności lnW(lnr).

Ręcznie współczynnik β wyznacza się ze wzoru:

β = tan α = lnA: ln r,

współczynnik A wyznacza się z warunku: r = 1, W1= A.

8. Aproksymacja zależności empirycznej ln W (lnr) do zależności liniowej Y = B - β x.

Procedura ta jest również wykonywana przy użyciu programów komputerowych; Następnie następuje znalezienie parametrów β, A, wyznaczenie przedziału ufności, wyznaczenie współczynnika regresji Re (lub Re 2), wyrażającego stopień przybliżenia wykresu empirycznego ln W (ln r) do postaci liniowej. W tym przypadku pojawia się przybliżona linia prosta.

9. Optymalizacja cenoz (dla bio, - techno, - socjocenoz).

Procedura optymalizacji systemu (cenozy) polega na wspólnej pracy z rozkładami tabelarycznymi i graficznymi oraz porównaniu krzywej idealnej z rzeczywistą, po czym wyciąga się wniosek: co praktycznie należy zrobić w cenozie, aby punkty krzywa rzeczywista zwykle leży na krzywej idealnej. Im bardziej empiryczna krzywa rozkładu zbliża się do idealnej krzywej postaci (1), tym system jest bardziej stabilny. Na etap optymalizacji składają się następujące procedury (działania).

Część teoretyczna: wspólna praca z tabelarycznym i graficznym PP:

Znajdowanie punktów anomalnych i zniekształceń na wykresie;

Wyznaczanie ich współrzędnych i identyfikacja z osobnikami rzeczywistymi według tabelarycznego rozkładu;

Część praktyczna: praca z rzeczywistymi obiektami cenozy w celu jej ulepszenia:

Analiza przyczyn anomalii i poszukiwanie sposobów ich eliminacji (menedżerskie, ekonomiczne, produkcyjne itp.);

Eliminacja anomalii w prawdziwej cenozie.

Optymalizacja technocenoz według V.I. Gnatyuk odbywa się na dwa sposoby:

1. Optymalizacja nazewnictwa – ukierunkowana zmiana populacji cenozy, kierująca realny RR w formie do ideału (1). W stadzie biocenozy jest to wydalenie lub zniszczenie słabych jednostek, w kółko naukowe To odsiewanie słabszych, w technocenozie – pozbywanie się śmieci, zamienianie zużytego sprzętu na kategorię złomu.

2. Optymalizacja parametryczna – ukierunkowana poprawa parametrów poszczególnych osobników, doprowadzenie cenozy do bardziej stabilnego, wydajnego stanu. W cenozie pedagogicznej - grupie edukacyjnej (klasie) - pracuje się z uczniami osiągającymi słabe wyniki - poprawiając ich wskaźniki wydajności; w technocenozie - wymieniając stary sprzęt na ulepszone modele.

Jak stwierdzono powyżej, procedura optymalizacji 9 nie ma zastosowania do astrocenoz. Badając ich badania geologiczne, można jedynie wydobyć jedną lub drugą użyteczną informację naukową o stanie astrocenozy, poszerzając w ten sposób zrozumienie astronomicznego obrazu świata. Jaka jest natura odchyleń w rzeczywistych badaniach geologicznych obiektów cenoz astrofizycznych od idealnego rozkładu H i o czym świadczą? Na wykresach eksploracji geologicznej obiektów w układach astrocenoz stwierdzono dwa rodzaje zniekształceń:

I. Kilka punktów wypada z przedziału ufności GRR lub hiperbola jest zniekształcona (obecność „garbów”, „dolin”, „ogonów” (ryc. 2, a).

II. Ostre przerwanie logarytmicznej prostej lnW (lnr), dzielące ją na 2 odcinki (pod kątem do siebie lub z przesunięciem wzdłuż osi y).

Na ryc. 2, a, b - wykresy RR satelitów Satup z zniekształceniami pierwszego rodzaju.

Ze względu na niedoskonałość technologii pomiarowej lub metod pomiarów astronomicznych, wszystkich 62 satelitów Saturna, podaje się masy 19 satelitów i średnice 45 satelitów. Z wykresów wyraźnie widać, że w układzie o dużej liczbie osobników (ryc. 2, b) punkty empiryczne odzwierciedlające rozmiary satelitów lepiej układają się na prostej logarytmicznej, co wskazuje na bardziej adekwatną informację o kompletności systemu. Powyższe pozwala stwierdzić, że zastosowanie RA umożliwia przewidywanie obecności brakujących obiektów w układach kosmicznych.

Ryż. 2. Rozkład rang satelitów Saturna w podwójnej skali logarytmicznej ln W = f(ln r); r - numer rangi satelity; a) satelity RR 19 w oparciu o znane masy; b) Satelity RR w tym samym systemie z dużą liczbą osobników - 45 satelitów o znanych średnicach

Badając graficzne astrocenozy RR stwierdzono, że pierwszy rodzaj zniekształcenia może wskazywać, że:

Niektóre obiekty nie należą do tej astrocenozy (system, klasa);

Pomiary parametrów obiektów astrocenozowych nie są dokładne;

Nie ma wystarczających informacji na temat kompletności systemu astrofizycznego-cenozy. Jednocześnie niż bardziej kompletny system, tym większy współczynnik regresji.

Drugi rodzaj zniekształcenia wskazuje, co następuje.

Jeżeli na wykresie rektyfikacji następuje ostra przerwa, oznacza to, że system składa się z dwóch podsystemów. Podobny przypadek przedstawiają wykresy na ryc. 3, 4. Jednocześnie na wykresie W (r) ostrą przerwę tworzą dwie hiperbole „pełzające jedna na drugiej” (ryc. 3, a), a przerwa ta nie zawsze jest tak wyraźna jak w wykres w podwójnej skali logarytmicznej (ryc. 3 b, 4, b). Im mniejszy kąt pomiędzy zlinearyzowanymi segmentami na wykresie ln W (ln r), tym wyraźniejsze jest załamanie hiperboli na wykresie W (r).

Na ryc. 3, a, b przedstawiają wykresy rozkładu geometrycznego znanych galaktyk ze względu na odległość od naszego Układu Słonecznego (w sumie 40 obiektów).

Jeżeli na wykresie rektyfikacji następuje ostra przerwa, oznacza to, że system składa się z dwóch podsystemów. RA pozwala teoretycznie podzielić układ galaktyk na dwie klasy: peryferyjną (odległą) grupę galaktyk -1 i lokalną (bliską) grupę galaktyk - 2, co odpowiada astronomicznym danym klasyfikacyjnym.

Ryż. 3. Rozkład rang galaktyk według odległości od Układu Słonecznego, gdzie 1 to peryferyjna grupa galaktyk, gdzie Re=0,97; 2 - lokalna grupa galaktyk, Re=0,86; W to odległość Galaktyki, kpc; r - numer rangi galaktyki. W sumie jest 40 obiektów. a) Wykres W(r), Re=0,97; b) Wykres ln W= f(ln r), Re=0,86

Ryż. 4. Masy PP planet Układu Słonecznego (w masach Ziemi), gdzie grupa 1 - planety-olbrzymy (Jowisz, Saturn, Uran, Neptun); 2 - planety ziemskie; W jest masą planety, M; r - numer rangi planety. W sumie jest 8 obiektów; a) Wykres W(r), Re= 0,99; b) Wykres ln W= f(ln r), dla 1 - (planety-olbrzymy) Re = 0,86, dla 2 również - Re = 0,86

Jak wiecie z kursu astronomii, nasz układ planetarny składa się z 2 podsystemów: planet-olbrzymów i planet ziemskich. Na ryc. 4, a, b pokazuje geometryczny rozkład mas planet Układu Słonecznego. Należy pamiętać, że bezpośrednio na hiperbolicznych RR załamania mogą nie być wyraźnie widoczne i nie da się na nich zidentyfikować podukładów (ryc. 4, a), dlatego konieczne jest skonstruowanie RR w skali podwójnego logarytmicznej, na której załamania są wyraźnie widoczne wyrażone (ryc. 4, b).

Korzystanie z podręczników wielkości fizyczne i Internetu, przeprowadzono badania geologiczne innych astrocenoz, potwierdzając powyższe. Aproksymację przeprowadzono przy pomocy programu QtiPlot.

Zatem:

Metoda RA dla systemów cenoz jest rozważana i opisana krok po kroku przez analogię z technocenozami;

Określono specyfikę zastosowania RA do astrocenoz;

Możliwość zastosowania RA do badania układów-cenoz astrofizycznych została określona w następujących planach:

Identyfikacja podsystemów w systemach kosmicznych-cenozach; metoda polega na ustalaniu i badaniu załamań liniowych wykresów eksploracji geologicznej w podwójnej skali logarytmicznej;

Prognozowanie kompletności systemów astrofizycznych-cenoz;

Aby potwierdzić wyciągnięte wnioski, potrzebne są dalsze badania w tym kierunku.

Link bibliograficzny

Ustinova K.A., Kozyrev D.A., Gurina R.V. ANALIZA RANKOWA JAKO METODA BADAWCZA I MOŻLIWOŚĆ JEGO ZASTOSOWANIA W UKŁADACH ASTROFIZYCZNYCH // Międzynarodowy Studencki Biuletyn Naukowy. – 2015 r. – nr 3-4.;
Adres URL: http://eduherald.ru/ru/article/view?id=14114 (data dostępu: 26.12.2019). Zwracamy uwagę na czasopisma wydawane przez wydawnictwo „Akademia Nauk Przyrodniczych”

George Zipf empirycznie stwierdził, że częstotliwość używania N-tego najczęściej używanego słowa w językach naturalnych jest w przybliżeniu odwrotnie proporcjonalna do liczby N i został opisany przez autora w książce: Zipf GR, Zachowanie ludzkie i zasada najmniejszego wysiłku, 1949

„Odkrył, że najczęstszą rzeczą w język angielski Słowo („the”) jest używane dziesięć razy częściej niż dziesiąte najczęstsze słowo, 100 razy częściej niż 100. najczęściej używane słowo i 1000 razy częściej niż 1000. najczęściej używane słowo. Ponadto ujawniono, że ten sam schemat dotyczy udziału w rynku oprogramowanie, napojów bezalkoholowych, samochodów, słodyczy oraz za częstotliwość dostępu do stron internetowych. [...] Stało się jasne, że w niemal każdej dziedzinie działalności bycie numerem jeden jest znacznie lepsze niż bycie numerem trzy czy dziesięć. Co więcej, podział nagród nie jest równy, zwłaszcza w naszym świecie uwikłanym w rozmaite sieci. A w Internecie stawka jest jeszcze wyższa. Limity rynkowe zasięgu Priceline, eBay i Amazon 95% całkowitą kapitalizację rynkową wszystkich pozostałych obszarów e-biznes. Bez wątpienia zwycięzca otrzyma wiele.”

Seth Godin, Wirus Pomysłów? Epidemia! Spraw, aby klienci pracowali na Twoją sprzedaż, St. Petersburg, „Piotr”, 2005, s. 23. 28.

„Znaczenie tego zjawiska jest takie […] Zdolność uczestników twórczych do udziału w ukończonych pracach jest rozdzielana pomiędzy uczestników zgodnie z prawem: iloczyn liczby wystąpień przez rangę uczestnika (przez liczbę uczestników z tą samą częstotliwością występowania) jest wartością stałą : f r = Konst. […] Na liście rankingowej wszystkich uczestników kreatywnych, m.in w tym przypadku Słowem, ujawnia się właśnie właściwość nierównomiernego rozkładu zdolności migracyjnej, a wraz z nią wzór powiązania ilości i jakości w ogóle w działalności twórczej. […]

Oprócz źródeł literackich Zipf zbadał wiele innych zjawisk podejrzanych o rozkład rang - od rozmieszczenia ludności w miastach po rozmieszczenie narzędzi na stole warsztatowym stolarza, książek na stole i półce naukowca, wszędzie napotykając ten sam wzór.

Mimo wszystko Zipf ujawniono bliską dystrybucję Pareta w badaniu depozytów bankowych, przez Urquharta w analizie zapytań o literaturę, Taca w analizie autorskiej produktywności naukowców. Nawet bogowie Olimpu, z punktu widzenia ich obciążenia funkcjami generującymi i utrwalającymi umiejętności, zachowują się zgodnie z prawem Zipfa.

Poprzez wysiłki Cena i jego współpracowników, a później, dzięki wysiłkom wielu naukowców, stwierdzono, że prawo Zipf ma bezpośredni wpływ na ceny w nauce.

Cena przy tej okazji pisze: „Wszystkie dane związane z rozkładem takich cech jak stopień doskonałości, użyteczność, produktywność, wielkość podlegają kilku nieoczekiwanym, choć prostym wzorcom [...] Czy dokładny kształt tego rozkładu jest lognormalny czy geometryczny czy odwrotny do kwadratu czy podlega prawu Zipf, jest przedmiotem specyfikacji dla każdej indywidualnej branży. Wiemy tylko, że wystarczy stwierdzić sam fakt, że którekolwiek z tych praw dystrybucji daje wyniki zbliżone do empirycznych w każdej z badanych branż i że takie zjawisko wspólne dla wszystkich gałęzi przemysłu jest najwyraźniej wynikiem działania jednego prawa. Price D., Regularne wzorce w organizacji nauki, Organon, 1965, N 2., s. 25. 246».

Pietrow M.K. , Sztuka i nauka. Piraci z Morza Egejskiego i osobowość, M., „Rosyjska encyklopedia polityczna, 1995, s. 13–13. 153-154.

Oprócz, Jerzego Zipfa odkryli również, że najczęściej używane słowa w języku, który istnieje od dawna, są krótsze niż inne. Częste używanie spowodowało ich zużycie...