توزیع رتبه خبرنامه علمی دانشجویی بین المللی تحلیل رتبه به عنوان یک روش تحقیق

اولین چیزی که در حوزه اسناد توجه را به خود جلب می کند، رشد بسیار سریع جمعیت آن است.

این واقعیت شناخته شده ما را وادار می کند به طور جدی به این فکر کنیم که چنین رشدی می تواند منجر به چه چیزی شود. اما شاید ترس ما بیهوده باشد و در آینده سرعت رشد تعداد اسناد کند شود؟ تاکنون آمارها خلاف این را نشان می دهد.

به عنوان مثال، جریان اطلاعات اسنادی در شیمی اینگونه تغییر کرده است. در سال 1732 کل میراث شیمی توسط یک استاد هلندی در کتابی 1433 صفحه ای خلاصه و منتشر شد. در سال 1825 دانشمند سوئدی برزلیوس هر آنچه در شیمی شناخته شده بود را در 8 جلد با مجموع 4150 صفحه منتشر کرد. در حال حاضر، مجله انتزاعی آمریکایی Chemical Abstracts، که از سال 1907 منتشر می شود، تقریباً تمام اطلاعات مربوط به شیمی را منتشر می کند، با اولین میلیون چکیده 31 سال پس از تأسیس، دومی پس از 18 سال، سومی پس از 7 سال و چهارمی در 4 سال منتشر شده است. !

تقریباً همین الگوی رشد در تعداد اسناد را می توان در سایر حوزه های علم ردیابی کرد. مشاهده شده است که رشد اسناد به صورت تصاعدی است. در همان زمان، افزایش سالانه در جریان اطلاعات علمی و فنی 7...10 درصد است. در حال حاضر، هر 10 ... 15 سال حجم اطلاعات علمی و فنی (STI) دو برابر می شود.

y = Ae kt

جایی که y- مجموع دانش به ارث رسیده از نسل های گذشته، ه- پایه لگاریتم های طبیعی ( ه = 2,718...), تی- شاخص زمان (g)؛ آ– مجموع دانش در ابتدای شمارش معکوس (با تی = 0), ک- ضریب مشخص کننده سرعت دانش که معادل آن جریان اطلاعات علمی و فنی است. در تی≈ 10...15 سال در = 2آ.

به راحتی می توان تصور کرد که این نوع رشد در تعداد اسناد علمی برای ما در آینده، حتی در آینده نزدیک، نوید خوبی نخواهد داشت. جنگل ها به کوه های کاغذی تبدیل شده اند که محققی درمانده در آن غرق می شود...

با این حال، همانطور که تاریخ علم و فناوری نشان می دهد، شرایط توسعه آنها ثابت نیست و بنابراین مکانیسم رشد تصاعدی جریان های STI اغلب مختل می شود. این تخلف با تعدادی از عوامل بازدارنده، به ویژه جنگ، کمبود مواد و منابع انسانیو غیره. بنابراین در واقعیت، افزایش تعداد اسناد از وابستگی تصاعدی تبعیت نمی کند، اگرچه در دوره های خاصی از توسعه علم و فناوری در زمینه های معینی از دانش به وضوح خود را نشان می دهد. دلیل افزایش سریع جریان اطلاعات اسنادی چیست؟



در بخش های قبلی، ما به این واقعیت توجه کردیم که اطلاعات نقش بزرگی در توسعه بازی می کند جامعه بشریبنابراین با رشد سریع حجم اطلاعات همراه است. ارتفاع جریان های مستنداطلاعات علمی می تواند با افزایش تعداد سازندگان اطلاعات علمی همراه باشد. نرخ این رشد با یک تابع نمایی توصیف می شود. به عنوان مثال، در طول 50 سال گذشته، تعداد دانشمندان در اتحاد جماهیر شوروی هر 7 سال دو برابر شده است، در ایالات متحده آمریکا - هر 10 سال، در کشورهای اروپایی - هر 10 ... 15 سال.

البته، سرعت رشد تعداد کارکنان علمی باید کند شود و به مقدار کم و بیش ثابتی نسبت به کل جمعیت شاغل برسد. در غیر این صورت پس از مدتی کل جمعیت مشغول کار تحقیق و توسعه خواهند بود که غیرواقعی است. بنابراین باید منتظر کاهش سرعت رشد اسناد علمی در آینده باشیم. در حال حاضر، این نرخ ها هنوز بالاست و مصرف کنندگان اطلاعات را مضطرب می کند: چگونه اسناد را ذخیره و پردازش کنند، چگونه اسناد مورد نیاز خود را در میان آنها پیدا کنند؟

وضعیت ناامید کننده به نظر می رسد: قانون رشد تصاعدی اسناد که هنوز در قلمرو اسناد معتبر است، مشکلات "مسکن" و "حمل و نقل" در آن را به شدت تشدید کرده است.

با این حال، همانطور که مشخص است، در اینجا قانونی وجود دارد که تا حدودی وضعیت فعلی را نرم می کند ...

در پایان دهه 40 قرن ما، J. Zipf، با جمع آوری مطالب آماری عظیم، سعی کرد نشان دهد که توزیع کلمات در یک زبان طبیعی از یک قانون ساده پیروی می کند که می تواند فرموله شود. به روش زیر. اگر فهرستی از تمام کلمات یافت شده در یک متن به اندازه کافی بزرگ تهیه کنید، سپس این کلمات را به ترتیب نزولی فراوانی وقوع آنها در این متن مرتب کنید و آنها را به ترتیب از 1 (شماره سریال پرتکرارترین کلمه) تا شماره گذاری کنید. آر، سپس برای هر کلمه حاصل ضرب شماره سریال (رتبه) آن / در چنین لیستی و فراوانی وقوع آن در متن یک مقدار ثابت خواهد بود که تقریباً برای هر کلمه از این لیست مقدار یکسانی دارد. از نظر تحلیلی، قانون Zipf را می توان به صورت بیان کرد



fr = ج,

جایی که f- فراوانی وقوع یک کلمه در متن؛
r- رتبه (شماره ترتیبی) کلمه در لیست؛
با- مقدار ثابت تجربی

وابستگی حاصل به صورت گرافیکی با هذلولی بیان می شود. بنابراین، با بررسی طیف گسترده ای از متون و زبان ها،

از جمله زبان‌هایی که هزاران سال قدمت داشتند، J. Zipf وابستگی‌های مشخص‌شده را برای هر یک از آنها ساخت، در حالی که همه منحنی‌ها یک شکل داشتند - شکل یک پلکان هایپربولیک، یعنی. هنگام جایگزینی یک متن با متن دیگر شخصیت کلیتوزیع تغییر نکرد

قانون Zipf به صورت تجربی کشف شد. بعدها، بی. ماندلبرو توجیه نظری آن را مطرح کرد. او معتقد بود که زبان نوشتاری را می‌توان با کدگذاری مقایسه کرد و همه نشانه‌ها «ارزش» خاصی دارند. بر اساس الزامات حداقل هزینه پیام‌ها، ب. ماندلبروت از نظر ریاضی به رابطه‌ای شبیه به قانون Zipf رسید.

fr γ = ج ,

جایی که γ مقداری است (نزدیک به وحدت) که بسته به ویژگی های متن می تواند متفاوت باشد.

J. Zipf و سایر محققان دریافتند که نه تنها همه زبان‌های طبیعی جهان در معرض چنین توزیعی هستند، بلکه پدیده‌های دیگر با ماهیت اجتماعی و بیولوژیکی نیز تحت تأثیر قرار می‌گیرند: توزیع دانشمندان بر اساس تعداد مقالاتی که منتشر کرده‌اند (A. Lotka، 1926)، شهرهای ایالات متحده بر اساس جمعیت (J. Zipf، 1949)، جمعیت بر اساس درآمد در کشورهای سرمایه داری (V. Pareto، 1897)، جنس های بیولوژیکی بر اساس تعداد گونه ها (J. Willis، 1922) و غیره.

مهمترین مسئله برای مشکل مورد نظر ما این است که اسناد در هر شاخه دانشی طبق این قانون قابل توزیع است. مورد خاص آن قانون برادفورد است که مستقیماً نه به توزیع کلمات در متن، بلکه به توزیع اسناد در یک حوزه موضوعی خاص مرتبط است.

شیمی‌دان و کتاب‌شناس انگلیسی، اس. برادفورد، با بررسی مقالاتی در زمینه ژئوفیزیک کاربردی و روان‌کاری، متوجه شد که توزیع مجلات علمی حاوی مقاله‌هایی در مورد روغن‌کاری و مجلات حاوی مقالاتی در مورد ژئوفیزیک کاربردی بوده است. فرم کلی. بر اساس واقعیت ثابت شده، اس. برادفورد الگویی از توزیع نشریات در میان نشریات را تدوین کرد.

معنی اصلی الگو به شرح زیر است: اگر مجلات علمیترتیب به ترتیب نزولی تعداد مقالات توسط موضوع خاص، سپس مجلات موجود در لیست حاصل را می توان به سه منطقه تقسیم کرد تا تعداد مقالات در هر منطقه در یک موضوع معین یکسان باشد. در عین حال، منطقه اول، به اصطلاح منطقه مرکزی، شامل مجلات تخصصی است که مستقیماً به موضوع مورد بررسی اختصاص دارد. تعداد مجلات تخصصی در حوزه اصلی کم است. منطقه دوم توسط مجلاتی تشکیل می شود که تا حدی به یک منطقه اختصاص داده شده است و تعداد آنها در مقایسه با تعداد مجلات در هسته به طور قابل توجهی افزایش می یابد. منطقه سوم، بزرگترین منطقه از نظر تعداد انتشارات، مجلاتی را که موضوعات آنها بسیار دور از موضوع مورد بررسی است، متحد می کند.

بنابراین، با تعداد مساوی از انتشارات در مورد یک موضوع خاص در هر منطقه، تعداد عناوین مجلات هنگام انتقال از یک منطقه به منطقه دیگر به شدت افزایش می یابد. اس. بردفورد دریافت که تعداد مجلات در منطقه سوم تقریباً چند برابر بیشتر از منطقه دوم خواهد بود، چند برابر تعداد عناوین منطقه دوم بیشتر از منطقه اول است. بیایید نشان دهیم آر 1 - تعداد مجلات در منطقه 1، آر 2 - در دوم، آر 3 - تعداد مجلات در منطقه 3.

اگر آ– نسبت تعداد مجلات در منطقه 2 به تعداد مجلات در منطقه 1، سپس الگوی کشف شده توسط S. Bradford را می توان به صورت زیر نوشت:

پ 1: پ 2: پ 3 = 1: آ : آ 2

پ 3: پ 2 = پ 2: پ 1 = آ.

این رابطه را قانون برادفورد می نامند.

ب. ویکری مدل S. Bradford را اصلاح کرد. او متوجه شد که مجلاتی که به ترتیب نزولی مقالات در یک موضوع خاص رتبه بندی می شوند، می توانند نه به سه منطقه، بلکه به تعداد دلخواه منطقه تقسیم شوند. اگر نشریات ادواری به ترتیب کاهش تعداد مقالات در مورد یک موضوع خاص مرتب شوند، در فهرست حاصل می توان تعدادی منطقه را متمایز کرد که هر کدام شامل تعداد مقالات مشابهی است. ما نماد زیر را می پذیریم ایکس- تعداد مقالات در هر منطقه T x- تعداد مجلات حاوی ایکسمقالات، تی 2ایکس- تعداد لاگ های حاوی 2 ایکسمقالات، یعنی مجموع عناوین مجلات در ناحیه 1 و 2، تی 3ایکس- تعداد لاگ های حاوی 3 ایکسمقالات، یعنی مجموع عناوین مجلات در مناطق 1، 2 و 3، تی 4ایکس- تعداد لاگ های حاوی 4 ایکسمقالات

سپس این الگو به نظر می رسد

T x : تی 2ایکس : تی 3ایکس : تی 4ایکس : ... = 1: آ : آ 2: آ 3: ...

این عبارت قانون برادفورد نامیده می شود که توسط B. Vickery تفسیر شده است.

اگر قانون Zipf بسیاری از پدیده‌های دارای ماهیت اجتماعی و زیستی را مشخص می‌کند، پس قانون برادفورد یک مورد خاص از توزیع Zipf برای سیستم نشریات ادواری علم و فناوری است.

از این الگوها می توان نتیجه گیری هایی با سود عملی عظیم گرفت.

بنابراین، اگر هر نشریه‌ای را به ترتیب نزولی به تعداد مقاله‌ها در یک نمایه خاص مرتب کنید، طبق گفته برادفورد، می‌توان آنها را به سه گروه شامل تعداد مساوی مقاله تقسیم کرد. اجازه دهید گروهی متشکل از 8 عنوان مجلات را انتخاب کنیم که 8 مکان اول در لیست حاصل را اشغال می کنند. سپس، برای دوبرابر کردن تعداد مقالات در نمایه مورد نظر، باید 8 مقاله دیگر را به 8 مورد موجود اضافه کنیم. آعناوین مجلات اگر آ= 5 (این مقدار به صورت تجربی برای برخی از حوزه های موضوعی پیدا شد)، پس تعداد این عنوان ها 40 عنوان است. سپس تعداد کل عنوان های نشریات 48 خواهد بود که البته به طور قابل توجهی بیشتر از 8 است. اگر سعی کنیم سه برابر تعداد مقالات دریافت کنید، ما باید قبلاً 8 + 5 · 8 + 5 2 · 8 = 256 مورد را پوشش دهیم! از این تعداد، یک سوم از مقالات مورد علاقه ما تنها در 8 مجله متمرکز شده است، یعنی. مقالات به طور نابرابر در عناوین مجلات توزیع می شوند. از یک سو، تمرکز تعداد قابل توجهی از مقالات در مورد یک موضوع خاص در چندین مجله تخصصی وجود دارد، از سوی دیگر، پراکندگی این مقالات در تعداد زیادیانتشارات مربوط به موضوعات مرتبط یا دور از موضوع مورد بررسی، در حالی که در عمل لازم است منابع اصلی در حوزه دانش علمی و فنی مورد علاقه ما شناسایی شود و نه انتشارات تصادفی.

الگوهای تمرکز و پراکندگی اطلاعات علمی و فنی در قلمرو اسناد این امکان را فراهم می کند که دقیقاً آن دسته از انتشاراتی را انتخاب کنید که به احتمال زیاد حاوی انتشاراتی هستند که با مشخصات معینی از دانش مطابقت دارند. در یک فرآیند انبوه پشتیبانی اطلاعاتدر مقیاس ملی، استفاده از این قوانین کاهش هزینه های کلان برای اقتصاد ملی را ممکن می سازد.

پراکندگی کنونی نشریات را نمی توان تنها به عنوان یک پدیده مضر ارزیابی کرد. در یک محیط پراکنده، فرصت ها برای تبادل اطلاعات بین صنعتی بهبود می یابد.

تلاش برای متمرکز کردن تمام انتشارات یک نمایه در چندین مجله، به عنوان مثال. جلوگیری از پراکندگی آنها عواقب منفی به همراه خواهد داشت، بدون ذکر این واقعیت که تخصیص دقیق یک سند به یک یا آن نمایه همیشه امکان پذیر نیست.

نتایج آزمایش‌های قانون پراکندگی برادفورد، همانطور که توسط S. Brooks نشان داده شده است، درجات مختلفی از توافق دارند. با وجود اصلاحات انجام شده، مدل برادفورد تنوع توزیع های واقعی را منعکس نمی کند. این اختلاف را می توان با این واقعیت توضیح داد که برادفورد نتیجه گیری های خود را بر اساس انتخاب آرایه های مربوط به حوزه های موضوعی محدود انجام داد.

شایستگی بزرگ J. Zipf و S. Bradford این است که آنها مطالعه دقیق جریان های اطلاعات اسنادی (DIF) را آغاز کردند، که مجموعه ای از اسناد علمی، انتشارات و مطالب منتشر نشده (به عنوان مثال، گزارش های مربوط به کار تحقیق و توسعه) است. تحقیقات بیشتر، که در میان آنها جایگاه برجسته ای را کار متخصص شوروی در زمینه علوم کامپیوتر V.I. گورکوا، نشان داد که می توان نه تنها پارامترهای کمی مجموعه اسناد علمی، بلکه مجموعه ای از عناصر ویژگی های اسناد علمی را تعیین کرد: نویسندگان، اصطلاحات، شاخص های سیستم های طبقه بندی، عناوین انتشارات، به عنوان مثال. نام عناصر مشخص کننده محتوای اسناد علمی. به عنوان مثال، می توانید مجلات را به ترتیب نزولی بر اساس تعداد نویسندگان منتشر شده در آنها، به ترتیب نزولی از اندازه متوسط ​​مقالات منتشر شده در آنها ترتیب دهید یا مجموعه ای از اسناد را بر اساس هر یک از عناصر آن سفارش دهید.

ترتیب با رتبه بندی (ترتیب قرار دادن) نام عناصر با توجه به دفعات وقوع آنها به ترتیب نزولی تعیین می شود. به چنین مجموعه ای از نام عناصر، توزیع رتبه ای گفته می شود. توزیع هایی که Zipf زمانی مورد مطالعه قرار داده است نمونه های معمولیتوزیع های رتبه ای معلوم شد که نوع توزیع رتبه و ساختار آن مجموعه اسنادی را مشخص می کند که توزیع رتبه ای معین به آنها تعلق دارد. مشخص شد که هنگام ساخت، توزیع های رتبه ای در اکثر موارد شکل قانون Zipf با تصحیح ماندلبروت را دارند:

fr γ = ج.

در این حالت ضریب γ یک مقدار متغیر است. ثبات ضریب γ تنها در بخش میانی نمودار توزیع حفظ می شود. اگر نمودار الگوی فوق در مختصات لگاریتمی رسم شود، این بخش به شکل یک خط مستقیم در می آید. بخش توزیع با γ = پایانمنطقه مرکزی توزیع رتبه نامیده می شود (مقدار آرگومان در این ناحیه متفاوت است ورودی 1، تا ورودی 2). مقادیر آرگومان از 0 تا ورودی 1 مربوط به منطقه هسته توزیع رتبه و مقادیر آرگومان از آن است ورودی 2 به ورودی 3 - به اصطلاح منطقه بریدن.

منظور از وجود سه ناحیه به وضوح قابل تشخیص از توزیع رتبه چیست؟ اگر دومی به اصطلاحاتی اشاره می کند که هر حوزه دانشی را تشکیل می دهند، منطقه هسته ای یا منطقه هسته توزیع رتبه شامل متداول ترین اصطلاحات علمی عمومی است. منطقه مرکزی شامل اصطلاحاتی است که بیشتر مشخصه یک حوزه معین از دانش است، که در مجموع ویژگی آن، تفاوت آن با سایر علوم را بیان می کند و «محتوای اصلی آن را در بر می گیرد». منطقه برش شامل اصطلاحاتی است که نسبتاً به ندرت در این زمینه دانش استفاده می شود.

بنابراین، اساس واژگان هر رشته دانش در منطقه مرکزی توزیع رتبه متمرکز است. با استفاده از اصطلاحات منطقه هسته‌ای، این حوزه دانش «به حوزه‌های کلی‌تر دانش می‌پیوندد» و منطقه کوتاه‌سازی نقش یک آوانگارد را ایفا می‌کند، گویی «به دنبال ارتباط با سایر شاخه‌های علم» است. بنابراین، اگر چند سال پیش در توزیع رتبه بندی اصطلاحات در حوزه موضوعی "فرآوری فلزات" اصطلاح "لیزر" یافت می شد، پس به دلیل وجود کم آن مطمئناً در منطقه برش قرار می گرفت: ارتباطات بین فناوری لیزر و فرآوری فلزات فقط در حال "دست زدن" بودند. با این حال، امروزه این اصطلاح، بدون شک، در منطقه مرکزی قرار می گیرد، که نشان دهنده وقوع نسبتاً زیاد آن و بنابراین، اتصال پایدار فناوری لیزر با پردازش فلز است.

نمودار توزیع رتبه پر است معنی عمیق: گذشته از همه اینها اندازه نسبیاز یک منطقه خاص در نمودار می توان برای قضاوت در مورد ویژگی های کل حوزه دانش استفاده کرد. یک نمودار با یک ناحیه هسته بزرگ و یک منطقه برش کوچک به یک ناحیه نسبتاً وسیع و به احتمال زیاد محافظه کارانه از دانش تعلق دارد. شاخه های پویا علم با افزایش ناحیه برش مشخص می شوند. اندازه کوچک منطقه هسته ای ممکن است نشان دهنده اصالت حوزه دانشی باشد که توزیع رتبه ساخته شده به آن تعلق دارد و غیره. بنابراین، بر اساس تجزیه و تحلیل توزیع رتبه، مشخص شد که می توان ارزیابی های کیفی جریان اطلاعات اسنادی را مطابق با شاخه های علمی که در آن شکل گرفته اند ارائه داد. پادشاهی اسناد شکل سیستمی به خود می گیرد که در آن عناصر به هم پیوسته اند و می توان الگوهای حاکم بر این ارتباطات را مطالعه کرد!

چگونه اطلاعات پیر می شوند ...

پیری... معنای این مفهوم نیاز به توضیح ندارد، برای همه شناخته شده است. سیاره ما در حال پیر شدن است و درختان در حال پیر شدن هستند. اشیا و افرادی که مالک آنها هستند پیر می شوند. اسناد نیز قدیمی می شوند. صفحات کتاب زرد می شوند، حروف محو می شوند، جلدها از بین می روند. اما این چی هست؟ دانش آموزی که کتابی را که در کتابخانه به او پیشنهاد شده است رد می کند، با تحقیر اظهار می کند: "از قبل منسوخ شده است!"، اگرچه کتاب هنوز کاملاً جدید به نظر می رسد! البته در اینجا هیچ رازی وجود ندارد. کتاب جدید است، اما اطلاعات موجود در آن ممکن است قدیمی باشد. در رابطه با اسناد، پیری نه به عنوان پیری فیزیکی حامل اطلاعات، بلکه به عنوان یک فرآیند نسبتاً پیچیده پیری اطلاعات موجود در آن درک می شود. از نظر بیرونی، این فرآیند با از دست دادن علاقه دانشمندان و متخصصان به نشریات، با افزایش زمان سپری شده از انتشار آنها، خود را نشان می دهد. همانطور که یک بررسی از 17 کتابخانه انجام شده توسط یکی از نهادهای اطلاعاتی صنعت نشان داد، 62% بازدیدها برای مجلات کمتر از 1.5 سال بوده است. 31% درخواست ها مربوط به مجلات 1.5...5 ساله است. 6٪ - برای مجلات 6 تا 10 سال؛ 7٪ - برای مجلات بیش از 10 سال. نشریاتی که نسبتاً مدت‌ها پیش منتشر شده‌اند بسیار کمتر مورد مراجعه قرار می‌گیرند، که این ادعا را به وجود می‌آورد که قدیمی هستند. چه مکانیزم هایی روند پیری اسناد را کنترل می کنند؟

یکی از آنها به طور مستقیم با تجمع، تجمیع اطلاعات علمی مرتبط است. اغلب، مطالبی که صد سال پیش برای ارائه به یک دوره کامل سخنرانی نیاز داشت، اکنون در چند دقیقه با استفاده از دو یا سه فرمول قابل توضیح است. دوره های سخنرانی مربوطه به طرز ناامیدکننده ای منسوخ شده اند: هیچ کس دیگر از آنها استفاده نمی کند.

هنگامی که اطلاعات دقیق تر به دست می آیند، داده های تقریبی و در نتیجه اسنادی که در آنها منتشر شده اند، قدیمی می شوند. بنابراین، هنگامی که آنها در مورد پیر شدن اطلاعات علمی صحبت می کنند، بیشتر به معنای روشن شدن آن، ارائه دقیق تر، مختصرتر و کلی تر در فرآیند ایجاد اطلاعات علمی جدید است. این امر به دلیل این واقعیت امکان پذیر است که اطلاعات علمی دارای خاصیت تجمعی هستند، یعنی. ارائه مختصر تر و کلی تر را امکان پذیر می کند.

گاهی اوقات پیر شدن اطلاعات اسنادی مکانیسم دیگری نیز دارد: شیئی که شرح آن را داریم، در طول زمان چنان تغییر می کند که اطلاعات مربوط به آن نادرست می شود. اینطوری پیر می شوند نقشه های جغرافیایی: مراتع جای بیابان ها را می گیرد، شهرها و دریاهای جدید پدیدار می شوند.

فرآیند پیری همچنین می تواند به عنوان از دست دادن اطلاعات مفید عملی برای مصرف کننده تلقی شود. یعنی دیگر نمی تواند از آن برای رسیدن به اهدافش استفاده کند.

و در نهایت، این فرآیند را می توان از منظر تغییرات در اصطلاحنامه افراد در نظر گرفت. از این موقعیت‌ها، همان اطلاعات می‌تواند برای یک فرد "منسوخ" و برای دیگری "منسوخ نشده" باشد.

درجه پیری اطلاعات اسنادی برای یکسان نیست انواع متفاوتاسناد. سرعت پیری آن به درجات مختلفی تحت تأثیر عوامل بسیاری قرار دارد. ویژگی های پیری اطلاعات در هر زمینه از علم و فناوری را نمی توان بر اساس ملاحظات انتزاعی یا میانگین داده های آماری استنباط کرد - آنها به طور ارگانیک با روند توسعه هر یک مرتبط هستند. صنعت جداگانهعلم و تکنولوژی.

به منظور کمی کردن میزان پیری اطلاعات، کتابدار R. Barton و R. Kebler فیزیکدان از ایالات متحده، به قیاس با نیمه عمر مواد رادیواکتیو، "نیمه عمر" مقالات علمی را معرفی کردند. نیمه عمر زمانی است که در طی آن نیمی از ادبیات مورد استفاده در حال حاضر در هر زمینه یا موضوعی منتشر شده است. اگر نیمه عمر انتشارات در فیزیک 4.6 سال باشد، این بدان معناست که 50٪ از کل انتشارات مورد استفاده (استناد شده) در حال حاضر در این زمینه بیش از 4.6 سال سن ندارند. در اینجا نتایج به دست آمده توسط بارتون و کبلر آمده است: برای انتشارات در فیزیک - 4.6 سال، فیزیولوژی - 7.2، شیمی - 8.1، گیاه شناسی - 10.0، ریاضیات - 10.5، زمین شناسی - 11.8 سال. با این حال، اگرچه ویژگی پیری اطلاعات ماهیتی عینی دارد، اما روند درونی توسعه یک حوزه معین از دانش را آشکار نمی کند و ماهیت آن توصیفی است. بنابراین، نتیجه گیری در مورد پیری اطلاعات باید بسیار با دقت رفتار شود.

با این وجود، حتی یک تخمین تقریبی از میزان کهنه شدن اطلاعات و اسناد حاوی آن، ارزش عملی بسیار زیادی دارد: کمک می‌کند تنها بخشی از قلمرو اسناد را در نظر بگیریم که به احتمال زیاد، اسنادی حاوی اطلاعات اولیه در مورد یک موضوع خاص در آن وجود دارد. علوم پایه. این نه تنها برای کارمندان کتابخانه های علمی و فنی و نهادهای اطلاعات علمی و فنی، بلکه برای خود مصرف کنندگان NTI نیز مهم است.

راه حل اتوماسیون؟

برای مدل سازی ساختار مصرف برق یک شرکت از توزیع های رتبه ای و برای مدل سازی ساختار تجهیزات الکتریکی نصب شده و تعمیر شده از توزیع های نوع استفاده می شود.


توزیع های رتبه ای توزیع های رتبه ای شامل توزیع هایی است که ویژگی اصلی آنها ظرفیت الکتریکی انواع محصولات است.

توزیع ظرفیت های الکتریکی انواع محصولات تولید شده در یک شرکت خاص به توزیع رتبه ای اشاره دارد. پارامتر توزیع رتبه، ضریب رتبه است. می توانید منحنی های توزیع رتبه را بدست آورید و ضرایب رتبه بندی را برای دوره های گزارش (بر اساس سه ماهه، نیم سال یا سال) تعیین کنید. اگر ضریب رتبه بندی در طول زمان ثابت بماند، به این معنی است که ساختار محصولات و ساختار مصرف برق در طول زمان تغییر نمی کند. افزایش ضریب رتبه‌بندی نشان می‌دهد که طی سال‌ها این شرکت تنوع محصولات تولیدی و تفاوت هزینه‌های انرژی برای تولید انواع مختلف را افزایش داده است.

اگر برای هر نوع محصول تولید چند محصولی، ظرفیت الکتریکی را به عنوان نسبت مصرف برق سالانه به حجم خروجی این نوع محاسبه کنیم، برای کل شرکت، این مقادیر تابع توزیع رتبه ای است. . پارامترهای به‌دست‌آمده از توزیع رتبه در طول سال‌ها تمایل نسبتاً پایداری برای افزایش دارند. افزایش ضریب رتبه‌بندی نشان می‌دهد که تنوع محصولات تولید شده در شرکت و تفاوت هزینه‌های انرژی برای تولید انواع مختلف در طول سال‌ها در حال افزایش است.

مجموعه منحنی های توزیع رتبه یک سطح را نشان می دهد. تجزیه و تحلیل دینامیک ساختاری و توپولوژیکی (مسیر حرکت یک فرد در امتداد منحنی توزیع رتبه) در این سطح یک سری زمانی از ظرفیت الکتریکی هر نوع محصول مورد مطالعه را ارائه می دهد که از نقطه نظر امکان مورد توجه است. پیش بینی پارامترهای مصرف برق می توان نتیجه گرفت که بین مصرف برق سالانه یک تولید چند محصولی، ساختار محصولات تولیدی و تنوع محصولات تولید شده همبستگی قوی وجود دارد.

ساختار تجهیزات نصب شده و تعمیر شده. توزیع رتبه و گونه

کدام توزیع ها به عنوان رتبه بندی طبقه بندی می شوند

گزینه 2 (با بیش از 20 گزینه). در مرحله اول، پاسخ دهنده گزینه های پیشنهادی را به دو یا سه گروه تقسیم می کند: 1 - مناسب، 2 - نامناسب، گروه سوم ممکن است شامل گزینه هایی باشد که پاسخ دهنده به سختی می تواند آنها را به گروه های دیگر طبقه بندی کند. اگر در طول اولین توزیع، بیش از 10-12 موقعیت در گروه مناسب باقی بماند، از پاسخ دهنده خواسته می شود که این گروه را دوباره بر اساس اصل دقیقاً مناسب - احتمالاً مناسب تقسیم کند. پس از شناسایی گزینه های مناسب، پاسخ دهنده باید یک رتبه بندی مستقیم انجام دهد و گزینه ها را از بهترین به بدترین مرتب کند. مطابق با نتایج انتخاب، مقادیر رتبه به هر پاسخ دهنده ترجیحاً به ترتیب معکوس اختصاص داده می شود (بهترین مقدار 10، بعدی 9، بدترین آن 1 است؛ با بیش از 10 انتخابات، آخرین انتخابات همه اختصاص داده می شود. مقدار 1

همانطور که قبلا ذکر شد، شاخص های رتبه برای مشخص کردن شکل توزیع یک سری تغییرات استفاده می شود. منظور ما چنین واحدهایی از آرایه مورد مطالعه است که مکان مشخصی را در سری تغییرات (مثلاً دهم، بیستم و غیره) اشغال می کنند. به آنها کوانتیل یا گرادیان می گویند. کوانتیل ها به نوبه خود تقسیم بندی می شوند

چرا آمار رتبه دان (dt) برای آزمایش کنتراست ها (به معادله (41) مراجعه کنید) به جای آزمون - به جداول توزیع نرمال نیاز دارد.

روش های ناپارامتریک روش‌های آماری ناپارامتریک، بر خلاف روش‌های پارامتریک، مبتنی بر هیچ فرضی در مورد قوانین توزیع داده‌ها نیستند. ضریب همبستگی رتبه اسپیرمن و ضریب همبستگی رتبه کندال اغلب به عنوان معیارهای ناپارامتریک برای رابطه متغیرها استفاده می شود.

هیستوگرام یک نمایش گرافیکی از توزیع های آماری هر کمیت بر اساس یک مشخصه کمی است. ساختن یک هیستوگرام (gr. histos - پارچه) از بالا، ترسیم عوامل مربوطه در امتداد محور آبسیسا، و مجموع رتبه آنها در امتداد محور مختصات راحت است. یک هیستوگرام می تواند کاهش ها را نشان دهد که بر اساس آن توصیه می شود عوامل را بر اساس میزان تأثیر آنها بر شاخص مورد مطالعه گروه بندی کنید.

ایده های سنولوژیکی ارائه شده می تواند به عنوان مبنایی برای تغییر سازماندهی سیستم IF 111 در یک شرکت صنعتی (در کارگاه) مورد استفاده قرار گیرد. در این مورد، این توزیع نوع تجهیزات الکتریکی نصب شده نیست که استفاده می شود، بلکه نمایش کل لیست، به عنوان مثال، ماشین های الکتریکی به شکل توزیع H بر اساس پارامتر است. این کار به صورت زیر انجام می شود. کل مجموعه ماشین های نصب شده با توجه به اهمیت (اهمیت) آنها در یک فرآیند فنی یا دیگر رتبه بندی می شود. به هر وسیله نقلیه رتبه (شماره) مخصوص به خود اختصاص داده می شود. رتبه اول به ماشینی اختصاص می یابد که بیشتر فرآیند تولید را تعیین می کند. دومی برای ماشین آلات بعدی و غیره است، به طوری که آخرین رتبه ها به ماشین هایی می رسد که خرابی آنها تأثیری بر تولید و سایر فعالیت های شرکت ندارد یا بهتر بگوییم تأثیر بسیار کمی دارد. عملیات تخصیص یک رتبه به دقت خاصی نیاز ندارد، بنابراین یک ماشین معین می تواند در یک مکان کمی متفاوت در لیست رتبه بندی معین قرار بگیرد.

اجازه دهید از واقعیت x2 (12) - توزیع متغیر تصادفی m (n - 1) W (m) استفاده کنیم که تقریباً رخ می دهد) در موردی که هیچ رابطه رتبه ای چندگانه در جامعه مورد مطالعه وجود ندارد. سپس این معیار به بررسی نابرابری (2.18) کاهش می یابد. با تنظیم سطح معنی داری معیار a = 0.05، از جدول پیدا می کنیم. A.4 مقدار نقطه 5% توزیع x2 با 12 درجه آزادی X OB (12) = 21.026. در همان زمان، t (n - I) W (t) = - 28-12-0.08 - 27.

اول از همه، دوباره توجه داشته باشید که توزیع فرکانس همیشه متقارن است. داده های جدول 6.9 نشان می دهد که بر این اساس، تقارن فرکانس ها منعکس کننده تقارن تعیین کمی ضریب همبستگی رتبه بر اساس وارونگی های Kinv است. ضرایب همبستگی اسپیرمن (p) و کندال (T). این روش‌ها نه تنها برای شاخص‌های کیفی، بلکه برای شاخص‌های کمی، به ویژه با اندازه جمعیت کوچک، قابل استفاده هستند، زیرا روش‌های همبستگی رتبه‌ای غیر پارامتری با هیچ محدودیتی در مورد ماهیت توزیع مشخصه همراه نیستند.

پس از به دست آوردن دنباله ای از توزیع های ft (P)، وظیفه مطالعه روند انتقال بین آنها، یعنی. تحرک مناطق بر اساس قیمت همانطور که در بررسی فیلدز، اوکی (2001) اشاره شد، مفهوم تحرک به خودی خود به وضوح تعریف نشده است؛ ادبیات تحرک توصیف یکپارچه ای از تجزیه و تحلیل ارائه نمی دهد (و هیچ اصطلاح مشخصی وجود ندارد). با این حال، در ادبیات اقتصادی و جامعه شناسی در مورد دو مفهوم اصلی تحرک توافق وجود دارد. اولین مورد تحرک نسبی (یا رتبه) است که با تغییرات در ترتیب، در مورد ما، مناطق بر اساس سطح قیمت مرتبط است. مفهوم دوم تحرک مطلق (یا کمی) است که با تغییرات در سطوح قیمتی خود در مناطق مرتبط است. در تحلیل زیر از هر دوی این مفاهیم استفاده شده است.

سایر رویه ها ما رویه‌ای را بر اساس آمار رتبه‌بندی استیل برای مقایسه میانگین‌های تجربی و کنترلی که قبلاً بحث شد در نظر می‌گیریم. این روش جایگزین همچنین توزیع‌های مرتب شده تصادفی را فرض می‌کند. برای این دسته از توزیع‌ها این روش کارایی کمتری دارد؛ برای موارد خاص توزیع‌ها مؤثرتر است. تفاوت فقط تغییر (نگاه کنید به

روش رتبه‌بندی ترتیبی هول با حذف برای توزیع‌های مرتب شده تصادفی. توزیع‌های مرتب‌شده تصادفی، توزیع‌هایی را پوشش می‌دهند که فقط با تغییر تفاوت دارند، اما نه توزیع‌های نرمال با واریانس‌های مختلف. ما نمی دانیم که آیا روش به انحرافات از فرض ترتیب تصادفی حساس است یا خیر.

برنامه ریزی و انجام آزمایشات برای تعیین پارامترهای حملات شبکه

در مرحله بعدی بررسی مدل ترافیک، باید دریابید که آیا این مدل می تواند برای وظایف امنیتی شبکه، به ویژه برای شناسایی حملات شبکه اعمال شود یا خیر.

به منظور کشف جزئیات نفوذ غیرمجاز، تصمیم گرفته شد آزمایشاتی شبیه سازی حملات انجام شود. آنها در شبکه دانشگاه هوافضای دولتی سامارا (SSAU) انجام شدند.

از داده های راه دور به عنوان منبع حمله استفاده شد. کامپیوترهای شخصی، متصل به اینترنت، واقع در یک شبکه خارجی نسبت به شبکه مورد مطالعه. هدف این حمله یکی از سرورهای داخلی شبکه SSAU بود. روتر مرزی شبکه SSAU Cisco 6509 به عنوان حسگر NetFlow انتخاب شد و کلکتور NetFlow همان سروری بود که مورد حمله قرار گرفت.

فقط یک کامپیوتر در اسکن شرکت داشت، زیرا حمله اسکن پورت از منابع منفرد انجام می شود. برای اسکن از برنامه Nmap استفاده شد که به آن دستور داده شد تا تمام پورت های سرور مورد حمله را اسکن کامل کند.

Nmap یک ابزار رایگان است که برای انواع مختلف اسکن سفارشی شبکه های IP با هر تعداد شی، تعیین وضعیت اشیاء شبکه اسکن شده (پورت ها و خدمات مربوط به آنها) طراحی شده است. Nmap از بسیاری استفاده می کند روش های مختلفاسکن هایی مانند UDP، TCP (اتصال)، TCP SYN (نیمه باز)، پروکسی FTP (افتتاح ftp)، Reverse-ident، ICMP (ping)، FIN، ACK، درخت کریسمس، SYN و اسکن NULL.

هنگام انجام یک حمله DDoS، همان وب سرور به عنوان هدف مورد حمله در هنگام اسکن انتخاب شد. منابع این حمله چندین کامپیوتر مستقر در یک شبکه خارجی بودند. در بخش اول آزمایش، رایانه های مهاجم به طور همزمان درخواست های پینگ را به مدت نیم ساعت ارسال کردند و یک حمله سیل ICMP را انجام دادند. در بخش دوم آزمایش، کامپیوترهای مهاجم با استفاده از یک برنامه تخصصی LOIC یک حمله DDoS را انجام دادند. در عرض یک ساعت، وب سرور مورد حمله قرار گرفت انواع مختلفترافیک: HTTP، UDP، TCP. در طول تمام آزمایش ها، داده ها جمع آوری شد، که پس از آن برای شناسایی الگوها مورد تجزیه و تحلیل قرار گرفت انواع متفاوتحملات

شکل 1.16 - طرح آزمایش

داده‌های جریان که به عنوان مبنای تجزیه و تحلیل عمل می‌کند از یک روتر لبه شبکه Cisco 6509 جمع‌آوری شد. جمع‌آوری کننده nfdump NetFlow برای جمع‌آوری داده‌ها از روتر استفاده شد. داده های NetFlow هر پنج دقیقه برای تجزیه و تحلیل صادر می شود. هر پنج دقیقه یک فایل تولید می شود که پارامترهای تمام جریان های ثبت شده در روتر را در آن زمان نشان می دهد. این پارامترها در مقدمه فهرست شده اند و عبارتند از: زمان شروع جریان، مدت زمان جریان، پروتکل انتقال داده، آدرس منبع و پورت، آدرس و پورت مقصد، تعداد بسته های ارسال شده، تعداد داده های ارسال شده بر حسب بایت.

در نتیجه تجزیه و تحلیل داده‌های جمع‌آوری‌شده در طول اسکن شبکه، افزایش شدید تعداد جریان‌های فعال با مقدار تقریباً ثابتی از ترافیک ارسالی آشکار شد (شکل 1.16 را ببینید). هر رایانه اسکن حدود 10-20 هزار جریان بسیار کوتاه (حداکثر 50 بایت در اندازه) در عرض 5 دقیقه تولید کرد. در همان زمان، تعداد کل جریان های فعال روی روتر، که توسط همه کاربران ایجاد شد، حدود 50-60 هزار بود.

شکل 1.17 نموداری از وضعیت شبکه را نشان می دهد، تعداد جریان های تکمیل شده N بر روی محور ابسیسا رسم شده است، و بار مجموع کانال بر حسب مگابیت بر ثانیه (Mbit/s) بر روی محور ارتین رسم شده است. هر نقطه در نمودار، وضعیت شبکه مورد مطالعه را برای بازه پنج دقیقه‌ای قبلی نشان می‌دهد و وابستگی میانگین بار کانال را به تعداد جریان‌های فعال نشان می‌دهد. نقطه ها با حالت های عادی شبکه مطابقت دارند و مثلث ها مربوط به حالت های شبکه ثبت شده در حین اسکن پورت هستند. بخش های نشان داده شده در نمودار و موازی با محور ارتین، فواصل اطمینان را برای بار متوسط ​​محاسبه شده برای پنج بازه جریان (20000-30000، 30000-40000، 40000-50000، 50000-60000، 7000) نشان می دهد.


شکل 1.17 - اسکن پورت

بر اساس نتایج آزمایش با درخواست‌های پینگ، مشخص شد که هر رایانه مهاجم تنها یک جریان بسیار طولانی از ترافیک ICMP را دریافت می‌کند، اگر درخواست‌ها روی یک پورت واحد ارسال شوند. از آنجایی که داده‌های مربوط به یک جریان تنها پس از تکمیل آن نوشته می‌شود، پس از تکمیل حمله، داده‌های لازم در فایل nfdump نوشته شد. یک جریان غیرعادی طولانی از ترافیک ICMP شناسایی شد که منبع آن کامپیوتر مهاجم بود. بنابراین، در نتیجه تجزیه و تحلیل داده های تجربی، امکان شناسایی یک حمله سیل ICMP وجود داشت. لازم به ذکر است که برای رسیدن به نتیجه - نقص سیستم اطلاعاتیک جریان فعال ترافیک ICMP به وضوح کافی نیست؛ باید ده ها هزار درخواست وجود داشته باشد.

تجزیه و تحلیل آزمایش شبیه سازی حملات DDoSابزار LOIC همچنین افزایش شدید تعداد رشته های فعال همراه با افزایش ترافیک ارسالی را نشان داد. ابزار به طور موازی داده ها را به پورت های هدف مختلف ارسال می کند و در نتیجه ایجاد می کند تعداد زیادی ازجریان های کوتاه مدت تا یک دقیقه (شکل 1.18 را ببینید). مثلث ها حالت های شبکه ثبت شده در طول حمله را به تصویر می کشند.


شکل 1.18 - حمله DDoS

بنابراین، مشخص شد که با استفاده از پروتکل NetFlow نه تنها می توان لحظه شروع حمله را شناسایی کرد، بلکه نوع آن را نیز تعیین کرد. توصیف همراه با جزئیاتالگوریتم‌های تشخیص حمله و کار بر روی ایجاد میزبانی امن را می‌توانید در بخش‌های زیر مشاهده کنید.

ادبیات

1. Bolla R., Bruschi R. RFC 2544 ارزیابی عملکرد و اندازه‌گیری‌های داخلی برای روتر باز مبتنی بر لینوکس //Switching and Routing با عملکرد بالا، کارگاه آموزشی در سال 2006. – IEEE, 2006. – P. 6 pp.

2. فرالی سی و همکاران. اندازه گیری ترافیک در سطح بسته از ستون فقرات IP Sprint //شبکه ​​IEEE. – 2003. – T. 17. – No. 6. – ص 6-16.

3. Park K.، Kim G.، Crovella M. در مورد رابطه بین اندازه فایل، پروتکل های انتقال، و ترافیک شبکه خود مشابه //پروتکل های شبکه، 1996. مجموعه مقالات.، 1996 کنفرانس بین المللی در. – IEEE, 1996. – صص 171-180.

4. Fred S. B. و همکاران. اشتراک گذاری پهنای باند آماری: مطالعه تراکم در سطح جریان // بررسی ارتباطات کامپیوتری ACM SIGCOMM. – ACM, 2001. – T. 31. – No. 4. – صص 111-122.

5. برکات سی و همکاران. یک مدل مبتنی بر جریان برای ترافیک ستون فقرات اینترنت // مجموعه مقالات دومین کارگاه ACM SIGCOMM در مورد اندازه‌گیری اینترنت. – ACM, 2002. – صص 35-47.

6. سوخوف A. M. و همکاران. جریان های فعال در تشخیص عیب یابی در پیوندهای ستون فقرات //Journal of High Speed ​​Networks. – 2011. – T. 18. – No. 1. – صص 69-81.

7. اسکن شبکه Lyon G. F. Nmap: راهنمای پروژه رسمی Nmap برای کشف شبکه و اسکن امنیتی. – ناامن، 2009.

8. Haag P. جریان های خود را با NfSen و NFDUMP //50th RIPE Meeting تماشا کنید. – 2005.

توزیع های رتبه ای برای تعیین مقادیر آستانه متغیرهای شبکه و تجزیه و تحلیل حملات DDoS

معرفی

رشد تصاعدی ترافیک اینترنت و تعداد منابع اطلاعاتی با افزایش سریع تعداد شرایط غیرعادی شبکه همراه است. شرایط شبکه غیرعادی توسط عوامل انسانی و انسانی توضیح داده می شود. تشخیص حالت های غیرعادی ایجاد شده توسط مهاجمان به دلیل تقلید از اقدامات بسیار دشوار است. کاربران عادی. بنابراین، شناسایی و مسدود کردن چنین شرایط غیرعادی بسیار دشوار است. وظایف اطمینان از قابلیت اطمینان و امنیت خدمات اینترنتی مستلزم مطالعه رفتار کاربر در یک منبع خاص است.

این مقاله در مورد شناسایی شرایط شبکه غیرعادی و روش های مقابله با حملات DDoS بحث خواهد کرد. (Distributed Denial of Service, distributed denial of service attack) نوعی حمله است که در آن تعدادی از رایانه های موجود در اینترنت به نام «زامبی»، «ربات» یا یک شبکه ربات (بات نت) به دستور مهاجم شروع به ارسال می کنند. درخواست خدمات از جانب قربانی وقتی تعداد درخواست‌ها از ظرفیت سرورهای قربانی بیشتر شود، درخواست‌های جدید کاربران واقعی دیگر سرویس نمی‌شوند و از دسترس خارج می‌شوند. در این صورت قربانی متحمل خسارت مالی می شود.

مطالعات توصیف شده در این فصل از کتاب درسی از یک رویکرد ریاضی واحد استفاده می کند. تعدادی از مهمترین متغیرهای شبکه شناسایی شدند که توسط یک آدرس IP منفرد خارجی هنگام دسترسی به یک سرور مشخص یا شبکه محلی. این متغیرها عبارتند از: فرکانس دسترسی به وب سرور (در یک پورت معین)، تعداد رشته های فعال، میزان ترافیک ورودی TCP، UDP و ICMP و غیره. زیرساخت ساخته شده امکان اندازه گیری مقادیر برای متغیرهای شبکه فوق را فراهم می کند.

پس از یافتن این مقادیر برای متغیرهای تجزیه و تحلیل شده در یک نقطه زمانی دلخواه، لازم است یک توزیع رتبه ایجاد شود. برای انجام این کار، مقادیر یافت شده به ترتیب نزولی مرتب می شوند. تجزیه و تحلیل وضعیت های شبکه با مقایسه توزیع های مربوطه انجام خواهد شد. این مقایسه به ویژه زمانی واضح است که توزیع‌های وضعیت غیرعادی و نرمال شبکه بر روی یک نمودار ترسیم شوند. این رویکرد تعیین مرز بین حالت های عادی و غیرعادی شبکه را آسان می کند.

آزمایشات مربوط به حمله DDoS به یک سرویس را می توان با استفاده از شبیه سازی در شرایط آزمایشگاهی انجام داد. در عین حال، ارزش نتایج به دست آمده به طور قابل توجهی کمتر از حمله DDoS به یک سرویس تجاری است که عملیاتی شده است، زیرا شبیه ساز نمی تواند یک شبکه کامپیوتری واقعی را به طور کامل بازتولید کند. علاوه بر این، برای درک کامل اصول و روش های حمله DDoS، تجربه با آن ضروری است. بنابراین، نویسندگان به طور ناشناس موافقت کردند که یک حمله DDoS واقعی را بر روی یک وب سرویس ویژه تهیه شده انجام دهند. در طول حمله، ترافیک شبکه ثبت شد و آمار NetFlow جمع آوری شد. مطالعه توزیع رتبه برای تعداد جریان ها و انواع مختلف ترافیک ورودی تولید شده توسط یک آدرس IP خارجی واحد که امکان تعیین مقادیر آستانه را فراهم می کند. فراتر از مقادیر آستانه را می توان به عنوان نشانه ای از یک گره مهاجم طبقه بندی کرد که به ما امکان می دهد در مورد اثربخشی روش های تشخیص و اقدامات متقابل نتیجه گیری کنیم.

1

1. کودرین بی.آی. مقدمه ای بر فناوری. – ویرایش دوم، اصلاح شده، اضافی. – Tomsk: TSU, 1993. – 552 p.

2. توصیف ریاضی سنوزها و قوانین تکنولوژی. فلسفه و شکل گیری فناوری / ویرایش. B.I. کودرینا // مطالعات سنولوژیکی. – جلد 1-2. – آبکان: مرکز تحقیقات سیستمی، 1375. – 452 ص.

3. Gnatyuk V.I. قانون ساخت بهینه تکنوسنوزها: تک نگاری. – مسأله 29. تحقیقات سن شناسی. - M.: انتشارات TSU - مرکز تحقیقات سیستم، 2005. - 452 ص. (http://www.baltnet.ru/~gnatukvi/ind.html).

4. گورینا آر.وی. تحلیل رتبه‌بندی نظام‌های آموزشی (رویکرد سن‌شناسی): دستورالعمل هابرای مربیان - مسأله 32. "تحقیقات سن شناسی". - م.: تکنتیکا، 2006. - 40 ص. (http://www.gurinarv.ulsu.ru).

5. گورینا R.V.، Dyatlova M.V.، Khaibullov R.A. تجزیه و تحلیل رتبه سیستم های اخترفیزیکی و فیزیکی // علم کازان. – 2010. – شماره 2. – ص 8-11.

6. گورینا R.V.، Lanin A.A. محدودیت های کاربرد قانون توزیع رتبه // خود سازماندهی فناورانه و دستگاه ریاضی تحقیقات سنولوژیک. – جلد 28. «مطالعات سن شناسی». – م.: مرکز تحقیقات سیستمی، 2005. – ص. 429-437.

7. Khaibullov R.A. تجزیه و تحلیل رتبه سیستم های فضایی // اخبار منطقه اداری دولتی در پولکوو. مجموعه مقالات دومین کنفرانس جوانان پولکوو. – سن پترزبورگ، 2009. – شماره 219. – شماره. 3. – صص 95-105.

8. Uchaikin M.V. استفاده از قانون توزیع رتبه به اشیاء منظومه شمسی // اخبار منطقه اداری دولتی در پولکوو. مجموعه مقالات دومین کنفرانس جوانان پولکوو. – سن پترزبورگ، 2009. – شماره 219. – شماره. 3. – ص 87-95.

توزیع رتبه (RD) به عنوان توزیعی در نظر گرفته می شود که در نتیجه روند رتبه بندی مجموعه ای از مقادیر پارامتر تخصیص یافته بر اساس رتبه به دست می آید. رتبه r تعداد افراد به ترتیب در RR است. رتبه بندی رویه ای برای چیدمان اشیاء بر اساس میزان بیان یک کیفیت به ترتیب نزولی این کیفیت است. RR واقعی را می توان با وابستگی های ریاضی مختلف بیان کرد و ظاهر گرافیکی متناظری دارد، با این حال، مهمترین آنها توزیع رتبه های هذلولی (HRD) هستند، زیرا آنها نشان دهنده "سنوزیس" هستند - متعلق به مجموعه ای از اشیاء رتبه بندی شده (عناصر، افراد) به سنوز. تئوری سنوزها در رابطه با محصولات فنی توسط پروفسور MPEI B.I. کودرین بیش از 30 سال پیش (www kudrinbi.ru) و با موفقیت در عمل معرفی شد. روش‌های ساخت اکتشافات زمین‌شناسی و استفاده بعدی از آن‌ها به منظور بهینه‌سازی سنوز، معنای اصلی تحلیل رتبه‌ای (RA) (رویکرد سن‌شناسی) را تشکیل می‌دهد که محتوا و فناوری آن نشان‌دهنده جهت جدیدی است که نوید نتایج عملی بزرگی را می‌دهد. قانون توزیع رتبه های هذلولی افراد در تکنوسنوز (توزیع H) به شکل زیر است:

W = A / r β (1)

که در آن W پارامتر رتبه بندی شده افراد است. r - شماره رتبه فرد (1،2،3...). A حداکثر مقدار پارامتر بهترین فرد با رتبه r = 1 است، یعنی. در نقطه اول؛ β - ضریب رتبه ای که درجه شیب منحنی PP را مشخص می کند (برای تکنوسنوزها 0.5< β < 1,5 ).

اگر هر یک از پارامترهای سنوز رتبه بندی شود، PP پارامتری رتبه بندی نامیده می شود. تبعیت یک جامعه از افراد از قانون توسعه زمین شناسی (1) نشانه اصلی سنوز است، اما کافی نیست. علاوه بر این ویژگی، سنوزها بر خلاف سایر جوامع دارای محیط عمومیزیستگاه، و اشیاء آن در مبارزه برای منابع گنجانده شده است.

در و. Gnatyuk روش RA را برای بهینه سازی سیستم های سنوز فنی توسعه داد. احتمالات استفاده عملی از RA در آموزش توسط R.V. گورینا (http://www.gurinarv.ulsu.ru)، و همچنین روشی برای کاربرد آن در این زمینه ایجاد کرد. تعداد افراد در سنوز قدرت جمعیت را تعیین می کند. اصطلاحات از زیست شناسی، از نظریه بیوسنوزها می آید. «سنوسیس» یک جامعه است. اصطلاح بیوسنوز که توسط موبیوس (1877) معرفی شد، اساس اکولوژی را به عنوان یک علم تشکیل داد. B.I. کودرین مفاهیم "سنوسیس"، "فرد"، "جمعیت"، "گونه" را از زیست شناسی به فناوری منتقل کرد: در فناوری "افراد" محصولات فنی فردی هستند. مشخصات فنی، و مجموعه بزرگی از محصولات فنی (افراد) که RR آنها توسط قانون (1) بیان می شود تکنوسنوز نامیده می شود.

که در حوزه اجتماعی«افراد» افرادی هستند که در گروه‌های اجتماعی (کلاس‌ها، گروه‌های مطالعه) سازماندهی شده‌اند، سپس قدرت جمعیت، تعداد دانش‌آموزان گروه است. مدرسه همچنین یک جامعه‌شناسی است که از افراد - واحدهای ساختاری فردی - طبقات تشکیل شده است. در اینجا قدرت جمعیت تعداد کلاس های مدرسه است. مجموعه ای از مدارس، سنسیسی در مقیاس بزرگتر است که واحد فردی و ساختاری این سرشماری مدرسه است. پارامترهای رتبه بندی W در تکنوسنوزها پارامترهای فنی یا فیزیکی هستند که یک فرد را مشخص می کنند، به عنوان مثال، اندازه، وزن، مصرف انرژی، انرژی تشعشع و غیره. در sociocenoses، به ویژه سنوزهای آموزشی، پارامترهای رتبه بندی شده عبارتند از عملکرد تحصیلی، امتیاز در امتیاز شرکت کنندگان در المپیادها یا آزمون. تعداد دانشجویان پذیرفته شده در دانشگاه ها و غیره و افراد رتبه بندی شده خود دانشجویان، کلاس ها، گروه های تحصیلی، مدارس و غیره هستند.

تحقیقات در سال‌های اخیر نشان داده است که مجموعه‌ای از اجرام فضایی بسیاری از منظومه‌ها (کهکشان‌ها، منظومه شمسی، خوشه‌های کهکشانی و غیره) نشان‌دهنده سنوزها (کیهان سنوزها، آستروسنوزها) هستند. با این حال، آستروسنوزها با تنوسنوزها و سوسیوسنوزها از این جهت متفاوت هستند که فرد نمی تواند بر وضعیت آنها تأثیر بگذارد، آنها را تغییر داده و بهینه کند. در فضا، اجسام توسط نیروهای گرانشی که رفتار آنها را تعیین می کند، به طور صلب به یکدیگر متصل می شوند. مشخصات آستروسنوزها به طور کامل مشخص نشده است؛ روش RA در رابطه با آستروسنوزها توسعه نیافته است که هدف این مطالعه را مشخص می کند. هدف به چند کار تقسیم شد:

1. مطالعه روش RA، تعیین امکان کاربرد روش RA برای سیستم های اخترفیزیکی - سنوزها (یعنی تا چه حد RA برای آستروسنوزها قابل استفاده است).

2. توضیحات مرحله به مرحلهکاربرد روش RA برای آستروسنوزها

پس از مطالعه روش استفاده از RA برای تکنوسنوزها، عناصر مشترک (جهانی) آن شناسایی شد که برای انواع سنوزها کاربرد دارد. بنابراین، روش RA شامل مراحل فرآیند جهانی زیر است.

1. شناسایی سنوز - مجموعه ای از اشیاء جامعه (سیستم) مورد مطالعه.

2. شناسایی پارامترهای رتبه بندی. چنین پارامترهایی می تواند جرم، اندازه اشیاء، هزینه، قابلیت اطمینان انرژی، درصد عناصر موجود در ترکیب شی مورد مطالعه، نمرات آزمون دولتی واحد شرکت کنندگان در آزمون و غیره باشد.

3. توصیف پارامتریک سنوز. ایجاد یک صفحه گسترده (پایگاه داده) حاوی اطلاعات سیستماتیک در مورد پارامترهای تک تک افراد سنوزیس.

4. ساخت یک RR تجربی جدول بندی شده. RR جدول‌بندی‌شده یک جدول از دو ستون است: پارامترهای افراد W که بر اساس رتبه مرتب شده‌اند و شماره رتبه یک فرد r (r = 1,2,3...). رتبه اول توسط فردی با حداکثر مقدار پارامتر، رتبه دوم توسط فردی با بالاترین مقدار پارامتر در بین سایر افراد و غیره اشغال می شود.

5. ساخت یک RR تجربی گرافیکی. نمودار منحنی رتبه‌بندی تجربی شکل هذلولی دارد: عدد رتبه r در امتداد محور ابسیسا رسم می‌شود و پارامتر مورد مطالعه W در امتداد محور مختصات ترسیم می‌شود، شکل 1، a. تمام داده ها از جدول RR گرفته شده است.

برنج. 1. هذلولی (a) و وابستگی هذلولی "تصحیح" در مقیاس لگاریتمی دوگانه (b). B = lnA

6. تقریب RR تجربی. تقریب و تعیین پارامترهای PP معمولاً با استفاده از برنامه های رایانه ای انجام می شود، با کمک آنها یک فاصله اطمینان تنظیم می شود، پارامترهای منحنی توزیع A و B پیدا می شود و ضریب رگرسیون Re (یا Re2) نیز تعیین می شود که نشان می دهد درجه تقریب هذلولی تجربی به نظری. در این حالت، یک منحنی ایده آل تقریبی رسم می شود (و در صورت لزوم، در دو طرف آن - خطوط فاصله اطمینان).

7. خطی سازی GR: ساخت یک RR تجربی در مختصات لگاریتمی. اجازه دهید روند خطی سازی وابستگی را توضیح دهیم (1). با گرفتن لگاریتم وابستگی (1) W = A / r β، به دست می آوریم:

lnW = lnA - β ln r (2)

تعیین کردن:

lnW = y; lnA = B = const; ln r = x، (3)

(2) را به شکل زیر بدست می آوریم:

y = B - β x. (4)

معادله (4) یک تابع خطی کاهشی است (شکل 1، ب). فقط lnW در امتداد محور مختصات و lnr در امتداد محور آبسیسا رسم می شود. برای ساخت یک نمودار خطی، جدولی از مقادیر تجربی lnW و lnr جمع آوری می شود که بر اساس مقادیر آن نمودار وابستگی lnW(lnr) با استفاده از برنامه های رایانه ای ساخته می شود.

ضریب β به صورت دستی با فرمول تعیین می شود:

β = قهوهای مایل به زرد α = lnA: ln r،

ضریب A از این شرط تعیین می شود: r = 1، W1 = A.

8. تقریب وابستگی تجربی ln W (lnr) به خطی Y = B - β x.

این روش همچنین با استفاده از برنامه های کامپیوتری انجام می شود. این با یافتن پارامترهای β، A، تعیین فاصله اطمینان، تعیین ضریب رگرسیون Re (یا Re 2)، بیان درجه تقریب نمودار تجربی ln W (ln r) به شکل خطی دنبال می‌شود. در این حالت یک خط مستقیم تقریبی ظاهر می شود.

9. بهینه سازی سنوز (برای بیو، - تکنو، - sociocenoses).

روش بهینه سازی یک سیستم (سنوزیس) شامل کار کردن با توزیع های جدول بندی شده و گرافیکی و مقایسه منحنی ایده آل با منحنی واقعی است که پس از آن نتیجه گیری می شود: آنچه عملاً باید در سنوز انجام شود تا نقاط منحنی واقعی تمایل دارد روی منحنی ایده آل قرار بگیرد. هر چه منحنی توزیع تجربی به منحنی ایده آل نوع (1) نزدیکتر شود، سیستم پایدارتر است. مرحله بهینه سازی شامل رویه ها (اقدامات) زیر است.

بخش تئوری: کار مشترک با PP جدولی و گرافیکی:

پیدا کردن نقاط غیرعادی و اعوجاج در نمودار.

تعیین مختصات آنها و شناسایی آنها با افراد واقعی بر اساس توزیع جدول.

بخش عملی: کار با اشیاء واقعی سنوز برای بهبود آن:

تجزیه و تحلیل علل ناهنجاری ها و جستجوی راه های رفع آنها (مدیریتی، اقتصادی، تولیدی و غیره)؛

حذف ناهنجاری ها در سنوز واقعی.

بهینه سازی تکنوسنوزها بر اساس V.I. Gnatyuk به دو روش انجام می شود:

1. بهینه سازی نامگذاری - یک تغییر هدفمند در جمعیت یک سنوز، که RR واقعی را در شکل به سمت ایده آل هدایت می کند (1). در بیوسنوز گله، این اخراج یا نابودی افراد ضعیف است گروه مطالعاتیاین غربالگری افراد ناتوان است، در تکنوسنوز - خلاص شدن از شر زباله، تبدیل تجهیزات استفاده شده به دسته ضایعات.

2. بهینه سازی پارامتریک - بهبود هدفمند پارامترهای افراد منفرد، که سنوز را به حالت پایدارتر و کارآمدتر هدایت می کند. در سنوز آموزشی - یک گروه آموزشی (کلاس) - این کار با افراد کم‌موفق است - بهبود شاخص‌های عملکرد آنها؛ در یک تکنوسنوز - جایگزینی تجهیزات قدیمی با مدل‌های بهبود یافته.

همانطور که در بالا گفته شد، روش بهینه سازی 9 برای آستروسنوزها قابل اجرا نیست. با مطالعه اکتشافات زمین شناسی آنها، تنها می توان اطلاعات علمی مفیدی را در مورد وضعیت اختر سنوز استخراج کرد، در نتیجه درک تصویر نجومی جهان را گسترش داد. ماهیت انحرافات در اکتشافات زمین شناسی واقعی اجرام سنوزهای اخترفیزیکی از توزیع ایده آل H چیست و چه چیزی را نشان می دهد؟ دو نوع اعوجاج در نمودارهای اکتشاف زمین شناسی اجسام در سیستم های اختر سنوز پیدا شد:

I. چندین نقطه از فاصله اطمینان GRR خارج می شود یا هذلولی مخدوش می شود (وجود "کوهان"، "دره"، "دم" (شکل 2، a).

II. شکست شدید در خط مستقیم لگاریتمی lnW (lnr)، که آن را به 2 بخش (در زاویه نسبت به یکدیگر یا با تغییر در امتداد محور y) تقسیم می کند.

در شکل 2، a, b - نمودارهای RR از ماهواره های Satup با اعوجاج نوع اول.

به دلیل نقص فناوری اندازه گیری یا روش های اندازه گیری نجومی، از تمام 62 ماهواره زحل، اطلاعاتی در مورد جرم 19 ماهواره و قطر 45 ماهواره وجود دارد. از نمودارها به وضوح مشاهده می شود که در یک سیستم با تعداد افراد زیاد (شکل 2، b)، نقاط تجربی منعکس کننده اندازه ماهواره ها بهتر بر روی خط مستقیم لگاریتمی قرار می گیرند، که نشان دهنده اطلاعات کافی در مورد کامل بودن است. از سیستم موارد فوق به ما امکان می دهد ادعا کنیم که استفاده از RA امکان پیش بینی وجود اجسام گمشده در سیستم های فضایی را فراهم می کند.

برنج. 2. توزیع رتبه ای ماهواره های زحل در مقیاس لگاریتمی دوگانه ln W = f(ln r). r - شماره رتبه ماهواره؛ الف) ماهواره های RR 19 بر اساس جرم های شناخته شده؛ ب) ماهواره های RR در یک سیستم با تعداد زیادی از افراد - 45 ماهواره با قطرهای شناخته شده

هنگام مطالعه آستروسنوزهای RR گرافیکی، مشخص شد که اولین نوع اعوجاج ممکن است نشان دهد:

برخی از اشیاء به این اخترسنوز (سیستم، کلاس) تعلق ندارند.

اندازه گیری پارامترهای اجسام اخترسنوز دقیق نیست.

اطلاعات کافی در مورد کامل بودن سیستم اخترفیزیکی-سنوز وجود ندارد. در همان زمان، از سیستم کامل تر، ضریب رگرسیون بزرگتر است.

نوع دوم تحریف موارد زیر را نشان می دهد.

اگر یک شکست شدید در نمودار اصلاح وجود داشته باشد، به این معنی است که سیستم از دو زیر سیستم تشکیل شده است. یک مورد مشابه با نمودارهای شکل 1 نشان داده شده است. 3، 4. در همان زمان، در نمودار W (r) یک گسست شدید توسط دو هذلولی "خزنده روی هم" (شکل 3، a) تشکیل می شود، و این شکست همیشه به اندازه شکل تلفظ نمی شود. نمودار در مقیاس لگاریتمی دوگانه (شکل 3 b, 4, b). هر چه زاویه بین بخش های خطی شده در نمودار ln W (ln r) کوچکتر باشد، خمش هذلولی در نمودار W (r) مشخص تر است.

در شکل 3، a، b نمودارهایی از توزیع هندسی کهکشان های شناخته شده بر اساس فاصله از منظومه شمسی ما (در مجموع 40 جرم) را نشان می دهد.

اگر یک شکست شدید در نمودار اصلاح وجود داشته باشد، به این معنی است که سیستم از دو زیر سیستم تشکیل شده است. RA امکان تقسیم تئوری سیستم کهکشانی را به دو دسته می دهد: گروه محیطی (دور) -1 و گروه محلی (نزدیک) کهکشان ها - 2 که مربوط به داده های طبقه بندی نجومی است.

برنج. 3. توزیع رتبه ای کهکشان ها بر اساس فاصله از منظومه شمسی، که در آن 1 گروه محیطی کهکشان ها است، با Re=0.97; 2 - گروه محلی کهکشانها Re=0.86; W فاصله کهکشان، kpc است. r عدد رتبه ای کهکشان است. در کل 40 شی وجود دارد. الف) نمودار W(r)، Re=0.97; ب) نمودار ln W= f(ln r)، Re=0.86

برنج. 4. جرم PP سیارات منظومه شمسی (در توده های زمین)، که در آن گروه 1 - سیارات غول پیکر (مشتری، زحل، اورانوس، نپتون). 2 - سیارات زمینی; W جرم سیاره، M است. r - شماره رتبه سیاره. در مجموع 8 شی وجود دارد. الف) نمودار W(r)، Re= 0.99; ب) نمودار ln W= f(ln r)، برای 1 - (سیاره های غول پیکر) Re = 0.86، برای 2 نیز - Re = 0.86

همانطور که از درس نجوم می دانید، منظومه سیاره ای ما دارای 2 زیر سیستم است: سیارات غول پیکر و سیارات زمینی. در شکل 4, a, b توزیع هندسی سیارات منظومه شمسی را بر حسب جرم نشان می دهد. توجه داشته باشید که به طور مستقیم در RR های هذلولی، پیچ خوردگی ها ممکن است به وضوح قابل مشاهده نباشند، و شناسایی زیرسیستم های روی آنها غیرممکن است (شکل 4، a)، بنابراین لازم است RR ها در مقیاس لگاریتمی دوگانه ساخته شوند، که در آن پیچ خوردگی ها به وضوح مشخص شوند. بیان شده است (شکل 4، ب).

استفاده از کتاب های مرجع مقادیر فیزیکیو منبع اینترنتی، اکتشافات زمین شناسی سایر آستروسنوزها ساخته شد که موارد فوق را تایید می کند. تقریب با استفاده از برنامه QtiPlot انجام شد.

بدین ترتیب:

روش RA برای سیستم های سنوز در نظر گرفته شده و گام به گام با قیاس با تکنوسنوزها توصیف می شود.

ویژگی کاربرد RA برای آستروسنوزها مشخص شده است.

امکان استفاده از RA برای مطالعه سیستم های اخترفیزیکی - سنوزها در طرح های زیر تعیین شده است:

شناسایی زیرسیستم‌ها در سیستم‌های فضایی - سنوزها. این روش شامل تثبیت و مطالعه پیچ خوردگی‌های نمودارهای اکتشاف زمین‌شناسی خطی در مقیاس لگاریتمی دوگانه است.

پیش‌بینی کامل بودن سیستم‌های اخترفیزیکی - سنوزها.

تحقیقات بیشتر در این راستا برای تایید نتایج به دست آمده مورد نیاز است.

پیوند کتابشناختی

Ustinova K.A.، Kozyrev D.A.، Gurina R.V. تجزیه و تحلیل رتبه به عنوان یک روش تحقیق و امکان استفاده از آن در سیستم های اخترفیزیکی // بولتن علمی دانشجویی بین المللی. – 2015. – شماره 3-4.;
آدرس اینترنتی: http://eduherald.ru/ru/article/view?id=14114 (تاریخ دسترسی: 2019/12/26). مجلات منتشر شده توسط انتشارات "آکادمی علوم طبیعی" را مورد توجه شما قرار می دهیم.

جورج زیپ به طور تجربی دریافت که فراوانی استفاده از Nامین کلمه پرکاربرد در زبان های طبیعی تقریباً با عدد N نسبت معکوس دارد. و توسط نویسنده در کتاب شرح داده شده است: Zipf G.R.، رفتار انسانی و اصل کمترین تلاش، 1949

او متوجه شد که رایج ترین چیز در زبان انگلیسیکلمه ("the") ده برابر بیشتر از دهمین کلمه رایج، 100 برابر بیشتر از صدمین کلمه رایج و 1000 بار بیشتر از 1000 کلمه رایج استفاده می شود. علاوه بر این، مشخص شد که همین الگو در مورد سهم بازار نیز صدق می کند نرم افزار، نوشابه، ماشین، شیرینی و برای دفعات دسترسی به سایت های اینترنتی. [...] مشخص شد که تقریباً در هر زمینه ای از فعالیت، شماره یک بودن بسیار بهتر از شماره سه یا ده بودن است. علاوه بر این، توزیع پاداش ها به هیچ وجه یکنواخت نیست، به خصوص در دنیای ما که در شبکه های مختلف درگیر شده است. و در اینترنت خطرات حتی بیشتر است. ارزش بازار پرایس لاین، ای بی و آمازون به دست می آید 95% کل سرمایه بازار سایر حوزه ها کسب و کار الکترونیکی. بدون شک برنده چیزهای زیادی بدست می آورد."

ست گودین، ویروس ایده؟ اپیدمی! کاری کنید مشتریان برای فروش شما کار کنند، سنت پترزبورگ، "پیتر"، 2005، ص. 28.

«معنای این پدیده این است که […] توانایی شرکت کنندگان خلاق برای ورود به آثار تکمیل شده طبق قانون بین شرکت کنندگان توزیع می شود: حاصل ضرب تعداد رخدادها بر اساس رتبه شرکت کننده (با تعداد شرکت کنندگان با همان فراوانی وقوع) یک مقدار ثابت است. : f r = Const. […] در لیست رتبه بندی همه شرکت کنندگان خلاق، در در این موردبه عبارت دیگر، این دقیقاً ویژگی توزیع نابرابر توانایی مهاجرت است که آشکار می شود، و به همراه آن الگوی ارتباط بین کمیت و کیفیت در فعالیت خلاق به طور کلی. […]

علاوه بر منابع ادبی، Zipf بسیاری از پدیده‌های مشکوک به توزیع رتبه را بررسی کرد - از توزیع جمعیت در شهرها گرفته تا چیدمان ابزارها روی میز کار نجار، کتاب‌های روی میز و قفسه یک دانشمند، که همه جا به یک الگوی مشابه برخورد می‌کردند.

بدون در نظر گرفتن Zipfتوزیع نزدیک آشکار شد پارتودر مطالعه سپرده های بانکی، توسط Urquhart در تجزیه و تحلیل درخواست ها برای ادبیات، سینیدر تحلیل بهره وری نویسنده از دانشمندان. حتی خدایان المپ از منظر باری که با عملکردهای مولد مهارت و حفظ مهارت دارند، مطابق قانون زیپ رفتار می کنند.

از طریق تلاش قیمتو همکارانش و بعدها با تلاش بسیاری از دانشمندان مشخص شد که قانون Zipfارتباط مستقیمی با قیمت گذاری در علم دارد.

قیمتبه همین مناسبت او می نویسد: «همه داده های مرتبط با توزیع ویژگی هایی مانند درجه کمال، سودمندی، بهره وری، اندازه در معرض چندین الگوی غیرمنتظره اما ساده هستند. [...] آیا شکل دقیق این توزیع لگن نرمال است یا هندسی یا مربع معکوس یا تابع قانون است Zipf، موضوعی است که برای هر صنعت جداگانه مشخص می شود. آنچه ما می دانیم بیان این واقعیت است که هر یک از این قوانین توزیع نتایجی نزدیک به نتایج تجربی در هر یک از صنایع مورد مطالعه دارد و چنین پدیده ای که در همه صنایع مشترک است ظاهراً نتیجه عمل یک قانون است. پرایس دی، الگوهای منظم در سازمان علم، ارگانون، 1965، شماره 2، ص. 246».

پتروف M.K. ، هنر و علم. دزدان دریایی دریای اژه و شخصیت، M.، "دایره المعارف سیاسی روسیه، 1995، ص. 153-154.

بعلاوه، جورج زیپهمچنین متوجه شد که پرکاربردترین کلمات زبانی که برای مدت طولانی وجود داشته است کوتاهتر از سایر کلمات هستند. استفاده مکرر آنها را فرسوده کرده است ...