आर भाषा विकी। आर प्रोग्रामिंग भाषा और सांख्यिकीय कार्यक्रमों के बीच इसका स्थान

आर स्तर 1 पर प्रोग्रामिंग। मूल बातें

आर भाषा सांख्यिकीय डेटा विश्लेषण के लिए दुनिया का सबसे लोकप्रिय उपकरण है। इसमें डेटा विश्लेषण, विज़ुअलाइज़ेशन और दस्तावेज़ों और वेब अनुप्रयोगों के निर्माण के लिए संभावनाओं की व्यापक श्रृंखला शामिल है। क्या आप किसी अनुभवी गुरु के मार्गदर्शन में इस शक्तिशाली भाषा में महारत हासिल करना चाहेंगे? हम आपको पाठ्यक्रम के लिए आमंत्रित करते हैं "आर भाषा में प्रोग्रामिंग। स्तर 1। बुनियादी ज्ञान".

यह पाठ्यक्रम पेशेवरों की एक विस्तृत श्रृंखला के लिए है, जिन्हें बड़ी मात्रा में डेटा में पैटर्न देखने, उनकी कल्पना करने और सांख्यिकीय रूप से सही निष्कर्ष निकालने की आवश्यकता होती है: समाजशास्त्री, नैदानिक ​​​​परीक्षण प्रबंधक / फार्माकोलॉजिस्ट, शोधकर्ता (खगोल विज्ञान, भौतिकी, जीव विज्ञान, आनुवंशिकी, चिकित्सा) , आदि) , आईटी-विश्लेषक, व्यापार विश्लेषक, वित्तीय विश्लेषक, विपणक। यह पाठ्यक्रम उन विशेषज्ञों को भी पसंद आएगा जो कार्यक्षमता (या भुगतान) के लिए उपयुक्त नहीं हैं।

कक्षा में, आप पर्यावरण में डेटा विश्लेषण और विज़ुअलाइज़ेशन में बुनियादी कौशल हासिल करेंगे आर. अधिकांश समय व्यावहारिक कार्यों और वास्तविक डेटा सेट के साथ काम करने के लिए समर्पित है। आप डेटा के साथ काम करने के लिए सभी नए टूल सीखेंगे और सीखेंगे कि उन्हें अपने काम में कैसे लागू किया जाए।

कोर्स के बाद केंद्र के उन्नत प्रशिक्षण का प्रमाण पत्र जारी किया जाता है।

इस साइट के कई उदाहरण और लेख "आर" प्रोग्रामिंग भाषा का व्यापक उपयोग करते हैं।

Linux के लिए R आमतौर पर आपके वितरण के रिपॉजिटरी का उपयोग करके स्थापित किया जा सकता है। मैं डेबियन-आधारित वितरण का उपयोग करता हूं जहां आर स्थापित करने के लिए मानक कमांड है:

सुडो एपीटी इंस्टाल आर बेस

आपको इसे टर्मिनल में टाइप करना होगा.

आर की खूबसूरती यह है:

  1. यह कार्यक्रम मुफ़्त है (जीपीएल लाइसेंस के तहत वितरित),
  2. विभिन्न प्रकार के कार्यों को हल करने के लिए इस कार्यक्रम के लिए कई पैकेज लिखे गए हैं। ये सभी भी निःशुल्क हैं.
  3. कार्यक्रम बहुत लचीला है: उपयोगकर्ता के अनुरोध पर किसी भी वैक्टर और मैट्रिक्स का आकार बदला जा सकता है, डेटा में कोई कठोर संरचना नहीं होती है। यह संपत्ति पूर्वानुमान के मामले में बेहद उपयोगी साबित होती है, जब शोधकर्ता को एक मनमानी अवधि के लिए पूर्वानुमान लगाने की आवश्यकता होती है।

बाद वाली संपत्ति विशेष रूप से प्रासंगिक है, क्योंकि अन्य सांख्यिकीय पैकेज (जैसे एसपीएसएस, ईव्यूज़, स्टाटा) सुझाव देते हैं कि हमें केवल उस डेटा का विश्लेषण करने में रुचि हो सकती है जिसकी एक निश्चित संरचना है (उदाहरण के लिए, कार्य फ़ाइल में सभी डेटा समान होना चाहिए) समान शुरुआत और अंत के साथ आवृत्ति)।

हालाँकि, R सबसे मैत्रीपूर्ण कार्यक्रम नहीं है। इसके साथ काम करने के समय, माउस के बारे में भूल जाइए - इसमें लगभग सभी सबसे महत्वपूर्ण क्रियाएं कमांड लाइन का उपयोग करके की जाती हैं। हालाँकि, जीवन को थोड़ा आसान बनाने के लिए, और प्रोग्राम को थोड़ा अधिक अनुकूल बनाने के लिए, RStudio नामक एक फ्रंटएंड प्रोग्राम (बाहरी इंटरफ़ेस) है। आप इसे यहां से डाउनलोड कर सकते हैं। इसे R के पहले ही इंस्टॉल किए जाने के बाद इंस्टॉल किया गया है। RStudio में कई सुविधाजनक उपकरण और एक अच्छा इंटरफ़ेस है, हालांकि, इसमें विश्लेषण और पूर्वानुमान अभी भी कमांड लाइन का उपयोग करके किया जाता है।

आइए इस अद्भुत कार्यक्रम पर एक नजर डालने का प्रयास करें।

आरस्टूडियो का परिचय

RStudio इंटरफ़ेस इस तरह दिखता है:

RStudio में ऊपरी दाएं कोने में, प्रोजेक्ट का नाम दर्शाया गया है (जो अब तक हमारे पास "कोई नहीं" है - यानी यह गायब है)। यदि आप इस शिलालेख पर क्लिक करते हैं और "नया प्रोजेक्ट" (नया प्रोजेक्ट) चुनते हैं, तो हमें एक प्रोजेक्ट बनाने के लिए प्रेरित किया जाएगा। बुनियादी पूर्वानुमान उद्देश्यों के लिए, "नई निर्देशिका" (परियोजना के लिए एक नया फ़ोल्डर), "खाली परियोजना" (एक खाली परियोजना) का चयन करना पर्याप्त है, और फिर परियोजना का नाम दर्ज करें और उस निर्देशिका का चयन करें जिसमें इसे सहेजना है . अपनी कल्पना को चालू करें और स्वयं एक नाम खोजने का प्रयास करें :)।

एक प्रोजेक्ट के साथ काम करते हुए, आप हमेशा उसमें संग्रहीत डेटा, कमांड और स्क्रिप्ट तक पहुंच सकते हैं।

कंसोल RStudio विंडो के बाईं ओर स्थित है। इसमें हम विभिन्न कमांड दर्ज करेंगे। उदाहरण के लिए, आइए निम्नलिखित लिखें:

यह कमांड शून्य माध्य और इकाई विचरण के साथ सामान्य वितरण से 100 यादृच्छिक चर उत्पन्न करेगा, फिर "x" नामक एक वेक्टर बनाएगा और परिणामी 100 चर को इसमें लिखेगा। प्रतीक "<-» эквивалентен символу «=» и показывает какое значение присвоить нашей переменной, стоящей слева. Иногда вместо него удобней использовать символ «->”, हालाँकि इस मामले में हमारा चर दाईं ओर होना चाहिए। उदाहरण के लिए, निम्नलिखित कोड ऑब्जेक्ट "y" को बिल्कुल ऑब्जेक्ट "x" के समान बनाएगा:

ये वेक्टर अब स्क्रीन के ऊपर दाईं ओर एक टैब के नीचे दिखाई देते हैं, जिसे मैंने "पर्यावरण" लेबल किया है:

"पर्यावरण" टैब में परिवर्तन

स्क्रीन का यह भाग उन सभी ऑब्जेक्ट को प्रदर्शित करेगा जिन्हें हम सत्र के दौरान सहेजते हैं। उदाहरण के लिए, यदि हम इस तरह एक मैट्रिक्स बनाते हैं:

\(A = \begin(pmatrix) 1 & 1 \\ 0 & 1 \end(pmatrix) \)

यह आदेश है:

तो यह "पर्यावरण" टैब में दिखाई देगा:

हमारे द्वारा उपयोग किए जाने वाले किसी भी फ़ंक्शन के लिए आवश्यक है कि हम कुछ मापदंडों को कुछ मान दें। मैट्रिक्स() फ़ंक्शन में निम्नलिखित पैरामीटर हैं:

  • डेटा एक वेक्टर है जिसमें मैट्रिक्स पर डेटा लिखा जाना है,
  • nrow मैट्रिक्स में पंक्तियों की संख्या है,
  • ncol मैट्रिक्स में स्तंभों की संख्या है,
  • बायरो एक बूलियन पैरामीटर है। यदि "TRUE" (सत्य), तो मैट्रिक्स को पंक्ति दर पंक्ति (बाएँ से दाएँ, पंक्ति दर पंक्ति) भरा जाएगा। डिफ़ॉल्ट रूप से, यह पैरामीटर "गलत" (गलत) पर सेट है,
  • डिमनेम्स - पंक्ति और स्तंभ नामों वाली शीट।

इनमें से कुछ विकल्पों में डिफ़ॉल्ट मान हैं (उदाहरण के लिए, byrow=FALSE ), जबकि अन्य को छोड़ा जा सकता है (उदाहरण के लिए, dimnames )।

"आर" की तरकीबों में से एक यह है कि किसी भी फ़ंक्शन (उदाहरण के लिए, हमारा मैट्रिक्स()) को सीधे मान सेट करके एक्सेस किया जा सकता है:

या आप इसे वैसे ही कर सकते हैं जैसे हमने इसे पहले किया था - अनुक्रम का पालन करते हुए और पैरामीटरों के नाम छोड़ दें।

"पर्यावरण" टैब में स्थित किसी भी ऑब्जेक्ट की सामग्री देखने के लिए, कंसोल में बस उसका नाम टाइप करें:

दूसरा विकल्प "पर्यावरण" टैब में ऑब्जेक्ट के नाम पर क्लिक करना है।

जहां मैट्रिक्स उस फ़ंक्शन का नाम है जिसमें हम रुचि रखते हैं। इस मामले में, RStudio विवरण के साथ सहायता पैनल खोलेगा:

आप "सहायता" टैब में "खोज" विंडो (लेंस वाला एक आइकन) में फ़ंक्शन का नाम टाइप करके भी किसी फ़ंक्शन के लिए सहायता पा सकते हैं।

यदि आपको ठीक से याद नहीं है कि फ़ंक्शन का नाम कैसे लिखा जाता है या यह किन मापदंडों का उपयोग करता है, तो बस कंसोल में इसका नाम लिखना शुरू करें और "टैब" बटन दबाएं:

इन सबके अलावा, आप RStudio में स्क्रिप्ट भी लिख सकते हैं। यदि आपको कोई प्रोग्राम लिखना है या फ़ंक्शंस के अनुक्रम को कॉल करना है तो आपको उनकी आवश्यकता हो सकती है। ऊपरी बाएँ कोने में प्लस चिह्न वाले बटन का उपयोग करके स्क्रिप्ट बनाई जाती हैं (ड्रॉप-डाउन मेनू में, "आर स्क्रिप्ट" चुनें)। उसके बाद खुलने वाली विंडो में आप कोई भी फंक्शन और कमेंट लिख सकते हैं। उदाहरण के लिए, यदि हम x श्रृंखला पर एक रेखा ग्राफ़ बनाना चाहते हैं, तो यह इस प्रकार किया जा सकता है:

प्लॉट(x)लाइनें(x)

पहला फ़ंक्शन एक सरल स्कैटर प्लॉट बनाता है, और दूसरा फ़ंक्शन श्रृंखला में बिंदुओं को जोड़ने वाले बिंदुओं के शीर्ष पर रेखाएँ जोड़ता है। इन दो कमांडों को चुनने और Ctrl+Enter दबाने से वे निष्पादित हो जाएंगे, जिससे RStudio निचले दाएं कोने में प्लॉट टैब खोल देगा और उसमें प्लॉट प्रदर्शित करेगा।

यदि हमें अभी भी भविष्य में टाइप की गई सभी कमांड की आवश्यकता है, तो इस स्क्रिप्ट को सहेजा जा सकता है (ऊपरी बाएँ कोने में फ़्लॉपी डिस्क)।

यदि आपको किसी कमांड को संदर्भित करने की आवश्यकता है जिसे आपने पहले ही कुछ समय पहले टाइप किया है, तो स्क्रीन के ऊपरी दाहिने हिस्से में एक "इतिहास" टैब है। इसमें, आप अपनी रुचि का कोई भी कमांड ढूंढ और चुन सकते हैं और उसे कंसोल में डालने के लिए डबल-क्लिक कर सकते हैं। कंसोल में ही, आप कीबोर्ड पर "अप" (ऊपर) और "डाउन" (डाउन) बटन का उपयोग करके पिछले कमांड तक पहुंच सकते हैं। कीबोर्ड शॉर्टकट "Ctrl+Up" आपको कंसोल में सभी हालिया कमांड की एक सूची प्रदर्शित करने की अनुमति देता है।

सामान्य तौर पर, RStudio में बहुत सारे उपयोगी कीबोर्ड शॉर्टकट हैं जो प्रोग्राम के साथ काम करना बहुत आसान बनाते हैं। आप उनके बारे में और अधिक पढ़ सकते हैं।

जैसा कि मैंने पहले बताया, आर के लिए कई पैकेज हैं। वे सभी CRAN सर्वर पर स्थित हैं और उनमें से किसी को भी स्थापित करने के लिए आपको उसका नाम जानना होगा। पैकेजों की स्थापना और अद्यतनीकरण "पैकेज" टैब का उपयोग करके किया जाता है। इस पर जाकर "इंस्टॉल" बटन पर क्लिक करने पर, हमें निम्न मेनू जैसा कुछ दिखाई देगा:

आइए खुलने वाली विंडो में टाइप करें: पूर्वानुमान रॉब जे. हाइंडमैन द्वारा लिखित एक पैकेज है जिसमें हमारे लिए उपयोगी कार्यों का एक समूह शामिल है। "इंस्टॉल करें" बटन पर क्लिक करें, जिसके बाद "पूर्वानुमान" पैकेज स्थापित हो जाएगा।

वैकल्पिक रूप से, हम कंसोल में कमांड का उपयोग करके, किसी भी पैकेज को उसका नाम जानकर इंस्टॉल कर सकते हैं:

इंस्टाल.पैकेज('सुचारू')

बशर्ते कि यह निश्चित रूप से CRAN रिपॉजिटरी में हो। स्मूथ एक पैकेज है जिसकी विशेषताएं मैं विकसित और रखरखाव करता हूं।

कुछ पैकेज केवल github.com जैसी साइटों पर स्रोत के रूप में उपलब्ध हैं और आपको पहले उन्हें बनाना होगा। विंडोज़ के अंतर्गत पैकेज बनाने के लिए, आपको Rtools प्रोग्राम की आवश्यकता हो सकती है।

किसी भी स्थापित पैकेज का उपयोग करने के लिए, आपको इसे सक्षम करना होगा। ऐसा करने के लिए, आपको इसे सूची में ढूंढना होगा और उस पर टिक करना होगा, या कंसोल में कमांड का उपयोग करना होगा:

पुस्तकालय(पूर्वानुमान)

विंडोज़ पर, एक कष्टप्रद समस्या स्वयं प्रकट हो सकती है: कुछ पैकेज डाउनलोड करना और बनाना आसान है, लेकिन वे किसी में भी इंस्टॉल नहीं होते हैं। इस मामले में आर कुछ इस तरह लिखता है: "चेतावनी: अस्थायी स्थापना को स्थानांतरित करने में असमर्थ..."। इस मामले में आपको बस इतना करना है कि एंटीवायरस में अपवादों के साथ R वाला फ़ोल्डर जोड़ना है (या पैकेज इंस्टॉल करते समय इसे बंद कर देना है)।

पैकेज डाउनलोड करने के बाद इसमें शामिल सभी फ़ंक्शन हमारे लिए उपलब्ध होंगे। उदाहरण के लिए, tsdisplay() फ़ंक्शन, जिसका उपयोग इस प्रकार किया जा सकता है:

टीएसडिस्प्ले(x)

वह हमारे लिए तीन ग्राफ़ बनाएगी, जिन पर हम फोरकास्टर के टूलकिट अध्याय में चर्चा करेंगे।

पूर्वानुमान पैकेज के अलावा, मैं अक्सर विभिन्न उदाहरणों के लिए एमकॉम्प पैकेज का उपयोग करता हूं। इसमें एम-कॉम्पीटिशन डेटाबेस से डेटा की श्रृंखला शामिल है। इसलिए, मेरा सुझाव है कि आप इसे भी इंस्टॉल करें।

बहुत बार, हमें न केवल डेटा सेट की आवश्यकता होगी, बल्कि "टीएस" वर्ग (समय श्रृंखला) के डेटा की भी आवश्यकता होगी। किसी भी वेरिएबल से समय श्रृंखला बनाने के लिए, आपको निम्नलिखित कमांड चलाने की आवश्यकता है:

यहां, प्रारंभ पैरामीटर आपको वह तारीख निर्दिष्ट करने की अनुमति देता है जिससे हमारी समय श्रृंखला शुरू होती है, और आवृत्ति डेटा की आवृत्ति निर्दिष्ट करती है। हमारे उदाहरण में संख्या 12 इंगित करती है कि हम मासिक डेटा के साथ काम कर रहे हैं। इस आदेश को निष्पादित करने के परिणामस्वरूप, हम अपने वेक्टर "x" को जनवरी 1984 से शुरू होने वाले मासिक डेटा की समय श्रृंखला में बदल देंगे।

ये R और RStudio के मूल तत्व हैं जिनकी हमें आवश्यकता होगी।

पी.पी.एस. आर के लिए एक काफी अच्छी मार्गदर्शिका QSAR4U वेबसाइट पर पावेल पोलिशचुक द्वारा प्रकाशित की गई है।

पी.पी.पी.एस. आर के बारे में बहुत सारी जानकारी आधिकारिक वेबसाइट पर प्रस्तुत की गई है।

स्वतंत्र काम

और यहां वे कार्य हैं जिन्हें आपको आर में स्वयं करना है। निम्नलिखित कमांड चलाएँ, देखें कि क्या होता है और यह समझने का प्रयास करें कि ऐसा क्यों हुआ:

(41/3 + 78/4)*2 2^3+4 1/0 0/0 अधिकतम(1,मिनट(-2.5),अधिकतम(2,पीआई)) sqrt(3^2+4^2 ) क्स्प (2)+3आई लॉग(1024) लॉग(1024, आधार=2) सी(1:3) सी(1:5)*2 + 4 एक्स

]. "मानसिक श्रम का सर्वहारा"। शिक्षा से भौतिक विज्ञानी. मैं 30+ वर्षों से चिकित्सा और जैविक सूचना प्रसंस्करण के क्षेत्र में काम कर रहा हूं।
मैं ठीक 10 वर्षों से आर में काम कर रहा हूं, मैटलैब के साथ 15 वर्षों के घनिष्ठ सहयोग के बाद इसमें स्थानांतरित हो गया हूं। किसी अन्य कामकाजी मंच पर मेरे प्रवास का मूल कारण ऑकलैंड, न्यूजीलैंड में पृथ्वी के दूसरी ओर मेरा अपना भौतिक प्रवास था। यहां, पहले दिन से, जीवन ने मुझे आर की बाहों में धकेल दिया, जिसका मुझे अब तक पछतावा नहीं हुआ।

मैं पेशेवर ru.net में R के प्रति रुचि का प्रकोप तेजी से देख रहा हूं। खैर, उनके बारे में लेख इस सम्मानित संसाधन पर दिखाई देते हैं। आगे कट के तहत, आर को रूसी भाषा में पेश करने का मेरा पहला प्रयास उस प्रस्तुति का पहला (मौखिक) हिस्सा है जो मैंने तीन साल पहले आयोवा स्टेट यूनिवर्सिटी के पशु विज्ञान संकाय के सहयोगियों के लिए बनाया था।
(तरफ के लिए:लेकिन यह पता चला है कि स्वयं का अनुवाद करना कठिन है...)


इस पोस्ट में

  • आर क्या है?
  • वह कहाँ से आया
  • मैं उससे प्यार क्यों करता हूँ?
  • मिथक और सच्चाई

क्या हुआ है आर

सबसे पहले आरप्रोग्रामिंग भाषा का उपयोग करके सांख्यिकीय और अन्य वैज्ञानिक गणनाओं के लिए एक प्रणाली है एस .

एस- भाषा लिखित सांख्यिकीविदों के लिए सांख्यिकीविद्।जैसा कि लेखक जॉन चेम्बर्स द्वारा परिभाषित किया गया है। भाषा, अपनी स्थापना के बाद से, बहुत ही चुनिंदा सांख्यिकीविदों की पीढ़ियों द्वारा बहुत अच्छी तरह से प्राप्त और परीक्षण की गई है। ऐसा माना जा सकता है कि यह विश्व सांख्यिकी समुदाय में व्यापक रूप से जाना और स्वीकार किया जाता है। जीभ पर एसकई महत्वपूर्ण महामारी विज्ञान, पर्यावरण और वित्तीय मॉडल लागू किए गए हैं और दुनिया भर में और कई उद्योगों में अभी भी चल रहे हैं। मेरे दृष्टिकोण से एक भाषा के रूप में, एक "लेखक" के रूप में, एसभाषा का एक बहुत अच्छा विकल्प है एसएएस .

मेरे अपने अनुभव से - परिचित और पहला पाठ एसमुझे खुद 90 के दशक की शुरुआत में डब्ल्यूएचओ के सांख्यिकीविदों से जानकारी मिली थी, जिनके साथ मैंने उस समय के वैज्ञानिक अनुसंधान में काम किया था।

कई अनुमानों के अनुसार, आर (दोनों मेरी राय में - और बहुत अतिरंजित नहीं) सबसे सफल ओपन सोर्स परियोजनाओं में से एक है, जो जीएनयू लाइसेंस मानकों के अनुसार दुनिया भर के दर्जनों दर्पणों से स्वतंत्र रूप से वितरित की जाती है।
लेखक परियोजना के व्यावसायीकरण के सभी प्रस्तावों को स्पष्ट रूप से अस्वीकार करते हैं, हालांकि आज यह मानने का कारण है कि दुनिया में आर की स्थापित प्रतियों की संख्या कुल प्रतियों की संख्या से अधिक है। सभीसांख्यिकीय विश्लेषण की अन्य प्रणालियाँ।

शुरुआत से लेकर आज तक, यह परियोजना मुझे स्थिरता, उपयोगकर्ता समर्थन, कोड संगतता इत्यादि के लिए सबसे गहरा सम्मान (प्रशंसा के कगार पर) पैदा करती है, जिसे मैं अवधारणा में जोड़ूंगा। संस्कृति.
हालाँकि, अंतिम वाक्य, बल्कि, बाद के उपखंडों के लिए।

यह कहां से आया था एसऔर इसका आर से क्या लेना-देना है?

निस्संदेह, विकिपीडिया आपको कई और पत्र देगा।
मैं केवल वही नोट करूंगा जो मैं इस दुनिया में इस जीवन में एस और आर के स्थान को समझने के लिए महत्वपूर्ण मानता हूं।

बेल लेबोरेटरीज (उर्फ बेल लैब्स, एटी एंड टी बेल लेबोरेटरीज) विज्ञान और प्रौद्योगिकी और विशेष रूप से आईटी कंपनी के इतिहास में काफी प्रसिद्ध हैं। वहां सांख्यिकीय अनुसंधान हमेशा बहुत गंभीर रहा है और सभी उपलब्ध कंप्यूटर टूल्स (पढ़ें - फोरट्रान और लिस्प कोड के टन) द्वारा भी गंभीरता से समर्थन किया गया है।

जो बाद में एस भाषा बन गई, उसकी शुरुआत 70 के दशक में जॉन चेम्बर्स की पहल और निर्देशन में स्क्रिप्ट के एक सेट के रूप में हुई, जो फोरट्रान कोड में डेटा को "फ़ीड" करना आसान बनाती है। वे। सबसे आगे इंटरैक्टिव डेटा हेरफेर, कॉम्पैक्टनेस, लेखन में सुखदता और कोड की पठनीयता और तालिकाओं और ग्राफ़ के विभिन्न उपकरणों पर एक सभ्य आउटपुट प्राप्त करने का कार्य था।

भाषा का वाक्यविन्यास लगभग मनमाने ढंग से जटिल डेटा संरचनाओं के निर्माण के लिए प्रदान करता है, विशिष्ट सांख्यिकीय कार्यों और वस्तुओं का वर्णन करने के साधन - स्टेट। परीक्षण, मॉडल, आदि

1984 के बाद से, भाषा ने एक नाम ले लिया है, इसका अपना "बाइबिल" है (चेम्बर्स और बेकर्स द्वारा प्रकाशित पुस्तक: एस: डेटा विश्लेषण और ग्राफिक्स के लिए एक इंटरैक्टिव वातावरण), डिफ़ॉल्ट रूप से सांख्यिकी और "संभावना" का लगभग पूरा "सज्जन सेट" शामिल होना शुरू हुआ - वितरण, यादृच्छिक संख्या जेनरेटर, सांख्यिकीय परीक्षण, कई मानक सांख्यिकीय विश्लेषण, मैट्रिक्स के साथ काम इत्यादि, वैज्ञानिक की एक विकसित प्रणाली का उल्लेख नहीं करना ग्राफ़िक्स. सबसे महत्वपूर्ण बात यह है कि यह दुनिया भर के उपयोगकर्ताओं के लिए बहुत ही उचित कीमत पर उपलब्ध हो गया है।

1988 में (एक और पुस्तक प्रकाशित हुई नई एस भाषा) - ओओपी का उपयोग करके संशोधित, सब कुछ बहुत ही उचित डिफ़ॉल्ट मान, संशोधन के लिए पहुंच, स्व-टिप्पणी तत्वों आदि के साथ ऑब्जेक्ट बन गया।

उसी समय, प्रयोगशालाओं ने स्रोत कोड और "बेल लैब" प्रकाशित किए। एसछात्रों और वैज्ञानिक उपयोग के लिए निःशुल्क हो गया। यह सब किसी तरह एटी एंड टी के "बेदखली" से जुड़ा था, लेकिन मुझे इन विवरणों में बहुत दिलचस्पी नहीं थी।

भाषा का व्यावसायिक कार्यान्वयन हुआ था और संभवतः अभी भी मौजूद है एस. मैंने सामना किया एस प्लसऔर S2000. उन्हें अलग-अलग समय पर अलग-अलग कंपनियों द्वारा समर्थित किया गया था, मूल रूप से, वे पहले से बनाए गए समर्थन के कारण रहते थे (जीवित?)। एसअनुप्रयोग। इन पोस्ट-बेल संस्करणों में एसओओपी इंजन का एक नया संस्करण था, लेकिन एक शुद्ध उपयोगकर्ता के लिए यह ऐतिहासिक कोड संगतता के मामले में लगभग रक्तहीन हो गया।

आर- भाषा का एकमात्र गैर-व्यावसायिक पूर्णतः स्वतंत्र (मूल बेल से) कार्यान्वयन एस.

और हमारे समय में एक दुर्लभ समझौते के द्वारा, किसी तरह से मेरे लिए अकल्पनीय, वाणिज्यिक के वर्तमान संस्करणों के डेवलपर्स एसऔर गैर-लाभकारी आरउनकी लगभग पूर्ण अनुकूलता और निरंतरता बनाए रखें।

और अब आर

इस जीवन में किसी भी महत्वपूर्ण घटना के पीछे किसी प्रकार का करिश्माई व्यक्तित्व होता है। हालाँकि, ऐसा हो सकता है और यही घटना के महत्व की परिभाषा है।

R के मामले में, ऐसे तीन लोग हैं।
मैं पहले ही जॉन चैम्बर्स का उल्लेख कर चुका हूँ।

रॉस इहाका, एक छात्र और फिर ऑकलैंड विश्वविद्यालय में सांख्यिकी विभाग में एक शोध साथी, ने अपने शोध प्रबंध के विषय के रूप में सांख्यिकीय प्रोग्रामिंग भाषाओं के लिए एक वर्चुअल मशीन (वीएम) बनाने की संभावना का अध्ययन चुना (जो था) एमआईटी, यूएसए में किया गया)। को मध्यवर्ती भाषा के रूप में चुना गया। तुतलाना (कॉमन लिस्प, सीएल) और उस पर एक वीएम प्रोटोटाइप लागू किया गया है, जो छोटे उपसमूहों को "समझता" है एसएएसऔर एस.
रॉस अपने शोध प्रबंध को अंतिम रूप देने के लिए ओकलैंड लौट आए, जहां उनकी जल्द ही रॉबर्ट जेंटलमैन से मुलाकात हुई और आर प्रोजेक्ट में उनकी रुचि हो गई।
रॉस ने कभी भी अपने शोध प्रबंध का बचाव नहीं किया, लेकिन उसके पास पहले से ही "योग्यता के आधार पर" कई विश्वविद्यालयों से डिग्री है। पिछले साल उन्हें इस उपाधि से सम्मानित किया गया था और उन्हें अपने गृह विश्वविद्यालय में एसोसिएट प्रोफेसर (सहयोगी प्रोफेसर) का पद प्राप्त हुआ था।

रॉबर्ट जेंटलमैन, प्रोग्रामिंग के शौक़ीन एक अन्य सांख्यिकीविद्, जो मूल रूप से कनाडा के थे, ऑकलैंड विश्वविद्यालय में इंटर्नशिप के दौरान (वह तब ऑस्ट्रेलिया में काम कर रहे थे) ने सुझाव दिया कि रॉस "किसी प्रकार की भाषा लिखें।"
उस किंवदंती के अनुसार, जो मैंने स्वयं इन "संस्थापक पिताओं" से केवल एक महीने में सुनी थी, उन्मत्त उत्साह में, उन्होंने इसे फिर से लिखा क्लोरीनलगभग सभी टीमें एस, जिसमें एक शक्तिशाली रैखिक मॉडलिंग लाइब्रेरी भी शामिल है।

कंप्यूटिंग इंजन आरप्रोटोटाइप की परंपराओं का पालन करते हुए, प्रसिद्ध, आम तौर पर मान्यता प्राप्त और मुफ्त बीएलएएस लाइब्रेरी को चुना गया, (उसी इंटरफेस के साथ एटलस आदि का उपयोग करने की क्षमता के साथ)।
रॉस के सबसे करीबी दोस्तों में से एक और ओकलैंड विश्वविद्यालय के एक कर्मचारी, पॉल मुरेल ने स्क्रैच से एक ग्राफिक्स इंजन लिखने के लिए अपने रास्ते से बाहर चले गए (सी में, ऐसा लगता है) जो पूरी तरह से एक की कार्यक्षमता को पुन: पेश करता है एस.

परिणाम एक मुफ़्त, पूर्ण-विशेषताओं वाला पैकेज था जिसने तुरंत ओकलानले विश्वविद्यालय के पाठ्यक्रम में एक स्थान प्राप्त कर लिया, जो चैंबर्स की बहुत विस्तृत और उच्च-गुणवत्ता वाली पुस्तकों के विवरण के साथ पूरी तरह से सुसंगत था, जो परंपरागत रूप से पेपरबैक और मध्यम-गुणवत्ता मुद्रण में प्रकाशित होते थे, लेकिन थे सस्ता और सुलभ.
जीएनयू (जैसे जीआईएस) आंदोलन में कई कार्यकर्ता समूहों ने आर को वैज्ञानिक कंप्यूटिंग के लिए एक मंच के रूप में अपनाया है।

लेकिन वास्तव में सबसे व्यापक प्रसिद्धि आरजैव सूचना विज्ञान में अधिग्रहण किया गया, जब "पिता" रॉबर्ट जेंटलमैन में से एक, जो उस समय कंपनी एफिमेट्रिक्स के काम में शामिल थे, ने कंपनी के वाणिज्यिक सॉफ़्टवेयर की सभी कार्यक्षमताओं को दोहराया और ओपन सोर्स प्रोजेक्ट लॉन्च किया (ठीक है, एक नहीं, निश्चित रूप से) बायोकंडक्टर। वर्तमान में बायोकंडक्टरसभी "-ओमिक्स" (जीनोमिक्स, प्रोटिओमिक्स, मेटाबोलॉमिक्स आदि) के लिए जैव सूचनात्मक खुले स्रोत का निर्विवाद नेता है।

स्वाभाविक रूप से, जैव सूचनात्मक कल्पनाओं के इस दंगे के लिए एकल इंटरफ़ेस भाषा बन गई है आर.

यह चक्र तब पूरा हुआ जब भाषा के निर्माता चेम्बर्स सेवानिवृत्त हुए एस, सक्रिय डेवलपर्स के समूह का पूर्ण सदस्य बन गया आर.

मैं उससे प्यार क्यों करता हूँ (सूची)

  1. अन्तरक्रियाशीलता, "डेटा के साथ प्रोग्रामिंग" मेरी पसंदीदा कार्यशैली है
  2. सुरुचिपूर्ण (शौकिया के लिए) भाषा - मुझे सूचियाँ, डेटा फ़्रेम, कार्यात्मक प्रोग्रामिंग और लैम्ब्डा फ़ंक्शंस (ए-ला) यू अभिव्यक्ति की स्वतंत्रता पसंद है: एक ही समस्या को दस तरीकों से हल किया जा सकता है (दिनचर्या की भावना को नरम करता है)
  3. "वह इस दुनिया को गंभीरता से देखता है" - शायद ही कभी कोई धागा "गिरता है" या "लटकता है", लापता डेटा के साथ तार्किक संचालन, रनटाइम पर त्रुटि प्रबंधन (त्रुटि-त्रुटि), मानक I के स्तर पर सिस्टम के साथ आसान आदान-प्रदान / ओ इत्यादि.
  4. उपयोग के लिए तैयार सांख्यिकीय प्रक्रियाओं का पूरा सेट
  5. अच्छी तरह से प्रलेखित और अच्छी तरह से बनाए रखा गया - अनुकूलता, निरंतरता, आदि।
  6. उसके चारों ओर एक मानवीय रूप से सुखद पेशेवर समुदाय (मंच, उपयोगकर्ता सम्मेलन, आदि) इकट्ठा हुआ।
  7. किसी भी चीज़ पर बाहरी पुस्तकालयों और कार्यों के लिए अच्छी तरह से प्रलेखित इंटरफ़ेस - फोरट्रान, सी, जावा। इसलिए विज्ञान के लगभग सभी क्षेत्रों में सांख्यिकी और डेटा प्रोसेसिंग के सभी पहलुओं पर अच्छी तरह से प्रलेखित पुस्तकालयों का समुद्र, लेकिन जैव सूचना विज्ञान/जैव सांख्यिकी पर मुख्य ध्यान देने के साथ; यदि लेखक की इच्छा हो तो सब कुछ नियमित और सही ढंग से अद्यतन किया जाता है
  8. "बुनियादी कॉन्फ़िगरेशन" में एक अनिवार्य जीयूआई की कमी - ठीक है, मैं "माउस" व्यक्ति नहीं हूं!
सूची से बाहर: मुझे बस इस बात की ख़ुशी है कि मेरे मुख्य कार्य उपकरण में... आत्मा है।
दरअसल, मैं अपने लेख में क्या दिखाने की कोशिश कर रहा हूं।

मैं इसका उपयोग क्यों और कैसे करूं (उदाहरण)

मैंने इस अनुभाग में लिखना शुरू किया, लेकिन रुक गया।
अन्यथा, मैं कभी भी समाप्त नहीं होता।
ओह, शायद बाद में।

मिथक और सच्चाई

आर धीरे
आर पतला है, गणना के लिए ब्लास/लैपैक/एटलस लाइब्रेरी का उपयोग करता है, उन अच्छे पुराने फोरट्रान (अक्सर) वर्कहॉर्स की तुलना में कुछ तेज़ लिखने का प्रयास करें। सभी महत्वपूर्ण कार्य, एक नियम के रूप में, वेक्टर संचालन का उपयोग करते हैं और इसमें कार्यान्वित किए जाते हैं साथ.
आर कंप्यूटिंग संसाधनों का दुरुपयोग करता है, विशेष रूप से मेमोरी का
हां, डेवलपर्स ऐसे पाप को पहचानते हैं। लेकिन किसी विशेषज्ञ का कार्य समय अब ​​हार्डवेयर से भी अधिक महंगा है। आधुनिक कामकाजी कंप्यूटर से खिलौने उतारें और अधिकांश वास्तविक डेटा सेट के साथ आपको आर के साथ कोई समस्या नहीं होगी।
मुफ़्त सॉफ़्टवेयर विश्वसनीय नहीं हो सकता
शायद: फोरट्रान, लिनक्स, सी, लिस्प, जावावगैरह।
उपसंहार के बजाय
जैसा कि ऊपर कहा गया है, नीचे दी गई पोस्ट वास्तव में काफी विशिष्ट लक्षित दर्शकों के लिए मेरी प्रस्तुति का अनुवाद है, और मैं संक्षेप में उस दर्शकों का वर्णन करूंगा।

कई "स्वच्छ" आईटी कंपनियों को ऐसे लोगों से मिलना होगा, क्योंकि खाद्य उद्योग ने पूंजी जुटाने और मुनाफा कमाने के लिए लंबे समय से तेल और अन्य ऊर्जा स्रोतों के साथ प्रतिस्पर्धा की है। और चिकित्सा और फार्माकोलॉजी में जैव सूचना विज्ञान बाजार की क्षमता सीमित है, चाहे कोई कुछ भी कहे।

तो, मेरे दर्शक आनुवंशिकी और प्रजनन, पशु चिकित्सा, कम अक्सर जीव विज्ञान (मुख्य रूप से आणविक) में बुनियादी शिक्षा वाले लोग हैं। चाचा और चाची (बाद वाले और भी हैं), 20-30 साल के ... प्रोग्रामिंग (!) पर फोरट्रानया वी.बी, प्रसिद्ध रूप से 100k पंक्तियों / स्तंभों की एक्सेल तालिकाओं को प्रबंधित करना और समय-समय पर उनके कंप्यूटिंग लिनक्स 500 + साझा मेमोरी के 12TB के कोर क्लस्टर के साथ उनके कार्यों (और उनके प्रोग्रामिंग) को "छोड़ना" और समय-समय पर अन्य दस टेराबाइट्स द्वारा डिस्क मेमोरी के विस्तार की आवश्यकता होती है।

पद्धतिगत आधार प्राचीन का एक विस्फोटक मिश्रण है क्योंकि विचरण की दुनिया मिश्रित मॉडलों के साथ विश्लेषण करती है जिसे अधिकतम संभावना विधि, "मस्तिष्क-पिघलने" बायेसियन नेटवर्क इत्यादि के अलावा किसी अन्य तरीके से हल नहीं किया जा सकता है।

डेटा - इकाइयों से लेकर हजारों लाइनों तक डेटा की तालिकाएं, कभी-कभी फेनोटाइप के साथ 1-5 कॉलम भी शामिल होती हैं, लेकिन अधिक बार - चर के दसियों या सैकड़ों "का" कॉलम जो कमजोर रूप से एक दूसरे के साथ और फेनोटाइप के साथ सहसंबद्ध होते हैं।

खैर, हाँ, उनके पास पारिवारिक संबंधों (आखिरकार आनुवंशिकी) के संदर्भ में हर चीज पर विचार करने की एक "अच्छी परंपरा" भी है। रिश्तों को पारंपरिक रूप से "रिश्तेदारी संबंधों" (वंशावली) के मैट्रिक्स के रूप में आयामों के साथ प्रस्तुत किया जाता है, उदाहरण के लिए, 40,000 x 40,000 (यह यदि 40,000 जानवर हैं)। खैर, या (अब तक, सौभाग्य से, केवल परियोजना में) 20,000,000 x 20,000,000 - यह डेटाबेस में उपलब्ध सभी 20 मिलियन ऐतिहासिक जानवरों को एक मॉडल के साथ "कवर" करना है ( डीबी 2, अगर किसी को दिलचस्पी है, और यहां तक ​​कि कोबोल को भी अभी तक हर जगह से "काटा" नहीं गया है...)

साहित्य से अटी पड़ी मेजों पर (एक ही समय में) डमीज़ के लिए फोरट्रान, जावा, सी#, स्काला, ऑक्टेविया, लिनक्सआप हाल के जैव सूचना विज्ञान स्नातकों को पहचान सकते हैं। लेकिन किसी तरह जल्दी ही उनमें से कई लोग विज्ञान को "कोडर्स" के लिए छोड़ देते हैं।

हालाँकि, मैं रिवर्स मूवमेंट का मामला भी जानता हूँ। इसलिए आर और भी बहुत कुछ काम आएगा.

मैं मुक्त सांख्यिकीय विश्लेषण वातावरण आर का उपयोग करने के बारे में बात करना चाहता हूं। मैं इसे एसपीएसएस सांख्यिकी जैसे सांख्यिकीय पैकेज के विकल्प के रूप में मानता हूं। मुझे गहरा अफसोस है कि यह हमारी मातृभूमि की विशालता में पूरी तरह से अज्ञात है, लेकिन व्यर्थ है। मेरा मानना ​​है कि एस भाषा में अतिरिक्त सांख्यिकीय विश्लेषण प्रक्रियाओं को लिखने की क्षमता आर प्रणाली को डेटा विश्लेषण के लिए एक उपयोगी उपकरण बनाती है।

2010 के वसंत सेमेस्टर में, मुझे रूसी राज्य मानवतावादी विश्वविद्यालय के इंटेलिजेंट सिस्टम विभाग के छात्रों के लिए "सांख्यिकीय डेटा विश्लेषण" पाठ्यक्रम पर व्याख्यान देने और व्यावहारिक कक्षाएं संचालित करने का मौका मिला।

मेरे छात्रों ने पहले संभाव्यता सिद्धांत में एक सेमेस्टर पाठ्यक्रम लिया था जिसमें असतत संभाव्यता स्थान, सशर्त संभाव्यता, बेयस प्रमेय, "बड़ी संख्या का कानून", सामान्य कानून पर कुछ पृष्ठभूमि और केंद्रीय सीमा प्रमेय की मूल बातें शामिल थीं।

लगभग पांच साल पहले मैं पहले से ही (तब एकीकृत) सेमेस्टर पाठ्यक्रम "संभावना और गणितीय सांख्यिकी के बुनियादी सिद्धांत" पढ़ा रहा था, इसलिए मैंने आंकड़ों पर अपने नोट्स (छात्रों को प्रत्येक कक्षा से पहले दिए गए) का विस्तार किया। अब जबकि आरएसयूएच के पास विभाग का एक छात्र सर्वर isdwiki.rsuh.ru है, मैं उन्हें समानांतर में एफ़टीपी पर अपलोड करता हूं।

प्रश्न उठा: कंप्यूटर कक्षा में व्यावहारिक प्रशिक्षण के लिए किस प्रोग्राम का उपयोग किया जाए? आमतौर पर उपयोग किए जाने वाले Microsoft Excel को स्वामित्व और कुछ सांख्यिकीय प्रक्रियाओं के गलत कार्यान्वयन दोनों के कारण अस्वीकार कर दिया गया था। आप इसके बारे में पढ़ सकते हैं, उदाहरण के लिए, ए.ए. मकारोव और यू.एन. ट्यूरिन की पुस्तक "कंप्यूटर पर डेटा का सांख्यिकीय विश्लेषण"। निःशुल्क ऑफिस सुइट Openoffice.org से कैल्क स्प्रेडशीट को इस तरह से रशीकृत किया गया है कि मुझे आवश्यक फ़ंक्शन मुश्किल से मिल पाता है (उनके नाम भी घृणित रूप से छोटे कर दिए गए हैं)।

सबसे अधिक इस्तेमाल किया जाने वाला पैकेज SPSS सांख्यिकी है। एसपीएसएस को वर्तमान में आईबीएम द्वारा अधिग्रहित किया जा रहा है। आईबीएम एसपीएसएस सांख्यिकी के फायदों में, मैं निम्नलिखित पर प्रकाश डालूंगा:

  • विभिन्न प्रारूपों में सुविधाजनक डेटा लोडिंग (एक्सेल, एसएएस, ओएलई डीबी के माध्यम से, ओडीबीसी डायरेक्ट ड्राइवर के माध्यम से);
  • विभिन्न सांख्यिकीय विश्लेषण प्रक्रियाओं तक सीधी पहुंच के लिए एक कमांड भाषा और एक व्यापक मेनू प्रणाली दोनों की उपस्थिति;
  • परिणाम प्रदर्शित करने के ग्राफिक साधन;
  • अंतर्निर्मित सांख्यिकी कोच मॉड्यूल जो अंतःक्रियात्मक रूप से पर्याप्त विश्लेषण पद्धति प्रदान करता है।
मेरी राय में आईबीएम एसपीएसएस सांख्यिकी के नुकसान हैं:
  • छात्रों के लिए भी भुगतान किया गया;
  • विशेष प्रक्रियाओं वाले (अतिरिक्त भुगतान वाले) मॉड्यूल प्राप्त करने की आवश्यकता;
  • केवल 32-बिट लिनक्स ऑपरेटिंग सिस्टम के लिए समर्थन, हालाँकि विंडोज़ 32-बिट और 64-बिट दोनों का समर्थन करता है।
एक विकल्प के रूप में, मैंने चुना। इस प्रणाली का विकास 1995 में मेलबर्न विश्वविद्यालय के सांख्यिकी विभाग में रॉबर्ट जेंटलमैन और रॉस इहाक के प्रयासों से शुरू हुआ। लेखकों के नाम के पहले अक्षर ने इसका शीर्षक निर्धारित किया। इसके बाद, प्रमुख सांख्यिकीविद् इस प्रणाली के विकास और विस्तार में शामिल हो गए।

मैं चर्चा की गई प्रणाली के फायदों पर विचार करता हूं:

  • जीएनयू पब्लिक लाइसेंस के तहत कार्यक्रम का वितरण;
  • सीआरएएन (द कॉम्प्रिहेंसिव आर आर्काइव नेटवर्क) रिपॉजिटरी के व्यापक नेटवर्क में स्रोत कोड और बाइनरी मॉड्यूल दोनों की उपलब्धता। रूस के लिए, यह cran.gis-lab.info सर्वर है;
  • विंडोज़ के लिए एक इंस्टॉलेशन पैकेज की उपस्थिति (32-बिट और 64-बिट विस्टा दोनों पर काम करती है)। मुझे गलती से पता चला कि इंस्टॉलेशन के लिए Windows XP के तहत व्यवस्थापक अधिकारों की आवश्यकता नहीं है;
  • लिनक्स पर रिपॉजिटरी से इंस्टॉल करने की क्षमता (मेरे लिए Ubuntu 9.10 के 64-बिट संस्करण पर काम करती है);
  • सांख्यिकीय प्रक्रियाओं आर के लिए अपनी स्वयं की प्रोग्रामिंग भाषा की उपस्थिति, जो वास्तव में मानक बन गई है। उदाहरण के लिए, यह पूरी तरह से नए आईबीएम एसपीएसएस सांख्यिकी डेवलपर सिस्टम द्वारा समर्थित है;
  • यह भाषा बेल लैब्स में विकसित एस भाषा का विस्तार है और वर्तमान में वाणिज्यिक एस-प्लस प्रणाली का आधार बनती है। एस-प्लस के लिए लिखे गए अधिकांश प्रोग्राम आसानी से आर वातावरण में चलाए जा सकते हैं;
  • स्प्रेडशीट के साथ डेटा का आदान-प्रदान करने की क्षमता;
  • दस्तावेज़ीकरण प्रयोजनों के लिए गणनाओं के संपूर्ण इतिहास को सहेजने की क्षमता।
पहले पाठ के लिए सीडी तैयार की गईं, जिन पर इंस्टॉलेशन फ़ाइलें, दस्तावेज़ीकरण और मैनुअल रिकॉर्ड किए गए थे। मैं आपको बाद वाले के बारे में और बताऊंगा। सीआरएएन इंस्टॉलेशन, आर (और इसके सबसेट एस), अतिरिक्त सांख्यिकीय प्रक्रियाएं लिखने, डेटा निर्यात और आयात करने के लिए विस्तृत उपयोगकर्ता गाइड प्रदान करता है। योगदान दस्तावेज़ीकरण अनुभाग में शैक्षिक प्रक्रिया में इस पैकेज का उपयोग करने वाले सांख्यिकी शिक्षकों द्वारा बड़ी संख्या में प्रकाशन शामिल हैं। दुर्भाग्य से, रूसी में कुछ भी नहीं है, हालाँकि, उदाहरण के लिए, पोलिश में भी है। अंग्रेजी भाषा की पुस्तकों में, मैं सिटी यूनिवर्सिटी ऑफ़ न्यूयॉर्क के प्रोफेसर जॉन वेरज़ानी द्वारा लिखित "प्रारंभिक सांख्यिकी के लिए आर का उपयोग करना" और इंटरनेशनल से प्रोफेसर रॉसिटर (हॉलैंड) द्वारा "सांख्यिकीय कंप्यूटिंग के लिए आर प्रोजेक्ट का परिचय" का उल्लेख करना चाहूंगा। भू-सूचना विज्ञान और पृथ्वी अवलोकन संस्थान।

पहला पाठ पैकेज को स्थापित करने और उसका उपयोग करना सीखने, आर भाषा के सिंटैक्स से परिचित होने के लिए समर्पित था। एक परीक्षण कार्य के रूप में, हमने मोंटे कार्लो विधि द्वारा इंटीग्रल्स की गणना का उपयोग किया। यहां आर.वी. की संभाव्यता की गणना का एक उदाहरण दिया गया है। पैरामीटर 3 के साथ घातीय वितरण के साथ 0.5 (10000 - प्रयासों की संख्या) से कम मान लें।
> x=runif(10000,0,0.5)
> y=runif(10000,0,3)
>t=y<3*exp(-3*x)
>u=x[t]
>v=y[t]
>प्लॉट(यू,वी)
> i=0.5*3*लंबाई(u)/10000

पहली दो पंक्तियाँ आयत x में बिंदुओं का समान वितरण निर्धारित करती हैं, फिर वे बिंदु जो घातीय घनत्व 3*exp(-3*x) के ग्राफ़ के अंतर्गत आते हैं, का चयन किया जाता है, प्लॉट फ़ंक्शन ग्राफ़िकल आउटपुट विंडो में बिंदुओं को प्रदर्शित करता है , और अंत में आवश्यक अभिन्न की गणना की जाती है।
दूसरा सत्र वर्णनात्मक सांख्यिकी (मात्रा, माध्य, माध्य, विचरण, सहसंबंध और सहप्रसरण) और प्लॉटिंग (हिस्टोग्राम, बॉक्स-एंड-व्हिस्कर्स) की गणना के लिए समर्पित था।
बाद के पाठों में, "आरसीएमडीआर" लाइब्रेरी का उपयोग किया गया। यह आर वातावरण के लिए एक ग्राफिकल यूजर इंटरफेस (जीयूआई) है। लाइब्रेरी कनाडा में मैकमास्टर यूनिवर्सिटी के प्रोफेसर जॉन फॉक्स द्वारा बनाई जा रही है।

यह लाइब्रेरी R वातावरण के अंदर install.packages('Rcmdr', dependency=TRUE) कमांड को निष्पादित करके स्थापित की गई है। मानक सांख्यिकीय प्रक्रियाएं। यह उन पाठ्यक्रमों के लिए विशेष रूप से सुविधाजनक है जहां मुख्य बात छात्र को बटन दबाना सिखाना है (दुर्भाग्य से, अब इनमें से अधिक से अधिक हैं)।

मेरे पिछले पाठ्यक्रम से, सेमिनारों के लिए नोट्स का विस्तार किया गया। वे isdwiki.rsuh.ru से एफ़टीपी के माध्यम से भी उपलब्ध हैं। इन नोट्स में महत्वपूर्ण मानों की तालिकाएँ थीं जिनका उपयोग ब्लैकबोर्ड गणना के लिए किया गया था। इस वर्ष, छात्रों को इन समस्याओं को कंप्यूटर पर हल करने के लिए कहा गया था, और (सामान्य) अनुमानों का उपयोग करके तालिकाओं की जांच करने के लिए भी कहा गया था, जैसा कि नोट्स में भी दर्शाया गया है।

कुछ गलतियाँ मेरी भी थीं. उदाहरण के लिए, मुझे बहुत देर से एहसास हुआ कि आरसीएमडीआर आपको डाउनलोड किए गए पैकेजों से डेटा आयात करने की अनुमति देता है, इसलिए अपेक्षाकृत बड़े नमूने केवल प्रतिगमन विश्लेषण पर पाठों में संसाधित किए गए थे। गैर-पैरामीट्रिक परीक्षण प्रस्तुत करते समय, डेटा मेरे नोट्स का उपयोग करके छात्रों द्वारा हाथ से दर्ज किया गया था। एक और दोष, जैसा कि मैं अब समझता हूं, आर भाषा में काफी जटिल कार्यक्रम लिखने के लिए होमवर्क असाइनमेंट की अपर्याप्त संख्या थी।

यह ध्यान दिया जाना चाहिए कि कई वरिष्ठ छात्र मेरी कक्षाओं में गए, और कुछ ने व्याख्यान और सेमिनार से सामग्री डाउनलोड की। आरएसयूएच के इंटेलिजेंट सिस्टम विभाग के छात्रों को गणित और प्रोग्रामिंग में मौलिक प्रशिक्षण मिलता है, इसलिए आर वातावरण का उपयोग (निश्चित सांख्यिकीय प्रक्रियाओं के साथ स्प्रेडशीट और सांख्यिकीय पैकेज के बजाय) मुझे बहुत उपयोगी लगता है।

यदि आपको सांख्यिकी का अध्ययन करने और विशेष रूप से सांख्यिकीय डेटा प्रोसेसिंग के लिए गैर-मानक प्रक्रियाओं को लिखने के कार्य का सामना करना पड़ रहा है, तो मेरा सुझाव है कि आप अपना ध्यान आर पैकेज पर लगाएं।

हाल ही में मुझे ऐसी घटना का सामना करना पड़ा - कई लोगों ने आर प्रोग्रामिंग भाषा के बारे में सुना है। लेकिन बहुत कम लोग जानते हैं कि ये क्या है.

चूँकि मैं इस भाषा का मूल वक्ता हूं और इसे लोकप्रिय बनाने में रुचि रखता हूं, इसलिए मैं इस पोस्ट में इस विषय को थोड़ा कवर करने का प्रयास करूंगा। यह दिलचस्प हो जाएगा!

योजना सरल है:

1)आर भाषा क्या है?

2) रूस में लोकप्रियता

आर भाषा क्या है?

आर (विकी) सांख्यिकीय डेटा प्रोसेसिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग भाषा है, साथ ही जीएनयू परियोजना के तहत एक स्वतंत्र और खुला स्रोत कंप्यूटिंग वातावरण है।

हमारा तरीका: बाज़ार पैटर्न खोजने के लिए भाषा आदर्श है। मुफ़्त, तेज़ और मुफ़्त।

यह आपको हर उस चीज़ पर सांख्यिकीय अनुसंधान करने की अनुमति देता है जिस तक आपके हाथ पहुंच सकते हैं। इसके अस्तित्व के वर्षों में, लगभग किसी भी लागू समस्या को हल करने के लिए दर्जनों और सैकड़ों एक्सटेंशन सामने आए हैं।

यह पश्चिम में एल्गोरिथम व्यापारियों के लिए सबसे लोकप्रिय प्रोग्रामिंग भाषा है। मशीन लर्निंग और सांख्यिकी के क्षेत्र में वर्तमान में जो उपलब्ध है, यह उसकी अत्याधुनिक तकनीक है।

आर में प्रोग्राम लिखने के लिए, बस आर-स्टूडियो डाउनलोड करें और बस इतना ही।



कुछ समय पहले, भाषा को लोकप्रिय बनाने के हिस्से के रूप में, मैंने एक मिनी-कोर्स "आर फॉर एवरीवन" रिकॉर्ड किया था। मुक्त। देखें कि यह सब कितना आसान काम करता है और स्क्रिप्ट लिखने में कितनी तेजी से काम करता है। यह बहुत बढ़िया है!

रूस में लोकप्रियता

वांछित होने के लिए बहुत कुछ छोड़ देता है।

यदि पश्चिम में 90% शोध इसी भाषा का उपयोग करके किया जाता है, तो रूस में स्मार्टलैब पर एक दुर्लभ सप्ताह गुजरता है, जिसमें आप इसका कम से कम एक उल्लेख पा सकते हैं। वे। R को जानने वाले लोगों की संख्या बहुत कम है।

इस स्थिति के कारणों में: हाल तक रूसी में मैनुअल की कमी, प्रशिक्षण पाठ्यक्रमों की कमी, व्यापारियों की कम साक्षरता और भी बहुत कुछ। आइए इस बारे में बात न करें.

एकमात्र महत्वपूर्ण बात यह है कि रूस और सीआईएस में इस भाषा की लोकप्रियता लगातार बढ़ रही है।

रूसी उपयोगकर्ता गैर-कार्यशील एपीआई और महंगी ट्रेडिंग सिस्टम से थक गए हैं। ट्रेडिंग के संदर्भ में मुफ़्त आर भाषा, बहुत जल्द उनके टूलकिट में अपना उचित स्थान ले लेगी। अब शामिल हों!

यह सभी आज के लिए है। मुझे आशा है कि यह दिलचस्प था.

कोड लिखना कितना आसान है यह जानने के लिए मेरा निःशुल्क पाठ्यक्रम देखें। रोबोट लिखें!

हाल के अनुभाग लेख:

सोवियत फोटोग्राफिक फिल्म की संवेदनशीलता अंग्रेजी में शब्दों का वर्णमाला सूचकांक
सोवियत फोटोग्राफिक फिल्म की संवेदनशीलता अंग्रेजी में शब्दों का वर्णमाला सूचकांक

शीर्षक (अंग्रेजी): औद्योगिक स्वचालन प्रणाली और एकीकरण। उत्पाद डेटा प्रतिनिधित्व और विनिमय। भाग 203. अनुप्रयोग प्रोटोकॉल....

बुनियादी संसाधनों का निष्कर्षण
बुनियादी संसाधनों का निष्कर्षण

गेम की शुरुआत 16 अल्फ़ा आइए इस तथ्य से शुरू करें कि यदि आपकी अंग्रेजी कमजोर है (मेरी तरह), तो लोकलाइज़र डाउनलोड करें। यह स्टीम में मैनुअल में है, लेकिन...

बुनियादी संसाधनों का निष्कर्षण 7 दिन मरने के लिए व्यंजन कहाँ से प्राप्त करें
बुनियादी संसाधनों का निष्कर्षण 7 दिन मरने के लिए व्यंजन कहाँ से प्राप्त करें

दोस्तों, मैं आपको इस पोस्ट में बताऊंगा, जहां गेम 7 डेज़ टू डाई अपने सेव्स (सेव्स) को स्टोर करता है, साथ ही आपको यह भी बताऊंगा कि मैंने उन्हें कैसे खोजा, शायद इसके बाद...