ენა r ვიკი. R პროგრამირების ენა და მისი ადგილი სტატისტიკურ პროგრამებს შორის

პროგრამირება R. დონეზე 1. საფუძვლები

R ენა არის მსოფლიოში ყველაზე პოპულარული სტატისტიკური მონაცემთა ანალიზის ინსტრუმენტი. ის შეიცავს მონაცემთა გაანალიზების, ვიზუალიზაციისა და დოკუმენტებისა და ვებ აპლიკაციების შესაქმნელად ფართო შესაძლებლობებს. გსურთ დაეუფლოთ ამ ძლიერ ენას გამოცდილი მენტორის ხელმძღვანელობით? გეპატიჟებით კურსზე "პროგრამირება R ენაზე. დონე 1. საბაზისო ცოდნა".

ეს კურსი განკუთვნილია სპეციალისტების ფართო სპექტრისთვის, რომლებსაც სჭირდებათ დიდი რაოდენობით მონაცემების მოძიება, მათი ვიზუალიზაცია და სტატისტიკურად სწორი დასკვნების გაკეთება: სოციოლოგები, კლინიკური კვლევების მენეჯერები/ფარმაკოლოგები, მკვლევარები (ასტრონომია, ფიზიკა, ბიოლოგია, გენეტიკა, მედიცინა, ა.შ.), IT ანალიტიკოსები, ბიზნეს ანალიტიკოსები, ფინანსური ანალიტიკოსები, მარკეტოლოგები. კურსი ასევე მიმართავს სპეციალისტებს, რომლებიც არ არიან კომფორტული ფუნქციონალური (ან საფასური) / .

გაკვეთილების განმავლობაში თქვენ მიიღებთ მონაცემთა ანალიზისა და გარემოში ვიზუალიზაციის საბაზისო უნარებს რ. დროის უმეტესი ნაწილი ეთმობა პრაქტიკულ ამოცანებს და რეალურ მონაცემთა ნაკრებებთან მუშაობას. თქვენ შეისწავლით მონაცემებთან მუშაობის ყველა ახალ ინსტრუმენტს და ისწავლით როგორ გამოიყენოთ ისინი თქვენს მუშაობაში.

კურსის დასრულების შემდეგ გაიცემა ცენტრის კვალიფიკაციის ამაღლების სერტიფიკატი.

ბევრი მაგალითი და სტატია ამ საიტზე აქტიურად იყენებს "R" პროგრამირების ენას.

R Linux-ისთვის ჩვეულებრივ შეიძლება დაინსტალირდეს თქვენი დისტრიბუციის საცავების გამოყენებით. მე ვიყენებ Debian-ზე დაფუძნებულ დისტრიბუციას, რომელშიც R-ის ინსტალაციის სტანდარტული ბრძანება ასე გამოიყურება:

Sudo apt დააინსტალირე r-base

თქვენ უნდა აკრიფოთ ეს ტერმინალში.

R-ის სილამაზე ასეთია:

ეს პროგრამა უფასოა (განაწილებულია GPL ლიცენზიით),
ამ პროგრამისთვის მრავალი პაკეტი დაიწერა პრობლემების ფართო სპექტრის გადასაჭრელად. ყველა მათგანი ასევე უფასოა.
პროგრამა ძალიან მოქნილია: ნებისმიერი ვექტორისა და მატრიცის ზომები შეიძლება შეიცვალოს მომხმარებლის მოთხოვნით, მონაცემებს არ გააჩნია ხისტი სტრუქტურა. ეს თვისება უაღრესად სასარგებლო აღმოჩნდება პროგნოზირების შემთხვევაში, როდესაც მკვლევარს სჭირდება თვითნებური პერიოდის პროგნოზის გაკეთება.

ეს უკანასკნელი თვისება განსაკუთრებით აქტუალურია, რადგან სხვა სტატისტიკური პაკეტები (როგორიცაა SPSS, Eviews, Stata) ვარაუდობენ, რომ ჩვენ შეიძლება დაინტერესებული ვიყოთ მხოლოდ ფიქსირებული სტრუქტურის მქონე მონაცემების ანალიზით (მაგალითად, სამუშაო ფაილში ყველა მონაცემი უნდა იყოს იგივე პერიოდულობის. ერთი და იგივე დაწყებისა და დასრულების თარიღებით).

თუმცა, R არ არის ყველაზე მეგობრული პროგრამა. მასთან მუშაობისას დაივიწყეთ მაუსი - მასში თითქმის ყველა ყველაზე მნიშვნელოვანი მოქმედება შესრულებულია ბრძანების ხაზის გამოყენებით. თუმცა, იმისთვის, რომ ცხოვრება ცოტათი გაადვილდეს და თავად პროგრამა უფრო მისასალმებელი იყოს, არსებობს წინა პროგრამა, სახელწოდებით RStudio. შეგიძლიათ გადმოწეროთ აქედან. ის ინსტალირებულია მას შემდეგ, რაც თავად R უკვე დაინსტალირებულია. RStudio-ს აქვს ბევრი მოსახერხებელი ხელსაწყო და ლამაზი ინტერფეისი, თუმცა მასში ანალიზი და პროგნოზირება მაინც ხორციელდება ბრძანების ხაზის გამოყენებით.

შევეცადოთ გადავხედოთ ამ მშვენიერ პროგრამას.

RStudio-ს გაცნობა

RStudio ინტერფეისი ასე გამოიყურება:

RStudio-ში ზედა მარჯვენა კუთხეში მითითებულია პროექტის სახელი (რომელიც ახლა გვაქვს "არცერთი" - ანუ ის აკლია). თუ დავაწკაპუნებთ ამ წარწერაზე და ავირჩევთ „ახალი პროექტი“ (ახალი პროექტი), მოგეთხოვებათ შევქმნათ პროექტი. ძირითადი პროგნოზირების მიზნით, უბრალოდ აირჩიეთ „ახალი დირექტორია“ (პროექტის ახალი საქაღალდე), „ცარიელი პროექტი“ (ცარიელი პროექტი) და შემდეგ შეიყვანეთ პროექტის სახელი და აირჩიეთ დირექტორია, რომელშიც შეინახება. გამოიყენეთ თქვენი ფანტაზია და შეეცადეთ თავად მოიფიქროთ სახელი :).

ერთ პროექტთან მუშაობისას ყოველთვის შეგიძლიათ წვდომა მასში შენახულ მონაცემებზე, ბრძანებებსა და სკრიპტებზე.

RStudio ფანჯრის მარცხენა მხარეს არის კონსოლი. აქ შევიყვანთ სხვადასხვა ბრძანებებს. მაგალითად, დავწეროთ შემდეგი:

ეს ბრძანება გამოიმუშავებს 100 შემთხვევით ცვლადს ნორმალური განაწილებიდან ნულოვანი მოლოდინით და ერთეულის დისპერსიით, შემდეგ შექმნის ვექტორს სახელად "x" და ჩაწერს მასში მიღებულ 100 მნიშვნელობას. სიმბოლო "<-» эквивалентен символу «=» и показывает какое значение присвоить нашей переменной, стоящей слева. Иногда вместо него удобней использовать символ «->”, თუმცა ჩვენი ცვლადი ამ შემთხვევაში მარჯვნივ უნდა იყოს. მაგალითად, შემდეგი კოდი შექმნის ობიექტს "y", რომელიც აბსოლუტურად იდენტურია ობიექტის "x":

ეს ვექტორები ახლა გამოჩნდება ეკრანის ზედა მარჯვენა ნაწილში, ჩანართის ქვეშ, რომელსაც მე ვუწოდებ "გარემო":

ცვლილებები "გარემო" ჩანართში

ეკრანის ეს ნაწილი აჩვენებს ყველა ობიექტს, რომელსაც ჩვენ ვინახავთ სესიის დროს. მაგალითად, თუ ჩვენ შევქმნით მატრიცას შემდეგნაირად:

\(A = \ დასაწყისი (პმატრიცა) 1 & 1 \\ 0 & 1 \ ბოლოს (პმატრიცა) \)

ამ ბრძანებით:

შემდეგ ის გამოჩნდება "გარემო" ჩანართში:

ნებისმიერი ფუნქცია, რომელსაც ჩვენ ვიყენებთ, მოითხოვს, რომ გარკვეული მნიშვნელობები მივცეთ გარკვეულ პარამეტრებს. matrix() ფუნქციას აქვს შემდეგი პარამეტრები:

მონაცემები - ვექტორი მონაცემებით, რომლებიც უნდა ჩაიწეროს მატრიცაში,
nrow - რიგების რაოდენობა მატრიცაში,
ncol - სვეტების რაოდენობა მატრიცაში,
byrow - ლოგიკური პარამეტრი. თუ "TRUE" (true), მაშინ მატრიცა შეივსება მწკრივად (მარცხნიდან მარჯვნივ, სტრიქონი-სტრიქონი). ნაგულისხმევად, ეს პარამეტრი დაყენებულია FALSE-ზე.
dimnames - ფურცელი მწკრივებისა და სვეტების სახელებით.

ზოგიერთ ამ პარამეტრს აქვს ნაგულისხმევი მნიშვნელობები (მაგალითად, byrow=FALSE), ზოგი კი შეიძლება გამოტოვდეს (მაგალითად, dimnames).

"R"-ის ერთ-ერთი ხრიკი ის არის, რომ ნებისმიერ ფუნქციას (მაგალითად, ჩვენს მატრიცას() ) წვდომა შეიძლება მნიშვნელობების პირდაპირ მითითებით:

ან შეგიძლიათ გააკეთოთ ისე, როგორც ჩვენ გავაკეთეთ ადრე - დააკვირდით თანმიმდევრობას და გამოტოვეთ პარამეტრების სახელები.

იმისათვის, რომ ნახოთ ნებისმიერი ობიექტის შინაარსი, რომელიც მდებარეობს "გარემო" ჩანართში, უბრალოდ დაბეჭდეთ მისი სახელი კონსოლში:

კიდევ ერთი ვარიანტია დააწკაპუნოთ ობიექტის სახელზე "გარემო" ჩანართში.

სადაც მატრიცა არის ფუნქციის სახელი, რომელიც ჩვენ გვაინტერესებს. ამ შემთხვევაში, RStudio გახსნის "დახმარების" პანელს სპეციალურად თქვენთვის აღწერილობით:

თქვენ ასევე შეგიძლიათ იპოვოთ დახმარება ფუნქციასთან დაკავშირებით ფუნქციის სახელის აკრეფით "ძიების" ფანჯარაში (ხატი ობიექტივით) "Help" ჩანართში.

თუ ზუსტად არ გახსოვთ, როგორ ჩაწეროთ ფუნქციის სახელი ან რა პარამეტრებია გამოყენებული, უბრალოდ დაიწყეთ მისი სახელის ჩაწერა კონსოლში და დააჭირეთ ღილაკს "Tab":

ამ ყველაფრის გარდა, RStudio-ში შეგიძლიათ სკრიპტების დაწერა. შეიძლება დაგჭირდეთ, თუ გჭირდებათ პროგრამის დაწერა ან ფუნქციების თანმიმდევრობის გამოძახება. სკრიპტები იქმნება ღილაკის გამოყენებით, რომელსაც აქვს პლუს ნიშანი ზედა მარცხენა კუთხეში (ჩამოსაშლელი მენიუში უნდა აირჩიოთ „R Script“). ამის შემდეგ გახსნილ ფანჯარაში შეგიძლიათ დაწეროთ ნებისმიერი ფუნქცია და კომენტარი. მაგალითად, თუ გვსურს დავხატოთ ხაზოვანი დიაგრამა x სერიებზე, შეგვიძლია გავაკეთოთ ეს ასე:

ნაკვეთი (x) ხაზები (x)

პირველი ფუნქცია აშენებს მარტივ სკატერის ნახაზს, ხოლო მეორე ფუნქცია ამატებს ხაზებს წერტილების ზემოდან, რომლებიც აკავშირებს წერტილებს სერიაში. თუ აირჩევთ ამ ორ ბრძანებას და დააჭერთ "Ctrl+Enter", ისინი შესრულდება, რის გამოც RStudio გახსნის ჩანართი "Plot" ქვედა მარჯვენა კუთხეში და აჩვენებს მასში გამოსახულ ნახაზს.

თუ მომავალში მაინც დაგვჭირდება ყველა აკრეფილი ბრძანება, მაშინ ამ სკრიპტის შენახვა შესაძლებელია (ფლოპი დისკი ზედა მარცხენა კუთხეში).

თუ თქვენ გჭირდებათ ბრძანების მითითება, რომელიც უკვე აკრიფეთ წარსულში, ეკრანის ზედა მარჯვენა კუთხეში არის ჩანართი „ისტორია“. მასში შეგიძლიათ იპოვოთ და აირჩიოთ თქვენთვის საინტერესო ნებისმიერი ბრძანება და დააწკაპუნოთ ორჯერ, რომ ჩასვათ იგი კონსოლში. თავად კონსოლში შეგიძლიათ წვდომა წინა ბრძანებებზე კლავიატურაზე ზევით და ქვევით ღილაკების გამოყენებით. "Ctrl+Up" კლავიშების კომბინაცია საშუალებას გაძლევთ აჩვენოთ ყველა ბოლო ბრძანების სია კონსოლში.

ზოგადად, RStudio-ს აქვს ბევრი სასარგებლო კლავიატურის მალსახმობი, რაც ამარტივებს პროგრამასთან მუშაობას. შეგიძლიათ მეტი წაიკითხოთ მათ შესახებ.

როგორც უკვე აღვნიშნე, ბევრი პაკეტია R. ყველა მათგანი განთავსებულია CRAN სერვერზე და რომელიმე მათგანის დასაყენებლად საჭიროა იცოდეთ მისი სახელი. პაკეტების ინსტალაცია და განახლება ხორციელდება "პაკეტების" ჩანართის გამოყენებით. მასზე გადასვლით და ღილაკზე „ინსტალაციის“ დაწკაპუნებით, ჩვენ ვხედავთ შემდეგ მენიუს:

მოდით აკრიფოთ ფანჯარაში, რომელიც იხსნება: პროგნოზი არის რობ ჯ. ჰაინდმენის მიერ დაწერილი პაკეტი, რომელიც შეიცავს ჩვენთვის სასარგებლო ფუნქციების თაიგულს. დააჭირეთ ღილაკს "ინსტალაცია", რის შემდეგაც დაინსტალირდება "პროგნოზის" პაკეტი.

გარდა ამისა, ჩვენ შეგვიძლია დავაყენოთ ნებისმიერი პაკეტი, მისი სახელის ცოდნით, კონსოლში ბრძანების გამოყენებით:

Install.packages ("გლუვი")

იმ პირობით, რომ ის, რა თქმა უნდა, CRAN საცავშია. smooth არის პაკეტი, რომლის ფუნქციებს მე ვავითარებ და ვინარჩუნებ.

ზოგიერთი პაკეტი ხელმისაწვდომია მხოლოდ წყაროს კოდით ისეთ საიტებზე, როგორიცაა github.com და მოითხოვს, რომ ისინი პირველ რიგში შეიქმნას. Windows-ის ქვეშ პაკეტების შესაქმნელად, შეიძლება დაგჭირდეთ Rtools პროგრამა.

რომელიმე დაინსტალირებული პაკეტის გამოსაყენებლად, თქვენ უნდა ჩართოთ იგი. ამისათვის თქვენ უნდა იპოვოთ იგი სიაში და მონიშნეთ იგი, ან გამოიყენოთ ბრძანება კონსოლში:

ბიბლიოთეკა (პროგნოზი)

Windows-ში შეიძლება ერთი უსიამოვნო პრობლემა გამოჩნდეს: ზოგიერთი პაკეტი ადვილად გადმოწერილი და აწყობილია, მაგრამ არანაირად არ არის დაინსტალირებული. R ამ შემთხვევაში წერს მსგავსი რამ: "გაფრთხილება: დროებითი ინსტალაციის გადატანა შეუძლებელია...". ამ შემთხვევაში მხოლოდ R-ით საქაღალდის დამატება თქვენს ანტივირუსში არსებულ გამონაკლისებს (ან გამორთეთ პაკეტების ინსტალაციისას).

პაკეტის ჩამოტვირთვის შემდეგ მასში შემავალი ყველა ფუნქცია ჩვენთვის ხელმისაწვდომი იქნება. მაგალითად, tsdisplay() ფუნქცია, რომელიც შეიძლება გამოყენებულ იქნას შემდეგნაირად:

Tsdisplay (x)

ის აგვაშენებს სამ გრაფიკს, რომლებზეც განვიხილავთ თავში „პროგნოზის ინსტრუმენტარიუმი“.

პროგნოზის პაკეტის გარდა, მე საკმაოდ ხშირად ვიყენებ Mcomp პაკეტს სხვადასხვა მაგალითებისთვის. ის შეიცავს მონაცემთა სერიებს M-Competition მონაცემთა ბაზიდან. ამიტომ გირჩევთ დააინსტალიროთ ისიც.

ძალიან ხშირად დაგვჭირდება არა მხოლოდ მონაცემთა ნაკრები, არამედ "ts" კლასის მონაცემები (დროის სერია). ნებისმიერი ცვლადისგან დროის სერიების შესაქმნელად, თქვენ უნდა შეასრულოთ შემდეგი ბრძანება:

აქ დაწყების პარამეტრი საშუალებას გვაძლევს განვსაზღვროთ თარიღი, საიდანაც იწყება ჩვენი დროის სერია, ხოლო სიხშირე განსაზღვრავს მონაცემთა სიხშირეს. ჩვენს მაგალითში რიცხვი 12 მიუთითებს, რომ საქმე გვაქვს ყოველთვიურ მონაცემებთან. ამ ბრძანების შესრულების შედეგად, ჩვენ ვაქცევთ ჩვენს ვექტორს "x" ყოველთვიური მონაცემების დროის სერიად 1984 წლის იანვრიდან.

ეს არის R და RStudio-ს ძირითადი ელემენტები, რომლებიც დაგვჭირდება.

P.P.S. R-ის საკმაოდ კარგი გზამკვლევი გამოქვეყნებულია QSAR4U ვებსაიტზე პაველ პოლონჩუკის მიერ.

P.P.P.S. R-ის შესახებ ბევრი ინფორმაციაა წარმოდგენილი ოფიციალურ ვებგვერდზე.

დამოუკიდებელი მუშაობა

აქ არის რამდენიმე დავალება, რომელიც თქვენ უნდა გააკეთოთ R-ში. გაუშვით შემდეგი ბრძანებები, ნახეთ რა ხდება და შეეცადეთ გაიგოთ რატომ მოხდა ეს:

(41/3 + 78/4)*2 2^3+4 1/0 0/0 max(1,min(-2.5),max(2,pi)) sqrt(3^2+4^2 ) exp (2)+3i log(1024) log(1024, ბაზა=2) c(1:3) c(1:5)*2 + 4 x

]. „გონებრივი შრომის პროლეტარი“. განათლებით ფიზიკოსი. 30+ წელია ვმუშაობ სამედიცინო და ბიოლოგიური ინფორმაციის დამუშავების სფეროში.
მე ზუსტად 10 წელია ვმუშაობ R-ში, გადავედი მასში Matlab-თან 15 წლიანი მჭიდრო თანამშრომლობის შემდეგ. სხვა სამუშაო პლატფორმაზე მიგრაციის ძირითადი მიზეზი იყო ჩემი ფიზიკური მიგრაცია დედამიწის მოპირდაპირე ბოლოში ოკლენდში, ახალი ზელანდია. აქ ცხოვრებამ პირველივე დღეებიდან მიბიძგა რ-ის მკლავებში, რის გამოც ჯერ არ მომიწია სინანული.

სულ უფრო და უფრო ხშირად ვხედავ R-ის მიმართ ინტერესის გავრცელებას პროფესიულ ქსელში. ისე, მის შესახებ სტატიები ჩნდება ამ პატივცემულ რესურსზე. ფრაგმენტის ქვემოთ არის ჩემი პირველი მცდელობა რუსულენოვანი შესავალი R-ში - პრეზენტაციის პირველი (ვერბალური) ნაწილი, რომელიც მე გავაკეთე კოლეგებისთვის ცხოველთა მეცნიერების ფაკულტეტის, იოვას სახელმწიფო უნივერსიტეტიდან სამი წლის წინ.
(გვერდზე:მაგრამ გამოდის, რომ ძნელია საკუთარი თავის თარგმნა...)

ამ პოსტში

რა არის რ
საიდან გაჩნდა
რატომ მიყვარს ის
მითები და სიმართლე

Რა მოხდა რ

Პირველ რიგში რარის პროგრამირების ენის გამოყენებით სტატისტიკური და სხვა სამეცნიერო გამოთვლების სისტემა ს .

ს- დაწერილი ენა სტატისტიკოსების მიერ სტატისტიკოსებისთვის.როგორც განსაზღვრავს ავტორი ჯონ ჩემბერსი. ენა ძალიან კარგად იქნა მიღებული მისი დანერგვის დღიდან და გამოცდილია სტატისტიკური მომხმარებელთა თაობების მიერ. შეიძლება ჩაითვალოს, რომ იგი საკმაოდ ფართოდ არის ცნობილი და მიღებული მსოფლიო სტატისტიკურ საზოგადოებაში. ენაზე სრიგი კრიტიკული ეპიდემიოლოგიური, გარემოსდაცვითი და ფინანსური მოდელი იქნა დანერგილი და ჯერ კიდევ მოქმედებს მთელ მსოფლიოში და მრავალ ინდუსტრიაში. როგორია ენა ჩემი, როგორც „წერის მომხმარებლის“ თვალსაზრისით, სენის ძალიან სასიამოვნო ალტერნატივაა SAS .

საკუთარი გამოცდილებიდან - შესავალი და პირველი გაკვეთილები სმე თვითონ მივიღე ის 90-იანი წლების დასაწყისში ჯანმო-ს სტატისტიკური ექსპერტებისგან, რომლებთანაც იმ დროს მეცნიერულ კვლევებზე ვურთიერთობდი.

მრავალი შეფასებით, R (როგორც ჩემთვის და არც ისე გაზვიადებული) არის ერთ-ერთი ყველაზე წარმატებული ღია კოდის პროექტი, რომელიც თავისუფლად ნაწილდება ათობით სარკედან მთელს მსოფლიოში GNU ლიცენზიის სტანდარტების მიხედვით.
ავტორები კატეგორიულად უარს ამბობენ პროექტის კომერციალიზაციის ყველა წინადადებაზე, თუმცა დღეს არსებობს საფუძველი ვივარაუდოთ, რომ მსოფლიოში R-ის დაინსტალირებული ასლების რაოდენობა აღემატება ასლების საერთო რაოდენობას. ყველასსხვა სტატისტიკური ანალიზის სისტემები.

თავიდანვე დღემდე, პროექტი იწვევს ჩემში ღრმა პატივისცემას (აღფრთოვანების ზღვარზე) სტაბილურობის, მომხმარებლის მხარდაჭერის, კოდების თავსებადობის და ა.შ., რასაც მე გავაერთიანებდი კონცეფციაში. კულტურა.
თუმცა, ბოლო წინადადება უფრო შემდგომი ქვესექციისთვისაა.

საიდან გაჩნდა? სდა რა კავშირშია ეს რ

უდავოა, ვიკიპედია კიდევ ბევრ წერილს მოგცემთ.
მე მხოლოდ აღვნიშნავ იმას, რაც მიმაჩნია მნიშვნელოვნად S და R-ის ადგილის გასაგებად ამ ცხოვრებაში ამქვეყნად.

Bell Laboratories (aka Bell Labs, AT&T Bell Labaratories) საკმაოდ ცნობილია მეცნიერებისა და ტექნოლოგიების ისტორიაში და კერძოდ IT. სტატისტიკური კვლევა იქ ყოველთვის ძალიან სერიოზულად ტარდებოდა და ასევე სერიოზულად იყო მხარდაჭერილი ყველა ხელმისაწვდომი კომპიუტერული ხელსაწყოებით (წაიკითხეთ - ტონა Fortran და Lisp კოდი).

ის, რაც მოგვიანებით გახდა S ენა, წარმოიშვა 1970-იან წლებში, ჯონ ჩემბერსის ინიციატივითა და ხელმძღვანელობით, როგორც სკრიპტების ერთობლიობა, რამაც გააადვილა მონაცემების „შეტანა“ Fortran კოდით. იმათ. ძირითადი აქცენტი გაკეთდა მონაცემთა ინტერაქტიული მანიპულირების ამოცანაზე, კომპაქტურობაზე, კოდის ჩაწერისა და წაკითხვის სიმარტივისა და სხვადასხვა მოწყობილობებზე, ცხრილებსა და გრაფიკებზე ღირსეული შედეგის მიღებაზე.

ენის სინტაქსი ითვალისწინებს თითქმის თვითნებურად რთული მონაცემთა სტრუქტურების აგებას, სპეციფიკური სტატისტიკური ამოცანებისა და ობიექტების აღწერის ხელსაწყოებს - სტატისტიკას. ტესტები, მოდელები და ა.შ.

1984 წლიდან ენამ შეიძინა სახელი, საკუთარი „ბიბლია“ (გამოვიდა ჩემბერსის და ბეკერსის წიგნი: S: ინტერაქტიული გარემო მონაცემთა ანალიზისა და გრაფიკისთვის), დაიწყო ნაგულისხმევად შეიცავდეს სტატისტიკის თითქმის სრული „ჯენტლმენური ნაკრების“ და „სავარაუდო მეცნიერების“ - დისტრიბუციებს, შემთხვევითი რიცხვების გენერატორებს, სტატისტიკურ ტესტებს, ბევრ სტანდარტულ სტატისტიკურ ანალიზს, მატრიცებთან მუშაობას და ა.შ., რომ აღარაფერი ვთქვათ განვითარებულ სისტემაზე. სამეცნიერო გრაფიკა. ყველაზე მნიშვნელოვანი ის არის, რომ ის ხელმისაწვდომი გახდა მომხმარებლებისთვის მთელს მსოფლიოში ძალიან გონივრულ ფასად.

1988 წელს (სხვა წიგნი გამოიცა ახალი S ენა) - შეიცვალა OOP-ის გამოყენებით, ყველაფერი გახდა ობიექტი ძალიან გონივრული ნაგულისხმევი მნიშვნელობებით, მოდიფიკაციის ხელმისაწვდომობით, თვითდოკუმენტაციის ელემენტებით და ა.შ. და ა.შ.

ამავდროულად, ლაბორატორიებმა გამოაქვეყნეს წყაროს კოდი და "Bell Lab" სუფასო გახდა სტუდენტებისთვის და სამეცნიერო გამოყენებისთვის. ეს ყველაფერი რაღაცნაირად უკავშირდებოდა AT&T-ის „დეკულაკიზაციას“, მაგრამ ეს დეტალები დიდად აღარ მაინტერესებდა.

იყო და ალბათ დღესაც არის ამ ენის კომერციული განხორციელებები ს. შემხვდა S-Plusდა S2000. მათ სხვადასხვა დროს მხარს უჭერდნენ სხვადასხვა კომპანიები, ძირითადად ცხოვრობდნენ (ცხოვრობდნენ?) ადრე შექმნილი მხარდაჭერის გამო საპლიკაციები. ამ პოსტ-ბელის ვერსიებში სგამოჩნდა OOP ძრავის ახალი ვერსია, მაგრამ სუფთა მომხმარებლისთვის ის თითქმის უსისხლო იყო ისტორიული კოდის თავსებადობის თვალსაზრისით.

რ- ენის ერთადერთი არაკომერციული, სრულიად დამოუკიდებელი (ორიგინალური Bell-ისგან) განხორციელება ს.

და ამ დღეებში იშვიათი შეთანხმებით, რაღაცნაირად წარმოუდგენელი ჩემთვის, რეკლამის ამჟამინდელი ვერსიების შემქმნელები სდა არაკომერციული რმხარი დაუჭირეთ მათ თითქმის სრულ თავსებადობას და უწყვეტობას.

ახლა კი რ

ამ ცხოვრებაში ნებისმიერი მნიშვნელოვანი ფენომენის მიღმა არის რაღაც ქარიზმატული პიროვნება. თუმცა, ეს შეიძლება მოხდეს და ეს არის ფენომენის მნიშვნელობის განსაზღვრა.

რ-ის შემთხვევაში სამი ასეთი ადამიანია.
ჯონ ჩემბერსი უკვე ვახსენე.

როს აიჰაკამ, სტუდენტმა და შემდეგ ოკლენდის უნივერსიტეტის სტატისტიკის დეპარტამენტის მკვლევარმა, აირჩია თავისი დისერტაციის თემა (რომელიც ჩატარდა MIT, აშშ) სტატისტიკისთვის ვირტუალური მანქანის (VM) შექმნის შესაძლებლობის შესასწავლად. პროგრამირების ენები. შუალედური ენა არჩეული იყო ლისპი (Common Lisp, CL) და ახორციელებს VM-ის პროტოტიპს, რომელსაც „ესმის“ მცირე ქვეჯგუფები SASდა ს.
როსი დაბრუნდა ოკლენდში დისერტაციის დასასრულებლად, სადაც მალევე გაიცნო რობერტ ჯენტლმენი და დაინტერესდა R პროექტით.
როსს არასოდეს დაუცვა თავისი დისერტაცია, მაგრამ უკვე აქვს რამდენიმე უნივერსიტეტის აკადემიური ხარისხი "კომბინირებული დამსახურების საფუძველზე". გასულ წელს მას მიენიჭა წოდება და მიიღო ასოცირებული პროფესორის (ასისტენტ-პროფესორის) თანამდებობა მშობლიურ უნივერსიტეტში.

რობერტ ჯენტლმენმა, კიდევ ერთმა სტატისტიკოსმა, რომელიც გატაცებული იყო პროგრამირებით, წარმოშობით კანადადან, ოკლენდის უნივერსიტეტში სტაჟირებისას (ის მაშინ მუშაობდა ავსტრალიაში), შესთავაზა როსს „დაეწერა ენა“.
ლეგენდის თანახმად, რომელიც მე თვითონ მოვისმინე ამ "დამფუძნებელი მამებისგან", მათ სულ რაღაც ერთ თვეში, გიჟური ენთუზიაზმით, გადაწერეს C.L.თითქმის ყველა გუნდი ს, მათ შორის მძლავრი ხაზოვანი მოდელირების ბიბლიოთეკა.

გამოთვლითი ძრავა რ, პროტოტიპის ტრადიციების მიხედვით, შეირჩა ცნობილი, საყოველთაოდ მიღებული და უფასო BLAS ბიბლიოთეკა (იგივე ინტერფეისით ATLAS და ა.შ. გამოყენების შესაძლებლობით).
პოლ მურელი, როსის ერთ-ერთი უახლოესი მეგობარი და ასევე ოკლენდის უნივერსიტეტის თანამშრომელი, გამოვიდა და დაწერა (როგორც ჩანს C-ში) ნულიდან გრაფიკული ძრავა, რომელიც სრულად ასახავს მის ფუნქციონირებას ს.

შედეგი იყო უფასო, სრულად ფუნქციონალური პაკეტი, რომელმაც მყისიერად მოიპოვა ადგილი ოკლენდის უნივერსიტეტის საგანმანათლებლო პროცესში, სრულად შეესაბამებოდა ჩემბერსის ძალიან დეტალურ და მაღალი ხარისხის წიგნების აღწერილობებს, რომლებიც ტრადიციულად გამოქვეყნდა ქაღალდის ქაღალდებში და საშუალო ხარისხის ბეჭდვით. იყო იაფი და ხელმისაწვდომი.
GNU (მაგ. GIS) მოძრაობის რამდენიმე აქტივისტმა ჯგუფმა მიიღო R, როგორც სამეცნიერო გამოთვლის პლატფორმა.

მაგრამ მართლაც ყველაზე ფართო პოპულარობა რშეიძინა ბიოინფორმატიკაში, როდესაც ერთ-ერთმა "მამამ" რობერტ ჯენტლმენმა, რომელიც იმ დროს იყო ჩართული კომპანია Affimmetrix-ის მუშაობაში, აკოპირა კომპანიის კომერციული პროგრამული უზრუნველყოფის მთელი ფუნქციონირება და გაუშვა (რა თქმა უნდა, ერთზე მეტი) ღია წყარო პროექტი Bioconductor. ამჟამად ბიოგამტარიარის უდავო ლიდერი ბიოინფორმატიკის ღია წყაროში ყველა „ომიკისთვის“ (გენომიკა, პროტეომიკა, მეტაბოლომიკა და ა.შ.).

ბუნებრივია, ბიოინფორმატიკის ფანტაზიების ამ ბუნტის ერთი ინტერფეისის ენა გახდა რ.

წრე სრულ წრეში მოვიდა, როდესაც გადამდგარი ჩემბერსი, ენის შემქმნელი ს, გახდა აქტიური დეველოპერების ჯგუფის სრული წევრი რ.

რატომ მიყვარს ის (სია)

ინტერაქტიულობა, "პროგრამირება მონაცემებით" - ჩემი საყვარელი მუშაობის სტილი
ელეგანტური (სამოყვარულო) ენა - მე მიყვარს სიები, მონაცემთა ჩარჩოები, ფუნქციური პროგრამირება და ლამბდა ფუნქციები (a-la) გამოხატვის თავისუფლება: იგივე პრობლემის გადაჭრა შესაძლებელია ათი გზით (ამცირებს რუტინის განცდას)
„ფხიზლად უყურებს ამ სამყაროს“ - იშვიათად „არღვევს“ ან „აჩერებს“ ვინმეს, ლოგიკური ოპერაციები დაკარგული მონაცემებით, შეცდომების დამუშავება მუშაობის დროს (ცდა-შეცდომა), მარტივი გაცვლა სისტემასთან სტანდარტული I/O დონეზე და ა.შ.
მზა სტატისტიკური პროცედურების სრული ნაკრები
კარგად დოკუმენტირებული და კარგად შენახული - თავსებადობა, უწყვეტობა და ა.შ.
ჩემ გარშემო შემოიკრიბა ადამიანურად სასიამოვნო პროფესიული საზოგადოება (ფორუმები, მომხმარებლის კონფერენციები და ა.შ.)
კარგად დოკუმენტირებული ინტერფეისი გარე ბიბლიოთეკებისთვის და ნებისმიერი ფუნქციისთვის - Fortran, C, Java. აქედან გამომდინარეობს კარგად დოკუმენტირებული ბიბლიოთეკების ზღვა სტატისტიკისა და მონაცემთა მეცნიერების ყველა ასპექტზე მეცნიერების თითქმის ყველა სფეროში, მაგრამ ძირითადი აქცენტით ბიოინფორმატიკა/ბიოსტატისტიკაზე; ყველაფერი რეგულარულად და სწორად განახლდება, თუ ამის ავტორის ნებაა
სავალდებულო GUI-ს არარსებობა "ძირითად კონფიგურაციაში" - კარგი, მე არ ვარ "მაუსი" ადამიანი!

სიიდან გამოსული: უბრალოდ მიხარია, რომ ჩემს მთავარ სამუშაო ხელსაწყოს აქვს... სული.
სწორედ ამის ჩვენებას ვცდილობ ჩემს სტატიაში.

რატომ და როგორ ვიყენებ მას (მაგალითები)

ამ განყოფილებაში დავიწყე წერა, მაგრამ შევწყვიტე.
თორემ არასდროს დავამთავრებდი.
ოჰ, ალბათ ცოტა ხნის შემდეგ.

მითები და სიმართლე

R ნელი

R არის „თხელი“, იყენებს blas/lapack/atlas ბიბლიოთეკებს გამოთვლებისთვის, შეეცადეთ დაწეროთ რაღაც უფრო სწრაფად, ვიდრე ეს კარგი ძველი Fortran (ხშირად) „მუშა ცხენები“. ყველა კრიტიკული ფუნქცია, როგორც წესი, იყენებს ვექტორულ ოპერაციებს და ხორციელდება მასში თან.

R იყენებს გამოთვლით რესურსებს ირაციონალურად, კერძოდ მეხსიერებას

დიახ, დეველოპერები აღიარებენ ამ ცოდვას. მაგრამ სპეციალისტის სამუშაო დრო ახლა ბევრად უფრო ძვირია, ვიდრე აპარატურა. ჩამოტვირთეთ სათამაშოები თანამედროვე სამუშაო კომპიუტერიდან და არ გექნებათ პრობლემები R-თან ყველაზე რეალური მონაცემთა ნაკრებით.

უფასო პროგრამა შეიძლება არ იყოს სანდო

Შესაძლოა: Fortran, Linux, C, Lisp, Javaდა ა.შ.

ეპილოგის ნაცვლად

როგორც ზემოთ აღვნიშნეთ, ქვემოთ მოცემული პოსტი რეალურად არის ჩემი პრეზენტაციის თარგმანი საკმაოდ კონკრეტული სამიზნე აუდიტორიისთვის და მე მოკლედ აღვწერ ამ აუდიტორიას.

ბევრ "სუფთა" IT კომპანიას მოუწევს შეხვდეს ასეთ ადამიანებს, რადგან საკვების წარმოება დიდი ხანია კონკურენციას უწევს ნავთობს და სხვა ენერგორესურსებს კაპიტალის მოზიდვისა და მოგების გამომუშავებისთვის. ბიოინფორმატიკის ბაზრის შესაძლებლობები მედიცინასა და ფარმაკოლოგიაში შეზღუდულია, როგორც არ უნდა შეხედოთ მას.

ასე რომ, ჩემი აუდიტორია არიან ადამიანები, რომლებსაც აქვთ საბაზისო განათლება გენეტიკასა და მეცხოველეობაში, ვეტერინარულ მედიცინაში და ნაკლებად ხშირად ბიოლოგიაში (ძირითადად მოლეკულური). ბიჭები და დეიდები (უფრო ეს უკანასკნელი), 20-30 წლის... პროგრამირება (!) on FORTRANEან VBცნობილია, რომ მართავს Excel ცხრილებს 100 ათასი სტრიქონით/სვეტით და პერიოდულად „ჩააგდებს“ მათ ამოცანებს (და პროგრამირებას) მათ Linux გამოთვლით 500+ core კლასტერზე 12 ტბ საერთო მეხსიერებით და დროდადრო მოითხოვს დისკის მეხსიერების გაფართოებას სხვის მიერ. ათი ტერაბაიტი.

მეთოდოლოგიური ბაზა არის დისპერსიული ანალიზის ფეთქებადი ნაზავი, ისევე როგორც სამყარო, შერეული მოდელებით, რომლებიც ამოხსნილია არა სხვა გზით, გარდა მაქსიმალური ალბათობის მეთოდით, „ტვინის დნობის“ ბაიესური ქსელებით და ა.შ.

მონაცემები - მონაცემთა ცხრილები ერთეულებიდან ათიათასობით სტრიქონამდე, ზოგჯერ მოიცავს 1-5 სვეტს ფენოტიპებით, მაგრამ უფრო და უფრო ხშირად - ათობით ან ასობით "Ka" სვეტების ცვლადები, რომლებიც სუსტად არის დაკავშირებული ერთმანეთთან და ფენოტიპებთან.

დიახ, მათაც აქვთ „კარგი ტრადიცია“, რომ ყველაფერს ოჯახური კავშირებით უყურებენ (ბოლოს და ბოლოს, გენეტიკა). ნათესაური კავშირები ტრადიციულად წარმოდგენილია „ნათესაური კავშირების“ მატრიცის სახით (გვარი) ზომებით, მაგალითად, 40,000 x 40,000 (ეს არის თუ 40,000 ცხოველია). კარგად, ან (ამჟამად, საბედნიეროდ, მხოლოდ პროექტში) 20,000,000 x 20,000,000 - ეს არის მონაცემთა ბაზაში არსებული 20 მილიონი ისტორიული ცხოველის ერთი მოდელით „დაფარვა“ ( DB2, თუ ვინმეს აინტერესებს და კობოლიც ჯერ ყველგან არ არის "ამოჭრილი"...)

ლიტერატურით სავსე მაგიდებზე (ამავე დროს) Fortran, Java, C#, Scala, Octavia, Linux for Dummiesშეგიძლიათ ამოიცნოთ ბიოინფორმატიკის ბოლო კურსდამთავრებულები. მაგრამ, რატომღაც, ბევრი მათგანი სწრაფად ტოვებს მეცნიერებას, რათა გახდეს „კოდერები“.

თუმცა, საპირისპირო მოძრაობის შემთხვევაც ვიცი. Ისე რ კიდევ ბევრს გამოადგება.

მსურს ვისაუბრო უფასო სტატისტიკური ანალიზის გარემოს R-ის გამოყენებაზე. მიმაჩნია, რომ ის ისეთი სტატისტიკური პაკეტების ალტერნატივადაა, როგორიცაა SPSS Statistics. ჩემი ღრმა სინანულით, ეს სრულიად უცნობია ჩვენი სამშობლოს უკიდეგანოში, მაგრამ ამაოდ. მე მჯერა, რომ S-ში დამატებითი სტატისტიკური ანალიზის პროცედურების დაწერის შესაძლებლობა რ-ს მონაცემთა ანალიზის სასარგებლო ინსტრუმენტად აქცევს.

2010 წლის საგაზაფხულო სემესტრში მქონდა შესაძლებლობა მესწავლა და ჩამეტარებინა პრაქტიკული მეცადინეობები კურსის „სტატისტიკური მონაცემების ანალიზი“ რუსეთის სახელმწიფო ჰუმანიტარული უნივერსიტეტის ინტელექტუალური სისტემების განყოფილების სტუდენტებისთვის.

ჩემმა სტუდენტებმა ადრე გაიარეს ალბათობის თეორიის სემესტრული კურსი, რომელიც მოიცავს დისკრეტული ალბათობის სივრცის, პირობითი ალბათობების, ბეიზის თეორემას, დიდი რიცხვების კანონს, ნორმალურ კანონს და ცენტრალური ლიმიტის თეორემას საფუძვლებს.

დაახლოებით ხუთი წლის წინ, მე უკვე ვასწავლიდი გაკვეთილებს (მაშინ კომბინირებულ) სემესტრული კურსის „ალბათობების თეორიისა და მათემატიკური სტატისტიკის საფუძვლები“, ამიტომ გავაფართოვე ჩემი შენიშვნები (მოსწავლეებს ყოველი კლასის წინ) სტატისტიკაზე. ახლა, როდესაც რუსეთის სახელმწიფო ჰუმანიტარულ უნივერსიტეტს აქვს განყოფილების სტუდენტური სერვერი isdwiki.rsuh.ru, მე ერთდროულად ვტვირთავ მათ FTP-ზე.

გაჩნდა კითხვა: რა პროგრამით უნდა ჩავატარო პრაქტიკული მეცადინეობები კომპიუტერულ გაკვეთილზე? ხშირად გამოყენებული Microsoft Excel უარყოფილი იქნა როგორც საკუთრების, ასევე იმის გამო, რომ მას არასწორად ახორციელებდა ზოგიერთი სტატისტიკური პროცედურა. ამის შესახებ შეგიძლიათ წაიკითხოთ, მაგალითად, A.A. მაკაროვის და Yu.N. ტიურინის წიგნში "მონაცემების სტატისტიკური ანალიზი კომპიუტერზე". უფასო საოფისე კომპლექტის Openoffice.org-ის Calc ცხრილები რუსიფიცირებულია ისე, რომ მე ძლივს ვიპოვე საჭირო ფუნქცია (მათი სახელებიც ამაზრზენად არის შემოკლებული).

ყველაზე ხშირად გამოყენებული პაკეტი არის SPSS სტატისტიკა. SPSS უკვე შეძენილია IBM-ის მიერ. IBM SPSS სტატისტიკის უპირატესობებს შორის მინდა გამოვყო:

მონაცემთა მოსახერხებელი ჩატვირთვა სხვადასხვა ფორმატში (Excel, SAS, OLE DB-ის მეშვეობით, ODBC Direct Driver-ის მეშვეობით);
როგორც ბრძანების ენის, ასევე ვრცელი მენიუს სისტემის ხელმისაწვდომობა სხვადასხვა სტატისტიკური ანალიზის პროცედურებზე პირდაპირი წვდომისთვის;
შედეგების ჩვენების გრაფიკული საშუალებები;
ჩაშენებული სტატისტიკის მწვრთნელის მოდული, რომელიც ინტერაქტიულად გვთავაზობს ადეკვატური ანალიზის მეთოდს.

IBM SPSS Statistics-ის უარყოფითი მხარეები ჩემი აზრით არის:

გადახდა სტუდენტებისთვისაც კი;
სპეციალური პროცედურების შემცველი (დამატებით ფასიანი) მოდულების მოპოვების აუცილებლობა;
მხარს უჭერს მხოლოდ 32-ბიტიან Linux ოპერაციულ სისტემებს, თუმცა Windows მხარს უჭერს 32-ბიტიან და 64-ბიტიანებს.

როგორც ალტერნატივა, მე ავირჩიე. ამ სისტემის შემუშავება დაიწყო რობერტ ჯენტლმენისა და როს აიჰაკის ძალისხმევით მელბურნის უნივერსიტეტის სტატისტიკის დეპარტამენტში 1995 წელს. ავტორების სახელების პირველი ასოები განსაზღვრავდა მის სახელს. შემდგომში წამყვანი სტატისტიკოსები ჩაერთნენ ამ სისტემის შემუშავებასა და გაფართოებაში.

განვიხილავ განსახილველი სისტემის უპირატესობებს:

პროგრამის გავრცელება GNU საჯარო ლიცენზიით;
როგორც წყაროს, ასევე ორობითი მოდულების ხელმისაწვდომობა ვრცელ CRAN-ის (The Comprehensive R Archive Network) საცავის ქსელში. რუსეთისთვის ეს არის სერვერი cran.gis-lab.info;
Windows-ისთვის ინსტალაციის პაკეტის ხელმისაწვდომობა (მუშაობს როგორც 32, ასევე 64-ბიტიან Vista-ზე). შემთხვევით აღმოჩნდა, რომ ინსტალაცია არ საჭიროებს ადმინისტრატორის უფლებებს Windows XP-ით;
Linux-ის საცავიდან ინსტალაციის შესაძლებლობა (მუშაობს ჩემთვის Ubuntu 9.10-ის 64-ბიტიან ვერსიაზე);
ჩვენი პროგრამირების ენის ხელმისაწვდომობა სტატისტიკური პროცედურებისთვის R, რომელიც რეალურად იქცა სტანდარტად. მას, მაგალითად, სრულად უჭერს მხარს ახალი IBM SPSS Statistics Developer;
ეს ენა არის Bell Labs-ში შემუშავებული S ენის გაფართოება, რომელიც ამჟამად წარმოადგენს კომერციული S-PLUS სისტემის საფუძველს. S-PLUS-ისთვის დაწერილი პროგრამების უმეტესობა მარტივად შეიძლება შესრულდეს R გარემოში;
მონაცემთა ცხრილებით გაცვლის შესაძლებლობა;
მთელი გაანგარიშების ისტორიის შენახვის შესაძლებლობა დოკუმენტაციის მიზნებისთვის.

პირველი გაკვეთილისთვის მომზადდა დისკები, რომლებზეც ჩაიწერა სამონტაჟო ფაილები, დოკუმენტაცია და სახელმძღვანელოები. ამ უკანასკნელის შესახებ უფრო მეტს გეტყვით. CRAN გვაწვდის დეტალურ მომხმარებლის სახელმძღვანელოს ინსტალაციის, R ენის (და მისი ქვეჯგუფის S), დამატებითი სტატისტიკური პროცედურების დაწერისა და მონაცემების ექსპორტისა და იმპორტის შესახებ. წვლილის შეტანილი დოკუმენტაციის განყოფილება შეიცავს უამრავ პუბლიკაციას სტატისტიკის მასწავლებლების მიერ, რომლებიც იყენებენ ამ პაკეტს სასწავლო პროცესში. სამწუხაროდ, რუსულად არაფერია, თუმცა, მაგალითად, პოლონურშიც კი არის. ინგლისურენოვან წიგნებს შორის მინდა აღვნიშნო "R-ის გამოყენება შესავალი სტატისტიკისთვის" პროფესორ ჯონ ვერზანის მიერ ნიუ-იორკის საქალაქო უნივერსიტეტიდან და "Introduction to the R project for Statistical Computing" პროფესორ როსიტერის (ჰოლანდია) საერთაშორისო. გეოინფორმატიკისა და დედამიწაზე დაკვირვების ინსტიტუტი.

პირველი გაკვეთილი დაეთმო პაკეტის ინსტალაციას და გამოყენების სწავლას, R ენის სინტაქსის გაცნობას.ტესტად გამოიყენეს ინტეგრალების გამოთვლა მონტე კარლოს მეთოდით. აქ არის r.v-ის ალბათობის გამოთვლის მაგალითი. მე-3 პარამეტრით ექსპონენციალური განაწილებით, აიღეთ მნიშვნელობა 0.5-ზე ნაკლები (10000 არის მცდელობების რაოდენობა).
> x=runif(10000,0,0.5)
> y=runif(10000,0,3)
>t=y<3*exp(-3*x)
> u=x[t]
>v=y[t]
> ნაკვეთი (u,v)
> i=0.5*3*სიგრძე(u)/10000

პირველი ორი ხაზი მიუთითებს წერტილების ერთგვაროვან განაწილებას მართკუთხედში x, შემდეგ არჩეულია ის წერტილები, რომლებიც ექცევა ექსპონენციალური სიმკვრივის გრაფიკის ქვეშ 3*exp(-3*x), ნაკვეთის ფუნქცია აჩვენებს წერტილებს გრაფიკულ გამომავალ ფანჯარაში და საბოლოოდ გამოითვლება საჭირო ინტეგრალი.
მეორე გაკვეთილი დაეთმო აღწერითი სტატისტიკის გამოთვლას (კვანტილები, მედიანა, საშუალო, ვარიაცია, კორელაცია და კოვარიანსი) და გრაფიკების (ჰისტოგრამები, ყუთები და ულვაშების) წარმოება.
შემდგომ კლასებში გამოყენებული იქნა Rcmdr ბიბლიოთეკა. ეს არის გრაფიკული მომხმარებლის ინტერფეისი (GUI) R გარემოსთვის. ბიბლიოთეკა შექმნილია კანადის მაკმასტერის უნივერსიტეტის პროფესორ ჯონ ფოქსის ძალისხმევით.

ამ ბიბლიოთეკის ინსტალაცია ხორციელდება ბრძანების install.packages("Rcmdr", dependencies=TRUE) შესრულებით R გარემოში. თუ თავად გარემო არის R ენის თარჯიმანი, მაშინ "Rcmdr" დანამატი არის დამატებითი ფანჯარა. აღჭურვილია მენიუს სისტემით, რომელიც შეიცავს ბრძანებების დიდ რაოდენობას, შესაბამისი სტანდარტული სტატისტიკური პროცედურები. ეს განსაკუთრებით მოსახერხებელია კურსებისთვის, სადაც მთავარია ასწავლოს სტუდენტს ღილაკების დაჭერა (სამწუხაროდ, ეს ახლა უფრო და უფრო ხშირად ხდება).

ჩემი წინა კურსის სემინარის ჩანაწერები გაფართოვდა. ისინი ასევე ხელმისაწვდომია FTP-ის საშუალებით საიტიდან isdwiki.rsuh.ru. ეს შენიშვნები შეიცავდა კრიტიკული მნიშვნელობების ცხრილებს, რომლებიც გამოიყენებოდა დაფაზე გამოთვლებისთვის. წელს მოსწავლეები წახალისდნენ ამ ამოცანების ამოხსნას კომპიუტერზე და ასევე შეამოწმონ ცხრილები შენიშვნებში მოცემული (ნორმალური) მიახლოებით.

იყო ჩემი შეცდომებიც. მაგალითად, ძალიან გვიან მივხვდი, რომ Rcmdr გაძლევთ საშუალებას გადმოწეროთ მონაცემები გადმოწერილი პაკეტებიდან, ამიტომ შედარებით დიდი ნიმუშები დამუშავდა მხოლოდ რეგრესიის ანალიზზე კლასებში. არაპარამეტრული ტესტების წარდგენისას მოსწავლეებმა მონაცემები ხელით შეიტანეს ჩემი ჩანაწერების გამოყენებით. კიდევ ერთი ნაკლი, როგორც ახლა მესმის, იყო საშინაო დავალების არასაკმარისი რაოდენობა R ენაზე საკმაოდ რთული პროგრამების დასაწერად.

აღსანიშნავია, რომ რამდენიმე უფროსკლასელი დაესწრო ჩემს გაკვეთილებს, ზოგიერთმა გადმოტვირთა მასალა ლექციებიდან და სემინარებიდან. რუსეთის სახელმწიფო ჰუმანიტარული უნივერსიტეტის ინტელექტუალური სისტემების განყოფილების სტუდენტები იღებენ ფუნდამენტურ ტრენინგს მათემატიკასა და პროგრამირებაში, ამიტომ R გარემოს გამოყენება (ცხრილების და სტატისტიკური პაკეტების ნაცვლად ფიქსირებული სტატისტიკური პროცედურებით) ძალიან სასარგებლო მეჩვენება.

თუ თქვენ წინაშე დგას სტატისტიკის შესწავლის და განსაკუთრებით სტატისტიკური მონაცემების დამუშავების არასტანდარტული პროცედურების დაწერის ამოცანა, მაშინ გირჩევთ, ყურადღება მიაქციოთ R პაკეტს.

ახლახან შემხვდა ასეთი ფენომენი - ბევრს სმენია R პროგრამირების ენის შესახებ. მაგრამ ძალიან ცოტამ იცის რა არის ეს.

ვინაიდან მე ამ ენის მშობლიური ენა ვარ და მისი პოპულარიზაცია მაინტერესებს, ვეცდები ამ პოსტში ცოტა გავაშუქო თემა. საინტერესო იქნება!

გეგმა მარტივია:

1) რა არის R ენა

2) პოპულარობა რუსეთში

რა არის R ენა

R (ვიკი) არის პროგრამირების ენა სტატისტიკური მონაცემების დამუშავებისა და გრაფიკისთვის და თავისუფალი, ღია კოდის გამოთვლითი გარემო GNU პროექტის ფარგლებში.

ჩვენი აზრით: ენა იდეალურია ბაზრის ნიმუშების მოსაძებნად. უფასო, სწრაფი და უფასო.

ის საშუალებას გაძლევთ ჩაატაროთ სტატისტიკური კვლევები ყველაფრის შესახებ, რაც თქვენს ხელშია. მისი არსებობის წლების განმავლობაში, ათობით და ასობით გაფართოება გამოჩნდა თითქმის ნებისმიერი აპლიკაციის პრობლემის გადასაჭრელად.

ეს არის ყველაზე პოპულარული პროგრამირების ენა დასავლეთში ალგორითმული ტრეიდერებისთვის. ეს არის უახლესი ზღვარზე, რაც ამჟამად ხელმისაწვდომია მანქანურ სწავლასა და სტატისტიკაში.

იმისათვის, რომ დაწეროთ პროგრამები R-ში, უბრალოდ გადმოწერეთ R-Studio და ეს არის ის

რამდენიმე ხნის წინ, ენის პოპულარიზაციის ფარგლებში, ჩავწერე მინი კურსი „R ყველასათვის“. უფასო. ნახეთ, რამდენად მარტივად მუშაობს ეს ყველაფერი და რამდენად სწრაფად შეგიძლიათ მასზე სკრიპტების დაწერა. ეს უბრალოდ შესანიშნავია!

პოპულარობა რუსეთში

სასურველს ტოვებს.

თუ დასავლეთში ყველა კვლევის 90% ტარდება ამ ენის გამოყენებით, მაშინ რუსეთში იშვიათი კვირა გადის SmartLab-ზე, რომელშიც შეგიძლიათ იპოვოთ მისი მინიმუმ ერთი ხსენება. იმათ. იმ ადამიანთა რიცხვი, ვინც იცის R, კრიტიკულად მცირეა.

ამ სიტუაციის მიზეზებს შორის: ბოლო დრომდე რუსულ ენაზე სახელმძღვანელოების ნაკლებობა, სასწავლო კურსების ნაკლებობა, მოვაჭრეების დაბალი წიგნიერება და მრავალი სხვა. ამაზე ნუ ვილაპარაკებთ.

ერთადერთი მნიშვნელოვანი ის არის, რომ ამ ენის პოპულარობა რუსეთსა და დსთ-ში სტაბილურად იზრდება.

რუსი მომხმარებლები დაიღალნენ გატეხილი API-ებით და ძვირადღირებული სავაჭრო სისტემებით. უფასო R ენა, ვაჭრობის კონტექსტში, ძალიან მალე დაიკავებს თავის კუთვნილ ადგილს მათ ინსტრუმენტთა ნაკრებში. Შემოგვიერთდი!

დღეისთვის სულ ესაა. იმედია საინტერესო იყო.

უყურეთ ჩემს უფასო კურსს, რომ ნახოთ რამდენად ადვილია კოდის დაწერა. დაწერეთ რობოტები!