INTRODUCCIÓN AL MANEJO DE DATOS EN R
Enviado por pinguca • 5 de Abril de 2017 • Práctica o problema • 3.312 Palabras (14 Páginas) • 266 Visitas
INTRODUCCIÓN AL MANEJO DE DATOS EN R
R es un lenguaje y entorno de programación para análisis estadístico y gráfico, es un proyecto de software libre que tiene como ventaja la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades específicas, lo que permite una gran gama de opciones en las que es útil la implementación del software. R es un entorno altamente dinámico, y a menudo se concibe como un vehículo para desarrollar nuevos métodos interactivos de análisis de datos.
Descarga… Puede descargarse libremente del sitio llamado CRAN (Comprehensive R Archive Network) en la siguiente dirección: http://cran.r-project.org o bien, simplemente buscando R en Google, en el resultado titulado “The R Project for Statistical Computing”.
En la página principal se muestra un recuadro titulado “Getting Started” que contiene un vinculo en la frase “download R”. Tras dar click al vínculo, se selecciona cualquiera de los servidores para la descarga que están ordenados por país. Tras seleccionar el servidor se muestra un recuadro titulado “Download and Install R” que contiene tres vínculos para la descarga, seleccione alguno dependiendo del sistema operativo de su computadora. Por último de click en el vinculo de la frase “install R for the first time” y descargamos la versión disponible.
Inicio… Al ejecutar el programa en la interfaz de RGui aparece el símbolo > esperando la entrada de instrucciones. El menú principal contiene las pestañas típicas de otras aplicaciones: File, Edit, View, Windows y Help, junto con dos específicas de R: Misc y Packages
File: para editar o ejecutar un conjunto de órdenes, cambiar el directorio o salir del programa. Edit: para editar datos existentes creados por R Misc: para listar o remover objetos. Packages: nos permite cargar un paquete existente o cargar un paquete externo o almacenado en el equipo. Windows: manejar las ventanas activas. Help: ayuda del programa.
Ayuda… Para consultar artículos de ayuda en R se utilizan dos comandos equivalentes:
> help(solve) > ?solve
Para consultar ayuda para funciones con caracteres especiales y para algunas palabras reservadas como if, for o function:
> help("function") > ?"function"
Universidad Nacional Autónoma de México Estadística III Facultad de Ciencias
Profesora Claudia González González Ayudante H. Alonso Torres Hernández
Para consultar los datos relacionados con una palabra:
>help.search("Surfit") > help.search("Surv")
Para consultar ejemplos (si están disponibles) de una función:
> example("hclust")
Objetos básicos… Es importante tener presente que R es sensible a mayúsculas y minúsculas, reconoce las diferencia entre objetos nombrados igual pero con variaciones de minúsculas y mayúsculas.
> a<-5 > A<-7 > a [1] 5 > A [1] 7
Para ver el conjunto de objetos que tenemos en nuestro espacio de trabajo “ workspace” utilizamos el comando ls() o el comando objects(), para eliminar algún objeto en el workspace utilizamos el comando rm(objeto) colocando en los paréntesis el nombre del objeto que se desea eliminar.
> a<-5 > A<-7 > ls() [1] "a" "A" > objects() [1] "a" "A" > rm(a) > objects() [1] "A"
En R existen dos tipos de acciones cuando se trabaja con objetos, las asignaciones y las expresiones, que se distinguen porque las asignaciones se guardan en el workspace y las expresiones se imprimen en la pantalla pero no se guardan.
> #Expresión. El resultado se muestra por pantalla y no se guarda. > rnorm(10) [1] 0.1397904 1.9153013 -0.9964198 0.3218587 -1.3128392 0.3581143 [7] 1.2629501 1.9920999 -0.7961414 0.2250373
Universidad Nacional Autónoma de México Estadística III Facultad de Ciencias
Profesora Claudia González González Ayudante H. Alonso Torres Hernández
> #Asignación: no se muestra nada, pero se guarda en el workspace > m<-rnorm(10) > m [1] 0.84355475 0.68358213 0.58354637 1.16317698 0.26908680 -1.85201035 [7] 0.15883198 1.45050064 1.02500286 -0.07060129
Vectores Numéricos La estructura más simple es un vector numérico, que consiste en un conjunto ordenado de números, en R un numero de considera un vector de longitud uno, existen distintas formas de crear vectores, se sugiere que se adopte solo una para evitar confusiones.
> x<-c(1,2,3,4,5) > x [1] 1 2 3 4 5 > assign("x",c(1,2,3,4,5)) > x [1] 1 2 3 4 5 > c(1,2,3,4,5)-> x > x [1] 1 2 3 4 5
Para unir vectores se puede usar la siguiente expresión:
> y<-c(x,0,0,x) > y [1] 1 2 3 4 5 0 0 1 2 3 4 5
Al contrario que la mayoría de lenguajes de programación, R tiene aritmética vectorial, por lo que los vectores pueden aparecer en las expresiones que generamos, En caso que los vectores que aparecen en una expresión no sean de la misma longitud, el más corto comienza a repetir su primer elemento, el segundo, etc. hasta que alcanza la longitud del más largo, R nos avisa de este hecho tras mostrar o asignar el valor de dicha expresión.
> x<-c(1,2,3,4) > y<-c(5,6,7,8,9,10) > x+y [1] 6 8 10 12 10 12 Warning message: In x + y : longer object length is not a multiple of shorter object length
Algunas de las operaciones que se pueden hacer con vectores en R se muestran en la siguiente tabla:
Universidad Nacional Autónoma de México Estadística III Facultad de Ciencias
Profesora Claudia González González Ayudante H. Alonso Torres Hernández
Secuencias Regulares En R disponemos de instrucciones para generar secuencias de números. Una de las más utilizadas es el operador ":".Con la función seq() también se pueden generar secuencias de números.
#Generamos un vector con los números 1, 2, 3, 4, …, 29, 30. > 1:30 #Estoes equivalente al vector c(1, 2, …, 29, 30) [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 #Eloperador ":" tiene la máxima preferencia > n <-10 > 1:n-1 #Aquí se ejecuta primero ":" y después "-" [1] 0 1 2 3 4 5 6 7 8 9 > 1:(n-1) #Forzamos la prioridad del "-" [1] 1 2 3 4 5 6 7 8 9 #Generamos una secuencia de 1 a 30 saltando dos números cada vez > seq(1,30,by=2) [1] 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
La función seq() admite también la longitud de la secuencia que queremos generar, de manera que ella misma decide el intervalo automáticamente
> seq(1,30,length=15)
...