CURSO DATA SCIENCE CON R Y RSTUDIO
Enviado por Fabio Lorenzo Segade • 14 de Noviembre de 2022 • Apuntes • 2.439 Palabras (10 Páginas) • 56 Visitas
CURSO DATA SCIENCE CON R Y RSTUDIO
Sección 1. Introducción. Vídeo 2 - ¿Para qué sirve R?
Amigos, empezamos con el análisis del software de R y antes de pasar a los códigos y empezar a programar. Conozcamos un poco más acerca de este famoso software llamado R.
El cual es un software dedicado al análisis estadístico, el cual implica un análisis de datos. Entonces tanto el análisis estadístico como el análisis de datos es la parte fuerte que tiene R. Actualmente más de 7000 librerías web.
Pero para qué sirve R?
Pues para empezar, nos sirven a nosotros para realizar operaciones matemáticas. Dentro de las cuales está la facilidad de poder trabajar con vectores, con matrices, o ambos, entre otros.
También nosotros podemos trabajar con bases de datos. Cambiando filas, columnas o modificando datos de las propias bases de datos.
Podemos agrupar y obtener diferentes estadísticas de la base de datos, por ejemplo, imagínense que estoy trabajando con la base de datos de ventas.
Por lo tanto, una estadística muy importante sería conocer las ventas promedio, por ejemplo, la venta promedio por cada mes, por cada vendedor.
Otras opciones que también nos permite realizar R es realizar un análisis estadístico, dentro del cual nos podemos encontrar con las medidas de tendencia central (como la media, la mediana y la moda), medidas de dispersión (la varianza, la desv. típica etc) y también podemos realizar estadística inferencial (es decir, yo tengo aquí mi base de datos, de la que puedo obtener la probabilidad de que un determinada variable tenga un valor superior a un determinado valor)
Después del análisis estadístico, también podemos realizar técnicas de modelamiento. De manera que realicemos modelos en R. Por ejemplo, tenemos los modelos de regresión lineal o los moodelos de regresión logística.
Los modelos de regresión lineal, recuerden, son los que se dan cuando se traza una recta a lo largo de un anube de puntos.
Dentro de todo este campo de modelamiento en R podemos encontrarnos también técnicas de machine learning, o técnicas de aprendizaje automático. Dentro de las cuales vamos a encontrarnos técnicas de clasificación y técnicas de regresión, ambas clasificadas dentro del machine learning supervisado.
También existen otros tipo de técnicas dentro del machine learning, como los clusters y los análisis de distintos componentes, ambos métodos son métodos de aprendizaje no supervisado.
A modo de resumen, como veis, la mayoría de lo hablado hasta ahora está enfocado a cómo explotar nuestra base de datos con técnicas de machine learning. Buscando modelos que nos permitan clasificar o hacer recreaciones de bases de datos, es decir, un análisis estadístico.
Similarmente, con el análisis de clase y de principales componentes, los modelos de regresión lineal y regresión logística buscan patrones en las bases de datos y con el análisis estadístico yo puedo conocer cuáles son sus medidas de tendencia central, sus medidas de dispersión, así como también si se puede realizar algún proceso de inferencia.
Pero ¿cuál es la base de todo esto? Primero tenemos que aprender a cómo trabajar con bases de datos.
Una vez que nosotros trabajamos con bases de datos, a partir de aquí vamos a tener nuestra base de datos de una forma adecuada, es decir, una base de datos ordenada. Y es a partir de esta base de datos ordenada cuando nosotros podremos aplicar las diferentes técnicas de estadística descriptiva, estadística inferencial y procesos de modelamiento.
Sección 1. Introducción. Vídeo 3 - ¿Para qué sirve R?
VIDEO CON EL FIN DE QUE DESCARGAMOS UNOS LIBROS:
- GGPLOT2, ELEGANT GRAPHICS FOR DATA ANALYSIS
- R FOR DATA SCIENCE; IMPORT, TIDY, TRANSFORM, VISUALIZE AND MODEL DATA
- R IN ACTION, DATA ANALYSIS AND GRAPHICS WITH R
- R GRAPHICS COOKBOOK
Sección 1. Introducción. Vídeo 4 – Esto es lo que aprenderemos en el curso
Sección 1. Introducción. Vídeo 5 – R vs RStudio
Veamos la principal diferencia que existe entre ambos. Por un lado tenemos a R, que es un lenguaje de programación.
¿Qué significa esto? R es como un lenguaje que nos va a permitir a nosotros comunicarnos con los datos y a partir de ahí obtener algunos análisis estadísticos que nos sirvan para el análisis de datos y para representaciones gráficas.
Más adelante veremos también que se puede realizar con algunos modelos de aprendizaje automático o modelos de machine learning.
Por otro lado, tenemos a Rstudio, que no es más que un programa que permite ejecutar R. Algunos lo llaman un IDE, que es un entorno de desarrollo integrado, porque dentro del mismo vamos a ejecutar el mismo lenguaje R pero de una forma mucho más cómoda.
Esa es la ventaja de los IDEs que nos permiten ejecutar un determinado lenguaje de una manera más cómoda.
Algo similar tenemos, por ejemplo, con el software de Python., el cual es un lenguaje de programación que también puede ejecutarse en otros iIDEs, como puede ser Júpiter, Visual Studio, en Google Collab, entre otros.
Entonces vemos que todo esto de aquí también vienen a ser un entorno de desarrollo integrado donde ejecutan.
Sección 1. Introducción. Vídeo 6 – Descargar e instalar R
Sección 1. Introducción. Vídeo 7 – Descargar e instalar RStudio
Sección 1. Introducción. Vídeo 8 – Descarga el material del curso
Sección 2. Primeros pasos con RStudio. Vídeo 1 – Usar R como una calculadora
NOTAS: para multiplicar se usa el asterisco, para elevar un número el símbolo ^ y para hacer la raíz cuadrada se pone sqrt (nº a usar).
Sección 2. Primeros pasos con RStudio. Vídeo 2 – Ojo con los logaritmos
NOTAS sobre logaritmos
- Si ponemos log (25), R lo asimila como si quisiéramos hacer el logaritmo neperiano, el log neperiano no es más que el logaritmo en base e, siendo e nuestro valor exponencial que toma el valor de 2.71
- Para hacer otro tipo de logaritmos, por ejemplo el log en base 10 del valor de 25, tendremos que poner:
[pic 1]
- En el caso de querer analizar logaritmos con una base diferente, por ejemplo log 25 en base 5, sería de la siguiente forma:
[pic 2]
NOTAS sobre las exponenciales (las exponenciales son las funciones inversas a los logaritmos):
- Exponencial sobre el neperiano: exp (1), esto me da el valor de la exponencial a la uno (e^1) = 2.71. Siendo la e la base del log neperiano.
Sección 2. Primeros pasos con RStudio. Vídeo 3 – ¿Eres capaz de resolver este acertijo matemático?
6/2 (2+1), acertijo matemático porque en función de la calculadora usar te da un resultado u otro.
Pero en R: en rojo está como se debe hacer, pues depende de la posición de los paréntesis. De hecho, R, tal cual está formulado, no lo calcula.
...