INGENIERIA EN SISTEMAS INTELIGENCIA ARTIFICIAL
Enviado por Nicolay Rm • 5 de Diciembre de 2017 • Apuntes • 2.029 Palabras (9 Páginas) • 228 Visitas
UNIVERSIDAD TECNOLOGICA INDOAMERICA
INGENIERIA EN SISTEMAS
INTELIGENCIA ARTIFICIAL
NOMBRE: NICOLAS RAMOS
NIVEL: OCTAVO
Google Penguin
Penguin es un algoritmo de Google que fue dirigido contra spam web y se lanzó en abril de 2012. Según Matt Cutts de Google en la publicación oficial del blog central de Google Webmaster "Otro paso para recompensar sitios de alta calidad" (2012), el pingüino tendrá impacto aproximadamente el 3% de las consultas de búsqueda. Este porcentaje fue para los idiomas inglés, alemán, chino y árabe, mientras que para los idiomas en los que se detectó que tienen más spam, como el polaco, el impacto es de alrededor del 5%.
Google anunció que el objetivo de este algoritmo era disminuir la clasificación de los sitios que violaban las directrices de calidad de Google. Principalmente estas violaciones, como Danny Sullivan ha enumerado en su artículo "Google Lanza 'Penguin Update' Targeting Webspam In Search Results" (2012), son relleno de palabras clave, esquemas de enlaces, encubrimiento y contenido duplicado útil.
¿Qué significa relleno de palabras clave? Con el relleno de palabras clave se entiende una acción en la que las palabras clave se usan excesivamente para manipular la clasificación del sitio en los resultados de búsqueda. Google piensa que llenar las páginas con palabras clave demasiado es una experiencia negativa para el usuario del sitio (Google Webmaster Tools "Keyword stuffing"). La experiencia negativa para el usuario proviene del hecho de que al incluir palabras clave en el texto tanto como sea posible, el texto se vuelve incomprensivo y, a menudo repetitivo. En otras palabras, el texto no ofrece nada relevante para el lector. La incomprensión y la falta de contenido único y relevante se consideran como una señal para reducir el ranking de la página. Por lo tanto, Google recomienda usar palabras clave en contexto de manera apropiada para garantizar una lectura placentera y una experiencia de navegación para el usuario. Google ha establecido un ejemplo del tipo de texto que uno no debería producir que se marcaría como relleno de palabras clave:
"Vendemos humidores de cigarros personalizados. Nuestros humidores de puros personalizados están hechos a mano. Si está pensando en comprar un humidor para cigarros personalizado, comuníquese con nuestros especialistas en humidores de cigarros personalizados en custom.cigar.humidors@example.com. "
Esquemas de enlaces de acuerdo con las Herramientas para webmasters de Google Los "esquemas de enlaces" también pretenden cambiar la clasificación de los resultados de búsqueda y se consideran una infracción de las directrices para webmasters de Google. Los esquemas de enlaces pueden variar en sus prácticas, por ejemplo, la compra o venta de enlaces se considera una intriga de enlaces, y los especialistas en marketing y los webmasters deben ser cada vez más cuidadosos con los sitios que ofrecen enlaces de alojamiento con un pago. El hecho de haberse enredado en una red de intriga de enlaces podría afectar gravemente su página web y las clasificaciones de su sitio pueden ir a la baja. Google recuerda que crear un buen contenido es la mejor manera de obtener enlaces relevantes a su página. El contenido bueno y único ganará popularidad en internet y los enlaces seguirán naturalmente.
Por lo tanto, a pesar de que a veces es muy útil y se considera una buena gestión de las relaciones, compartir los vínculos con los socios puede no ser siempre una buena cosa. Al intercambiar enlaces, es bueno tener en cuenta que los intercambios de enlaces excesivos no se ven con buen ojo por parte de Google. Google también incluye "campañas de comercialización de artículos a gran escala o publicaciones de invitados con enlaces de texto enriquecidos con palabras clave" como intriga de enlaces (Herramientas para webmasters de Google "Interconexión de enlaces"). Una vez más, Google proporciona un ejemplo de esto:
"Hay muchos anillos de bodas en el mercado. Si quieres tener una boda, deberás elegir el mejor anillo. También necesitarás comprar flores y un vestido de novia ".
Se considera que los anuncios de texto y los anuncios publicitarios que aprueban el PageRank, pagados o no, infringen las directrices de Google mencionadas en la publicación de Herramientas para webmasters anterior. Por otro lado, Google recuerda que los enlaces publicitarios de PPC que no pasan el PageRank están completamente bien. Puede lograr esto agregando un atributo rel = "nofollow" a la etiqueta o redireccionando los enlaces a una página intermedia que tiene el archivo robots.txt agregado y así bloquea el rastreo de los robots del motor de búsqueda.
Otra cosa que se considera spam es el encubrimiento. Google mismo admite que el encubrimiento es un tema difícil pero definitivamente una acción punible. Con encubrimiento se entiende la acción de presentar contenido diferente a los usuarios humanos que se presenta a los motores de búsqueda. Un ejemplo que Matt Cutts ha presentado en Google Webmaster Tools "Cloaking" es un sitio web que presenta a los motores de búsqueda que contiene caricaturas, pero en realidad cuando el usuario llega a la página el contenido es algo completamente distinto, por ejemplo porno. Esta es definitivamente una experiencia negativa para el usuario ya que el resultado de la búsqueda no coincide con el tema buscado. Google recuerda que no existe el encubrimiento aceptable. Los rastreadores deben tratarse igual que los usuarios humanos en todo momento para dar una imagen veraz de la página web.
El último en la lista de spam que Sullivan ha incluido en su artículo "Google Lanza 'Actualización de pingüinos' Targeting Webspam en los resultados de búsqueda" (2012) es contenido duplicado. Google ya ha tomado medidas contra el contenido duplicado en su actualización de algoritmo anterior, Panda, pero también ha lanzado Penguin para abordar las páginas con contenido duplicado. El contenido duplicado es como su nombre sugiere contenido en la página que coincide con el contenido en otras páginas completamente o es muy similar. Google recuerda en su publicación de Herramientas para webmasters "Duplicar contenido" que, en su mayoría, el contenido duplicado no es originalmente engañoso. El contenido duplicado puede aparecer en los foros de discusión que tienen páginas para el tráfico regular, así como para dispositivos móviles. También las versiones de páginas web solo para impresoras son contenido duplicado aceptable.
Desafortunadamente, también hay contenido malicioso duplicado en las páginas web que intenta manipular los rankings de los motores de búsqueda para mejorarlos. Esto puede dar como resultado que el usuario tenga el mismo contenido que se muestra repetidamente, lo que hace que la experiencia del usuario sea negativa. Google ve esto como una violación contra su misión y reacciona para evitar que esto suceda.
Google ofrece algunos consejos sobre cómo abordar el contenido duplicado de forma adecuada para que también los algoritmos entiendan lo que está sucediendo y no marquen las páginas como correo no deseado. En primer lugar, Google "no recomienda bloquear el acceso del rastreador a contenido duplicado en su página web". Google explica que si los motores de búsqueda no pueden rastrear las páginas de contenido duplicadas, tampoco pueden identificar que las URL apuntan al mismo contenido y se tratan como páginas separadas. Por lo tanto, Google sugiere usar el elemento de enlace rel = "canonical", la herramienta de manejo de parámetros de URL o los redireccionamientos 301 para marcar las páginas como contenido duplicado y permitir que los rastreadores entren y salgan.
...