Posts Tagged ‘SEO’

Como piensan los “quality raters” de google ?

Monday, September 22nd, 2008

Hace ya algún tiempo que tengo un documento que supuestamente es la “base” de conocimiento para los quality raters (también conocidos como evangelist) de Google.

Para los no familiarizados con este concepto, es la gente que Google contrata por TODO el mundo para evaluar búsquedas, detectar Spam, y en general… mejorar la calidad de los resultados en las SERP.

Dado que es un documento público (está accesible desde varios servidores), y que es un tema de interés… me he permitido la libertad de adjuntar algunos “fragmentos” que seguro… os harán reflexionar ;-)

Aunque solo son algunos fragmentos que me han parecido interesantes… esforzaros en encontrar el documento original haciendo algo de “googling” :-) El esfuerzo valdrá la pena….

1. The Role of the Quality Rater
As a Quality Rater, you will evaluate ‘query-page’ Tasks. For each ‘query-page’ Task, you will:
• Research and understand the query.
• Evaluate the page based on its relevance to the query and its utility to the user.
• Assign a rating from the Rating Scale.
Query refers to the word or words that a user types in the search box of a search engine.
The URL is the web address of the page you will evaluate, such as http://www.microsoft.com/.
The Page or Landing Page is the page you will evaluate. It is the page you see after you click on the URL.
Task Language and Task Location. You will be given a Task language and a Task location for each
query-page Task. You must evaluate each Task in the context of its language and location.
In this document, each query will be shown in square brackets, followed by the Task language and Task
location. Examples:
[ Elvis Presley ], English (US)
[ coca cola ], Spanish (MX)
Please keep in mind that the language of the query may not match the Task language. For example, you may
be working on a German (DE) Task and see a query in English.

Adjustments to Ratings Based on Task Location and Page Location
It is very important to use the Task Language and Task Location to interpret the query. You will also need to
use the Task language and Task location to evaluate the page. Sometimes the Task location doesn’t match
the country domain of the page. For example, the Task location is Spain, but the country domain of the page
is Mexico (.mx).
In many cases, when there is a mismatch between the Task Location and the country domain of the page, you
will need to lower the rating for the page. You must use your common sense and cultural knowledge to
determine whether to lower the rating and how much to lower it. Do not hesitate to lower the rating to Off-
Topic if there is a mismatch between the Task Location and country domain of the page that would make the
result useless for a user in the Task Location
. High ratings are appropriate for pages with high relevance and
which are in the right language and right location.

Part 4: Webspam Guidelines
WHAT IS WEBSPAM ?

Webspam is the term for web pages that are designed by webmasters to trick search engine robots and direct
traffic to their websites. In the coming pages, you will learn how to identify some of these techniques. When
you observe them being used, you will assign a Spam label to the page.
The Relationship between Ratings and Spam
You have already learned that pages are rated according to their relevance to the query and utility to the user.
You would not be able to assign a rating without knowing the query. We say that ratings are querydependent.
Spam labels do not depend on the relevance of the page to the query. Spam labels are query-independent.
A page should receive a Spam label if it is created using deceptive techniques - no matter what query it is
associated with. It is possible for a page to receive a very high rating – even a Vital rating – and also be
assigned a Spam label.
How do Spammers make money from the use of Spam?
Spammers make money when visitors click on links on their web pages. Revenue sources are of two general
types:
Pay-Per-Click (PPC) ads: Spammers make money each time an ad is clicked. PPC ads appear on many
different types of web pages. Sponsored links is another term for ads.
Thin Affiliates: Spammers make money when a transaction is made after the user has clicked through to
the merchant’s site.
Exceptions: Pages should generally not be marked Spam if they provide added value. Added value refers to
original or other useful content on the page, regardless of whether there are PPC ads. Examples of content
that provides added value include:
• Price comparison functionality: Even though the user has to go to another site via the affiliate link to place
an order, there is value to have price comparisons right there on the page.
• Product reviews: Pages that provide original reviews offer added value. Items that are commonly
reviewed are books, electronics, and hotels.
• Recipes: Pages that provide recipes offer added value.
• Lyrics and quotes: Pages that display lyrics or quotes offer added value.
• Contact information: Pages that provide contact information, especially physical addresses and phone
numbers, offer added value.
• Coupon, discount, and promotion codes: Affiliate pages that provide coupon, promotion, or discount
codes for the consumer offer added value.
TYPES OF SPAM
This section describes the following types of Spam and provides tips and tools on how to identify them.
• PPC Pages • JavaScript Redirects
• Parked Domains • Keyword Stuffing
• Thin Affiliates • 100% Frame
• Hidden Text and Hidden Links • Sneaky Redirects

Glosario de terminos SEO, SEM

Tuesday, July 29th, 2008

A petición popular…
Espero que lo encontreis interesante !!

404:
Error que hace su aparición al no existir la página a la cual intentamos ingresar. Es configurable, dándonos la posibilidad de redirigir al usuario a la página principal de nuestra Web o adaptándola a nuestro diseño.

Ad Server:
Es un servidor de banners, es decir, un ordenador que recibe peticiones a las que responde enviando un banner. El servidor de banners se encarga de enviar el banner más adecuado dependiendo del tipo de usuario y de contabilizar impresiones y clics para las estadísticas.

Ad space:
Es el espacio destinado a mostrar anuncios en una página Web.

Adsense:
AdSense es un servicio de Google por el cual el webmaster de un sitio Web inserta anuncios basados en texto, llamados AdWords, y recibe una cantidad de dinero por cada ‘clic’ que el visitante haga sobre el anuncio.

Adwords:
Utiliza el sistema de Coste Por Clic (CPC). Con este método, el anunciante solamente paga cuando un cliente haga clic en el anuncio, independientemente del número de veces que éste aparezca en la Web de Google.

Affiliates o Afiliados:
Persona/Web intermediaria entre la empresa que fabrica el producto y el consumidor final.

Algorithm o Algoritmo:
En el contexto de los buscadores, es el sistema de programación matemática para determinar las posiciones que obtendrán las distintas páginas Web para los diversos términos de búsqueda.

Anchor Text:
El texto ancla que diríamos en español, aunque nunca se traduce. Se refiere al texto de los enlaces que apuntan a nuestra Web. Por ejemplo: <a href=”esto.html”>esto es anchor text</a>.

Anunciante:
Persona o empresa que desea colocar sus promociones en los soportes publicitarios.

Anuncio de texto:
Una publicidad que sólo tiene texto y un enlace al sitio Web del anunciante.

Authority Sites o Webs Autoridad:
Páginas Web líderes en su género que, entonces, concentran una gran cantidad de enlaces entrantes de otras webs de su misma temática.

BackLinks:
Enlaces entrantes. Los links de otras páginas que apuntan a nuestra página Web son backlinks. En los buscadores se suelen mostrar por el comando link:www.dominio.com; hay que señalar que, con este comando, Google no muestra todos los enlaces hacia nuestra página Web; MSN es el más rápido actualizándolo (diariamente); y Yahoo! es el más completo mostrando todos los enlaces que encuentra.

Backlinks:
El número de ‘backlinks’ de una determinada página Web es el número de páginas que la enlazan.

Baneado (banned):
Significa que la Web ha sido completamente borrada del índice del buscador debido a la violación de alguna de las reglas (uso de texto oculto, doorway pages, cloacking, etc.) La forma de comprobar esta situación es usando la función site: que no muestra ninguna página indexada. Y también el PageRank que muestra 0.

BigDaddy:
BigDaddy no es ninguna actualización del algoritmo de Google ni de los datos del índice, sino una nueva infraestructura de datacenter que será la base para futuros cambios importantes que se llevarán a cabo en el buscador Web a lo largo del año 2006 y sucesivos.

BL – BackLink:
Son los enlaces apuntando a una determinada página. Para ver la cantidad de backlinks de una Web, debemos tipear link:http://www.seohome.com. Google nos mostrará sólo los backlinks de páginas que tengan PageRank superior a 4, mientras que Yahoo! todos.

Black hat SEOs:
Seos que utilizan prácticas poco éticas y penalizadas por los buscadores para conseguir a toda costa las mejores posiciones en los rankings.
Comúnmente se denominan “Seos de Sombrero Negro” a los “malos” Seos y “Seos de Sombrero Blanco” a los Seos que utilizan prácticas aceptadas por la comunidad de webmasters y Seos, y por los buscadores para optimizar éticamente las páginas Web.

Bot:
En términos de motores de búsqueda un bot es una aplicación capaz de buscar y almacenar toda la información que encuentra en la red.

Branding:
Significa generar y potenciar la imagen de marca. Cuando se coloca un banner en una página no solo se consiguen clics y ventas, sino que el anunciante está potenciando también su imagen de marca.

Buscadores:
Los buscadores son las herramientas más importantes para localizar información en Internet. Tanto los índices temáticos como los motores de búsqueda son programas que acceden a bases de datos de URLs.

Caché:
Copia de un documento almacenado dentro de un motor de búsqueda usado para su análisis y organización del mismo dentro de su índice.

Clic:
Acción de pulsar con el ratón sobre un elemento.

Clic rate (CTR):
También llamado ratio de conversión, es el porcentaje de impresiones de banners convertidas en clics. Suele situarse sobre el 1%, o incluso menos.

Clic Through:
Acción del usuario de Internet en la cual presiona el botón izquierdo del mouse o ratón para seguir un enlace.

Clic Tracking:
Consiste en contabilizar la cantidad de Clicks Through.

Cloaking:
Táctica penalizada por motores de búsqueda mediante la cual se muestra información diferente a unos usuarios que a otros. Por ejemplo, se puede mostrar diferente información a los usuarios que a los motores de búsqueda.

Clustering:
Es la agrupación que realizan los buscadores para no mostrar más de un cierto número de páginas de una Web para una determinada búsqueda.

Construcción de enlaces (link building):
Es el proceso de búsqueda, solicitud y promoción de enlaces para mejorar la popularidad de enlaces de un sitio Web.

Conversión:
Beneficios originados por una campaña publicitaria.

Conversion Rate:
Es la relación entre los visitantes y las ventas o acciones que éstos realizan.

Cookie:
Del inglés galleta. Es una información que se coloca en el navegador del usuario y se utiliza muchas veces para definir su perfil y segmentar la publicidad.

CPA:
Coste Por Acción. Es una manera de tarificar la publicidad, en función de lo que se cobra si un visitante llega a comprar algo en el sitio Web del anunciante, si llega a registrarse o a solicitar más información.

CPC:
Coste por clic. Manera de tarificar la publicidad que indica el precio de un clic sobre un banner, enlace o similar.

CPL:
Coste por cliente potencial. Basa las tarifas en el número de clientes potenciales que ha movilizado un anuncio.

CPM:
Coste Por Mil impresiones. Indica el precio que tienen mil impresiones de banners en un página Web.

CPO:
Coste por pedido. Se realiza una remuneración en función de los pedidos que han realizado las personas venidas a través de un anuncio.

CPS:
Coste por venta, en el que se tarifica dependiendo de las ventas generadas por visitantes a través de un anuncio.

Crawler:
Ver bot.

Cross Linking:
Es la acción de enlazar dos o más webs entre sí, con el propósito de aumentar su link popularity ante los buscadores.

CSS:
Siglas de Cascading Style Sheet, hoja de estilos en cascada. Se trata de un lenguaje mediante el cual se indican las propiedades y apariencia de los objetos de un documento html o xhtml, sin tener que modificar el contenido de estos.

CSV:
Comma Separated Values - Valores separados por coma.

CTR:
Siglas de Clickthrough rate, la traducción más adecuada sería porcentaje de clics. Se trata del porciento de clics relativos a la cantidad de veces que se ha mostrado el enlace.

Cyber Squatting:
Es la acción de comprar un dominio que es marca registrada (o muy similar a una marca registrada) de otra empresa.

Datacenter:
Algunos de los servidores que tiene google y que se utilizan para chequear los diferentes resultados cuando este servidor varía sus resultados. Algunos son: www-ex.google.com, www-in.google.com…

Dead Link o Link Roto:
Son aquellos enlaces que tienen como destino una página no existente. En la mayoría de los casos, es a causa de que el destino del enlace se movió a otra dirección o un error de tipeado en la dirección de destino al crear el enlace.

Deep Linking:
Consiste en enlazar contenido profundo de una Web, que ha adquirido este estado al estar muy alejado de la página principal del sitio Web.

Defaults:
Son los anuncios que aparecen cuando una empresa no tiene suficientes anuncios propios para mostrar en un sitio Web. Estos anuncios “defaults” son usualmente de servicios públicos.

Densidad:
Porcentaje de apariciones de un determinado texto o palabra dentro de un documento, se considera que debe haber un equilibrio mínimo y máximo de apariciones para no ser considerado irrelevante o ’spam’ para un determinado término de búsqueda.

DHTML:
Dynamic Hypertext Markup Language - Lenguaje de marcas de hipertexto dinámico

Directorio:
Es un sitio Web en el cual se encuentran colecciones de enlaces hacia otros sitios Web organizados por categorías o etiquetas.

DMOZ:
También conocido por ODP (Open Directory Project - www.dmoz.org), es el directorio más importante hasta el día de hoy, cuenta con casi 60.000 editores voluntarios, probablemente, ya serán más cuando leas esto. Aunque Yahoo es mucho más usado a la hora de realizar búsquedas categorizadas por directorios, dmoz tiene algunos puntos a favor, que lo convierten, actualmente, en el número 1 de las páginas ordenadas por categorías. Para saber más, puedes leer el artículo: DMOZ - The Open
Directory Project (ODP).

Dominio:
Grupo de sitios y páginas que pertenecen a una misma dirección de Internet. Esta dirección puede ser com, net, edu, etc. Por ejemplo: terra.es, yahoo.com, go.com, amazon.com. En este concepto se incluyen todas las páginas que están bajo dicho dominio.

Doorway Domain:
Un dominio creado con el propósito de redireccionar su tráfico a otro sitio Web en otro dominio.

Doorway Page:
Página creada con el propósito de posicionarse para una determinada palabra clave y, entonces, ser una página de entrada a la Web alternativa. Generalmente, estas páginas se crean masivamente. También se conocen como Bridge Pages o Páginas puente

Doorways:
Aquellas páginas que se hacen única y exclusivamente con la finalidad de optimizarlas para una serie de búsquedas. El buscador se la devuelve al usuario, que al entrar por la doorway, generalmente, es redireccionado a nuestra página de entrada principal, o bien, se pone un único enlace que lo conduzca hasta allí. Es una técnica que da buenos resultados, pero no es un buen recurso utilizarla como sistema, no se debe abusar de ella, ya que conlleva el riesgo, de ser baneado del buscador que lo detecte.

Dynamic Content o Contenido Dinámico:
Contenido generado en el momento en que el usuario lo accede. Generalmente el contenido proviene de una base de datos. Los buscadores día a día indexan mejor el contenido dinámico.

Dynamic IP o IP Dinámica:
Una dirección IP que cambia cada vez que se conecta a Internet.

E-Business:
Negocios que se basan en Internet como vía de desarrollo.

E-Commerce:
Comercio electrónico. Todo comercio o tienda que tiene la Web como canal de venta.

eCPM (effective CPM, CPM efectivo):
Es el dinero que gano por cada mil impresiones de mi página sumando los rendimientos generados por los diferentes formatos de anuncios publicados y sus modelos de pago. Es decir, si en mi página tengo publicidad de PPC, de pago por impresiones y de cualquier otro tipo, calculo el total de dinero ganado, lo divido por el número de impresiones y lo multiplico por mil (eCPM = (Revenue / impresiones) * 1000).

Efecto Sandbox (Cajón de Arena):
Es un filtro especial implementado por Google en su algoritmo para evitar que los sitios Web de nueva creación obtengan rápidamente un buen posicionamiento para sus palabras clave, incluso aunque estén optimizados para estas keywords y reciba numerosos enlaces. Con esto, se intenta evitar que los spammers consigan engañar al buscador y posicionar diferentes páginas con técnicas poco éticas.

Email marketing:
Son las campañas de publicidad que utilizan el correo electrónico como medio de difusión de la publicidad.

Etiquetas meta:
Ver meta tags

Favicon:
Icono que se agrega junto a una dirección, una vez que ésta fue agregada a los Favoritos.

FFA:
Free For All - Gratis para todos (páginas de links a las cuales no es conveniente enviar nuestras webs).

Google Dance:
El baile del google, hasta mediados de 2003 se entendía por dance un período de unos 4 días en los que google actualizaba sus índices y los resultados de las búsquedas eran variables, ahora la google dance ha cambiado y parece que se realiza de forma continua, con pequeñas oscilaciones diarias, y con días de grandes actualizaciones, al menos 1 vez al mes, en los que las posiciones cambian notablemente. Entenderemos por dance o baile esos períodos de actualizaciones que devuelven diferentes resultados en los distintos datacenters.

GoogleBot:
El spider o araña de Google, encargado de rastrear e indexar la Web.

Heading Tag o Encabezado:
Las etiquetas <h1> a <h6> definen encabezados. <h1> define el encabezado más grande. <h6> define el encabezado más chico. Los encabezados son una de las claves del posicionamiento Web “Onpage” y colocando las palabras claves principales en ellos podrás obtener un impulso en tus posiciones para esas palabras clave en particular.

Hidden Text o Texto Oculto:
Texto oculto es aquel cuyo color coincide con el del fondo de la página. Siendo ese el método más popular, también existe el método de colocarlo en un layer no visible o detrás de una imagen, layer, etc. Esta técnica no es recomendable y puede provocar una penalización.

Hit:
Es cualquier solicitud de un archivo al servidor. Es una medida utilizada para brindar estadísticas que realmente no dice mucho. En una página vista se pueden contabilizar varios hits, uno por la propia página y otro por cada una de las imágenes u otros archivos que incluye.

ICANN:
Internet Corporation for Assigned Names and Numbers - Corporación de Internet para la asignación de nombres y números

Impresión:
Es la visualización de un banner. La impresión se utiliza habitualmente para definir las tarifas o contabilizar estadísticas. También hace referencia a las páginas que se han imprimido en un sitio Web durante un tiempo o páginas vistas.

Index:
O Índice, se trata del documento principal de un sitio Web o carpeta dentro de un sitio Web.

Integración de contenido:
Anuncio que aparece integrado dentro del contenido de la página.

Intercambio de banner:
También llamado banner exchange, es una red de intercambio publicitario entre muchos sitios Web. Suele haber un ratio de intercambio 1:1, 2:1, 3:2, que quiere decir que, de cada banner que muestra un sitio Web, se muestran otros tantos o muchas veces menos, en otras páginas.

Keyword:
Palabra clave. Una palabra que ha introducido una persona en un buscador. Los sitios Web tienen palabras clave que son las que selecciona la empresa, con las que desea ser encontrado.

Landing Page:
O página de aterrizaje. Es el documento final al que llega un usuario tras seguir un enlace.

Linkbaiting:
Es la técnica de crear una buena historia y promocionarla adecuadamente para conseguir el mayor número de enlaces en el menor tiempo posible.

Llamada a la acción:
Son las palabras que intentan aumentar el ratio de conversión de clics con mensajes como “clic aquí”, “compre ya”, “inscríbase y gane”…

Log:
Es, en general, un registro de la actividad de un programa, servidor, cliente, etc. Para el caso particular de las páginas Web, es el registro de todas las acciones del servidor Web y donde quedan registradas las visitas a las páginas.

Meta Description:
Una de las etiquetas Meta. Su función es proveer de una corta descripción acerca del documento en el que se encuentra.

Meta Keywords:
Se trata de otra etiqueta meta. Contiene un listado de las palabras clave más importantes del documento separadas por comas.

Meta-Tags:
Son un conjunto de etiquetas que se colocan en las páginas Web para ofrecer una información técnica y de clasificación de la página Web, como su idioma, descripción, autor, palabras clave, etc.

MFA:
(Make For Adsense) dícese de todas las páginas webs construidas con el único fin de llenarlas de anuncios de Adsense y rentabilizar así al máximo el tráfico que llegue a ellas.

Microsite:
Es un sitio o página pequeña dentro de otro sitio Web más grande. Están dedicados especialmente a promocionar los productos o servicios del microsite entre los clientes del sitio más grande.

Mod_rewrite:
Es un módulo de ampliación del servidor Web Apache. Su utilidad consiste en la reescritura de direcciones URL ‘al vuelo’, es decir, en la misma petición.
Permite modificar las URL para obtener una estructura más adecuada y cómoda.

MSN:
Microsoft Network (motor de búsqueda).

MSN Search:
Motor de búsqueda desarrollado por Microsoft. Actualmente es el tercer motor de búsqueda más popular del mundo.

OPT-IN:
Es una lista de distribución utilizada para enviar publicidad en la que las personas que reciben publicidad se han dado de alta voluntariamente y pueden darse de baja fácilmente y en cualquier momento.

PageRank:
PageRankTM (PR) es un valor numérico con el que Google representa la importancia que una página Web tiene en Internet.

Página vista:
Número total de veces que se ha visto una página por la población internauta. Puede haber duplicaciones en las páginas vistas, ya que un mismo usuario puede visitar una página varias veces.

Páginas por persona:
Número de páginas que cada usuario ha visitado de una propiedad o dominio. Esta medición puede definir el grado de interés en los contenidos de una propiedad

Páginas únicas:
Número de páginas distintas visualizadas por un internauta durante el período de referencia.

Páginas visualizadas:
Número de páginas vistas o visualizadas, distintas o no, descargadas de un sitio, de la memoria caché o de servidores proxy.

Palabra clave:
Ver Keyword.

Parking de dominios:
Servicio que asigna enlaces publicitarios a dominios no utilizados. Esta publicidad genera rendimientos para el propietario del dominio y la empresa que ofrece el servicio. Ejemplo: hotelvalencia.es participa en un Parking de dominios. Este servicio crea automáticamente una página con enlaces a sitios de hoteles. Los usuarios que llegan a hotelvalencia.es hacen clic sobre esos enlaces y el anunciante paga una cantidad de dinero que se reparte entre el propietario del dominio y la empresa que gestiona el Parking. Empresas que ofrecen este servicio son Sedo.com, NameDrive.com y DomainSponsor.com.

Penalizado:
Significa que la Web o alguna de las páginas de la misma, no ocupa las posiciones en el índice como teóricamente debería ser. En este caso, existen uno o más filtros (edad, contenido duplicado, enlaces a afiliados, etc.) que afectan a toda la Web o solo a algunas páginas para algunas palabras claves.

Permission Marketing:
Es una manera de marketing en la que se pretende conseguir que los consumidores otorguen su permiso para recibir publicidad.

Pop up on clic:
Es como un popup, pero que no se muestra por si mismo, sino que cuando un usuario hace clic en un banner se abre el contenido en un popup.

Popdown:
Es un anuncio que se muestra en una ventana aparte, pero esa ventana se queda debajo del sitio Web que se está visitando, de modo que cuando se cierra la ventana del sitio Web que envió la publicidad, se ve la página del anunciante.

Popularidad Web:
Es un valor numérico, muy variable, en función de los backlinks que tenga una página en un número determinado de buscadores. Se puede medir con algunos programas y en algunas páginas Web, pero hay que tener en cuenta que depende mucho de los buscadores y el número de estos que se usen en la medida de este valor. Es una forma aproximada de saber si una página crece en popularidad a lo largo del tiempo.

Popup:
Formato publicitario en el que se muestran los anuncios en una ventana aparte, que aparece sobre la ventana del sitio Web que se está visitando. También llamadas ventanas secundarias o pop ups, son muy molestas para muchos usuarios.

PPC:
(Pay per clic, pago por clic): término utilizado desde la óptica de un webmaster o propietario de un dominio en parking y que hace referencia a cuánto dinero obtengo por cada clic que alguien hace sobre la publicidad mostrada en mi página. Por extensión, hace también referencia a la publicidad que paga sobre este modelo.

PPS:
(Pay per sale, pago por venta): modelo de publicidad en el que el anunciante paga una cantidad por cada venta de un producto generada a través de nuestra página. Es el modelo que permite al anunciante un calculo más fácil de su ROI ya que el momento de inversión es posterior al momento de obtención de rendimientos. Es decir, primero gano, luego pago. Como editores este modelo sólo nos interesa si el público objetivo de nuestra página es muy afín con los productos que estamos ofreciendo.

PR:
Véase PageRank.

Programas de afiliados o Affiliate programs:
Sistema que permite a sitios Web vender un producto por comisiones.

Radio de conversión:
El porcentaje de beneficios relativo a la inversión realizada en publicidad.

Redirección 301:
Se trata de configurar una página Web para que, cuando llegue el robot del buscador, éste sepa que la página se ha movido definitivamente a otra nueva dirección (URL). Mediante este redireccionamiento, se traspasarán al mismo tiempo los valores de PageRank y de backlinks que ya disponíamos en nuestra vieja URL.
Este número 301 se trata realmente de un ‘estado’ del servidor Web. Al igual que nos encontramos con los mensajes ‘404 Not Found’ o ‘500 Internal Server Error’, el ‘301 Moved Permanently’ se trata de un estado de los estándares del protocolo HTTP.

Robots.txt:
Robots.txt es un simple fichero de texto que se coloca en el directorio raíz de la Web. En este fichero se puede decidir que directorios de la Web no se quiere que sean indexados por un buscador.
Cuando un robot llega a esa página Web, lo primero que hace es una petición de este archivo, si este archivo no existe, el robot indexará toda la Web.

ROI:
(Return of Investment, retorno de inversión): este término hace referencia al beneficio que obtengo de una inversión. En publicidad online esto hace referencia a cuánto dinero gano por cada X dólares o euros que me he gastado en publicidad. Si el saldo es 0 o negativo, tengo que replantearme mi estrategia.

Rotación dinámica:
Publicación de anuncios en un mismo espacio de banner. Los anuncios van rotando, visualizándose unas veces unos u otros.

RPM:
(Revenue per mil, rendimiento por mil): beneficio que obtengo por cada mil impresiones de página, generalmente de una única fuente publicitaria. Concepto muy parecido al eCPM y generalmente utilizado en los Parkings de dominios.

SE:
Search Engine - Buscador o motor de búsqueda

Segmentación:
Es el proceso por el que se selecciona un conjunto de usuarios dentro de del total de visitantes de un sitio Web, que tiene como objetivo ofrecer productos específicos para cada usuario con un perfil distinto. Se suele segmentar en función del país, edad, intereses, nivel económico, sexo, etc.

Seguimiento:
El proceso por el cual se observa la marcha de una campaña, contabilizando todos los datos estadísticos que hagan deducir si se está realizando correctamente.

SEM - Search Engine Marketing:
‘SEM’ son las siglas de ‘Search Engine Marketing’ (’Márketing en Buscadores’). El ‘SEM’ engloba muchos más aspectos que un trabajo de ‘SEO’ (solo posicionamiento), y trata todo lo relacionado con la promoción y aparición en los buscadores.

SEMPO:
Search Engine Marketing Professional Organization - Organización profesional de marketing en buscadores

SEO - Search Engine Optimizer:
‘SEO’ son las siglas de ‘Search Engine Optimizer’ (’Optimizador de Buscadores’). Se trata de una persona -o una empresa- que se encarga de que una página Web aparezca en las primeras posiciones dentro de los resultados de un buscador, en relación a una serie de palabras o términos.
El ‘SEO’ no tiene por qué ser necesariamente el webmaster o el responsable del sitio Web, sino que éste último puede contratar sus servicios. Existen cada vez más empresas que se han especializado en el posicionamiento en buscadores, y ofrecen ayuda a otros sitios Web.

SEP:
Search Engine Positioning. Posicionamiento para buscadores; simplemente, es otra forma de referirse a SEO.

SERPs - Search Engine Results Pages:
‘SERP’ son las siglas de ‘Search Engine Results Page’ (’Página de Resultados del Buscador’). ‘SERPs’ es simplemente el plural de ‘SERP’.
Se trata de una palabra para acortar el término -más largo de pronunciar- “la página Web del buscador que incluye los resultados”, para de esta manera poder decir “la posición dentro de la SERP”, “la SERP para determinada palabra”, etc.
Las ‘SERPs’, además de los resultados, incluyen publicidad con enlaces patrocinados (de pago), al estilo de Adwords de Google.

SEs:
Search Engines - Buscadores o motores de búsqueda

SES:
Search Engine Strategies - Estrategias de cara a los buscadores (conferencia organizada por Danny Sullivan de SearchEngineWatch.com)

Shoskeles:
Anuncio que aparece en la página y se va moviendo, a veces acompañado de sonido. Cuando termina el mensaje se convierte en un anuncio estático.

Sitelinks:
Una de las novedades de las apariencias que va mostrando Google en los últimos tiempos son los enlaces “destacados” que aparecen bajo el primer resultado de algunas búsquedas. Por ejemplo [juegos]:

Skyscraper:
Es un tipo de banner con un tamaño grande, como de 120×60, aunque puede haber ligeras variaciones de tamaño. Incluso también de orientación en lo que seria un sckyscraper horizontal.

Slurp:
Es el spider o araña de Yahoo, encargado de rastrear e indexar la Web.

Smart Price de Adsense:
El SP es un factor de corrección del precio por clic que recibe el soporte. Se basa en los resultados de conversión de los clics durante un periodo determinado. En esencia, premia o castiga el resultado final del clic, es decir, si el usuario se registra, compra o ejercita la acción que el anunciante busca o no. No tiene relación con el % de clics.
Si muchos usuarios hacen clic porque se confunden, porque se les engaña, por curiosidad, o sencillamente -y más importante- no son el target buscado por el anunciante, es normal que se penalice a ese soporte con una bajada en el precio que paga Google.
En cambio si esa página aporta usuarios que compran, se registran o hacen lo deseado, es lógico que se premie a ese soporte por su alta rentabilidad, y entonces el porcentaje del precio a pagar por clic será mayor.

Sobreoptimización:
Se dice del exceso de densidad de keywords en una Web o del abuso de etiquetas <”b”> <”strong”> <”i”> <”em”> <Hn> … para resaltar la misma keyword a lo largo de la pagina
Ejemplo de sobre optimización podría ser que un una pagina todo, desde el title, el H1, las palabras en negritas, itálicas, acronym, nombres de las imágenes textos ALT y otros contengan el mismo keyword, esa exageración es antinatural, eso solo se logra cuando se trata de optimizar cada elemento de la pagina con lo cual se logra la sobreoptimización.

Spider (bot):
Arañas de los buscadores. Cada buscador tiene unos cuantos que se dedican a recorrer las páginas e irlas indexando y actualizando en sus bases de datos.

Stats:
Statistics – Estadísticas

Stemming:
Consiste en devolver resultados de palabras parecidas o de la misma familia. Por ejemplo, la eliminación en la palabra de sufijos como ’s’ o terminaciones verbales, lo que permite devolver muchísimos mas resultados. Actualmente no sé de ningún motor de búsqueda que siga utilizando este sistema.

Target:
Es el tipo de personas a las que se dirige una campaña de publicidad, porque les pueda interesar el producto o servicio publicitado. También son las características de las personas que visitan un sitio Web.

Tasa de Conversión a Cliente:
Definido como el porcentaje del total de visitantes de su site que llega a cumplir el objetivo que usted ha planteado para su Web.

TOS:
Terms of Service - Términos del servicio

Tráfico:
Estadísticas del sitio. Hace referencia a la cantidad y el tipo de usuarios que se reciben.

URI:
Uniform Resource Indicator - Indicador de recursos uniforme

URL:
Uniform Resource Locator - Localizador de recursos uniforme

Url Canónica:
Una URL (Uniform Resource Locator) canónica es una denominación unívoca que describe un nodo en la estructura jerárquica de los DNS (Domain Name Server) en Internet.

En otras palabras: es el nombre propio de cada una de las páginas webs en Internet. La construcción de las URL’s se realiza de acuerdo a la nomenclatura definida y jerarquizada
{protocolo}://{directorio o archivo}:{numero de puerto TCP}.
Por ejemplo, si la página Web se llama ejemplo.html y está en el dominio mi-dominio.com entonces la URL canónica será:
http://mi-dominio.com/ejemplo.html
Pero en el mundo del Internet, se hizo costumbre colocar delante del nombre del archivo www para remarcar de que se trata de una página Web (www= World Wide Web), lo cual ahora ya se ha hecho un cuasi estándar. Por este motivo, la mayoría de los servidores Web permiten seleccionar una página mediante las dos denominaciones.
En nuestro ejemplo:
http://mi-dominio.com/ejemplo.html
y
http://www.mi-dominio.com/ejemplo.html

mostrarían la misma página.

Visitante único:
Número de personas distintas que visitaron el contenido de un dominio, aplicación digital, dominio global, propiedad o categoría en el transcurso del período del informe.

W3:
World Wide Web - Telaraña mundial

W3C:
World Wide Web Consortium - Consorcio de la telaraña mundial

Weblog:
Ver Blog

WWW:
World Wide Web - Telaraña mundial

WYSINWOG:
What You See Is Not What Others Get - Lo que ves no es lo que otros obtienen

WYSIWYG:
What You See Is What You Get - Lo que ves es lo que obtienes (Frontpage)

XHTML:
Extensible Hypertext Markup Language - Lenguaje extensible de marcas de hipertexto

XML:
Siglas de Extensible Markup Language, lenguaje de programación basado en etiquetas modificables y personalizadas capaz de almacenar cualquier tipo de datos.

XSL:
Extensible Scripting Language - Lenguaje extensible de programación

SEO for yahoo

Monday, July 28th, 2008

En general, en España, no prestamos demasiada importáncia al posicionamiento en Yahoo o MSN, puesto que la cuota de mercado que estos buscadores tienen no es demasiado relevante.

En otros paises, esto no es tan claro.. y Yahoo por ejemplo tiene mas importancia.

En estos casos, una buena estratégia para posicionarse también en Yahoo es muy importante.

Os adjunto 3 recursos de obligada lectura si os encontrais en esta situación:

http://www.beanstalk-inc.com/articles/seo/seo-for-yahoo.htm
http://www.webpronews.com/expertarticles/2006/10/11/yahoo-seo-techniques
http://www.seobook.com/relevancy/

Google indexa flash

Wednesday, July 16th, 2008

Como ya debereis saber, google ha modificado sus algoritmos de crawling para entender (o intentar entender :-) el todopoderoso flash que tantos dolores de cabeza traen.

Os adjunto un articulo de Vanesa Fox hablando de algunas recomendaciones. A mi modo de ver… es de obligada lectura !!

A couple of weeks ago, Adobe announced that it was working with Google and Yahoo! on making Flash content easier to index in search engines. Google said it was using the search-engine specific Flash player that Adobe had made available (Yahoo!’s integration is still in the works). While I think it’s great and absolutely vital that search engines continue to evolve beyond strictly text (to ensure they are providing the best possible experience for their users), I don’t think this announcement means that all the Flash content on the web will now suddenly start ranking in search results and I don’t think that Flash developers can stop thinking about search engine optimization.

How search engines work
It all goes back to how search engines work. At least for now (even with all of the advancements in the last year around universal search), the foundations of the major search engines are based on text. The web began with primarily text-only pages and the search engine algorithms were built on that idea. When people started searching for information, they searched with words. We’re used to asking for things in words, after all, and since words were what the web was made up of, the questions and answers matched up quite well. Search engines are a bit of a middleman (middlemachine?) between a searcher’s textual questions and a web site’s textual answers.

Searching continues to be text based
Sure, you might imagine other types of exchanges. I might want to upload a picture of a person and ask for all the other pictures on the web of that person. Or I might want to search through the audio of a song for a particular lyric. All of those types of searches and more are coming (and some have been tried, with varying degrees of success), but at least for now, those applications are not how the three major search engines work and not how most people search.

Over time, search engines have experimented with different elements on pages beyond simply the text itself to better understand what those pages are about. Although since these experiments are built on a text-based foundation, the experiments have also still mostly focused on text. For instance, search engines found that the text that’s in the title may be a strong indicator of the focus on the page. The textual caption under and image is likely describing that image.

How Flash fits in with text-based search engines
Now, consider Flash. Most Flash pages contain little text. Those that do could often just as easily display that text outside of the Flash components (which would make it easier for those on screen readers and mobile phones, for instance, to view the content).

With this latest innovation in crawling Flash, Google can more easily access the text in Flash, but they still can’t process it quite as well as it can HTML text because they aren’t extracting any meta data about that text. As I mentioned earlier, search engines are now storing all kinds of meta data based on the structure of the text in HTML, like if it’s in a title tag, or an H1 and so on. So Flash-based text has that disadvantage.

Provide a separate URL for each piece of Flash content
Another consideration is how the Flash application itself is constructed. This new Flash player that Adobe is making available to Google and Yahoo! helps the search engines in that it enables them to access content it never could before. The crawlers can interact with the Flash application as a user would and crawl deeper into the application to get to text that may be four or five levels deep. On first glance, this may seem similar to search engine crawlers following links within HTML sites, but it can actually be quite different.

HTML pages (generally) have unique URLs for each page. Flash applications can be constructed that way, but can also be constructed so that as you go deeper into the application, the URL doesn’t change. This can be problematic for lots of usability reasons that have nothing to do with search. For instance, the back button in the browser doesn’t work. Users can’t easily email, Digg, or otherwise share a particular section of the Flash application easily. Bookmarking only works for the beginning of the Flash app.

As you might imagine, it also causes problems in search. Sure, the search engine crawlers may now be able to get to some of that content several levels in, but they have to index all of the text under a single URL. (Also note that they likely won’t index all of the application in this case; they will execute only a certain number of interactions.)

Say information about your latest product line is available once you choose “products” from the home page, then “new” from the products page, then “coming soon” from the new page. If the URL of the application doesn’t change for each interaction, then search engines will have to index the content from the home page, products page, new page, and coming soon page all under a single URL. When a searcher looks for your latest product line, that URL may appear in the results. But once the searcher clicks over, they aren’t brought to your coming soon page, they see your home page, and may have no idea where to go from there. If you ensure your Flash app uses a different URL for each page, then the searcher can be brought directly to the page that has the right content, which should greatly improve conversion rates and lower bounce rates.

But if you take the announcement that Google can now index Flash at face value, without looking deeper, you may not realize this, and think that your single-URL Flash application is now perfectly positioned for search.

Taking back the tour
Want an example of how the statement “Google can now index Flash” isn’t the whole story?

I’ve been watching the Tour de France. It’s playing on the Versus network for the first time this year. I’d never heard of the Versus network before (since it seems to mostly show ultimate fighting cage matches, this may be because I’m not its target audience; not to mention that I wasn’t the target audience for the network under its previous name, OLN, as I think it mostly played shows about people fishing then), and the network is looking to capitalize on this potential new audience.

Versus is spending a lot of money on its Tour de France campaign “Take Back the Tour”. It has put together flashy commercials and an equally flashy website.

firstpage

Versus probably would like to be found when people search for [tour de france]. The Tour de France page on the main versus.com domain shows up in the search results, but the Take Back The Tour site that they spent so money money on? Nowhere to be found.

Well, they’re spending all the money on commercials and print ads, so maybe people have been searching for [take back the tour] as well. The site does rank #1 for that query on both Google and Live (although it’s down at #8 on Yahoo!). For all three engines, even those who do the search because they saw an ad might not be sure if the takebackthetour.com listing is really the official site based on how the listing looks in the search results.

results

You can see that at this point, Google doesn’t see any content on the site and in fact, notes on the cached page that [take back the tour] appears only in links pointing to the page. Since it can’t extract any text, it has no way of knowing that the site is about the Tour de France.

Google still doesn’t Flash executed via JavaScript
So. What’s the problem? Google crawls Flash now and all should be well. I see at least two problems. The first is fundamental. The Flash executes via JavaScript. Google noted in their blog post that:

“Googlebot does not execute some types of JavaScript. So if your web page loads a Flash file via JavaScript, Google may not be aware of that Flash file, in which case it will not be indexed.”

They did update the post later to say that:

“For our July 1st launch, we didn’t enable Flash indexing for Flash files embedded via SWFObject. We’re now rolling out an update that enables support for common JavaScript techniques for embedding Flash, including SWFObject and SWFObject2.”

Will this update help the Take Back the Tour site? Maybe not.

Can Google find any words to index?
Another big obstacle to the crawl of this site is that even if Google could get to the Flash, it would find few words to index. Nearly all of the text on the site is contained in images. The first thing you see when you go to the site is lots of words, but the only ones that seem to be text, rather than part of the image, are in the link “join the movement”.

So, once Google can access the Flash, it will be able to crawl and index those words. This design is a theme throughout the site. Links like “back” are text. Nearly everything else is in images.

Let’s pretend for a moment that they changed the Flash file so that the text wasn’t contained in images (and that the JavaScript problem didn’t exist). Would this help indexing? Yes and no.

No separate URLs can lead to a poor experience for searchers
Each time you click a link in the Flash file, you are taken to another page, but the URL doesn’t change. It stays at takebackthetour.com no matter how you navigate. That means that any text Google does pick up will be indexed under that one URL.

By clicking about three levels deep, I can find TV spots about the tour. If the site designers added some text about those TV spots, using the language of their customers, then searchers looking for [tour de france video] or something similar might see the takebackthetour.com site come up in their search results. But when they clicked through to the site, they wouldn’t see the TV spots. They would see the Flash splash page. And they would have to figure out how to navigate through the site to find the video section. Chances are that many searchers would scan the initial page that came up, not see what they were looking for and go back to the search results to find another site.

Little change for viral success
This makes for a poor user experience from search, but consider also that the creators of this campaign obviously are hoping it goes viral. If you want a site to go viral, you have to make it easily shareable. Sure, people may love the rant section or the video section or the contest, but no URL of any of these sections exists for those people to email, Digg, Twitter, Stumble, or otherwise share. A viral campaign that requires every person who shares the content to say, “go to this URL, then click ‘join the movement’, then click ‘how will you take back the tour’ is over before it even begins.

And what about accessibility? And those on the go? I watched the first night of the tour at a friend’s house. What if I had seen the commercial, wanted to check it out, and pulled up the site on my Windows Mobile Smartphone? I would have had this awesome experience:

nojavascript

It’s not even an accurate error message, since the first problem is that I don’t have JavaScript support.

Be smart about Flash
Clearly, a few problems still exist with Flash websites. My view is this:

  • It’s important for web technology providers to think about things like accessibility and search engine optimization or those who implement those technologies will turn to other solutions. To this end, Adobe should be commended for continuing to evolve their offerings to better serve the needs of their users.
  • Search engines have to continue to evolve beyond HTML as their primary goal is to provide the best possible results for searchers. They can’t rely on site owners across the web understanding what technologies are better for search. Google is clearly working on “organizing all the world’s information”, not just all the information well optimized for search engines, and this latest Flash development is an important part of that evolution.
  • If you operate a business online, search is an important acquisition channel. Don’t leave such an important avenue for gaining new customers in the hands of others. Ensure that you are making it as easy as possible for search engines to find your content.
  • Flash may very well be a great technology for your site, but implement it wisely.

Google and Edit search results

Wednesday, July 16th, 2008

Gracias a “Lost Remote”, he encontrado este post de un compañero que encontró un interesante experimento de Google en crowdsourced SERP personalización, lo que ellos llaman “Modificar Resultados de la búsqueda”.

Justin Serp Top-20080715-050256

Desde la sección de preguntas frecuentes:

Esta característica le permite influir en su experiencia de búsqueda de añadir, mover y eliminar los resultados de la búsqueda. Cuando usted busca para las mismas palabras clave de nuevo, mientras usted está conectado a su cuenta de Google, podrá continuar para ver los cambios. Si más adelante desea volver a sus cambios, puede deshacer cualquier modificación que hayas realizado.

Nota: Esta es una característica experimental que sirve a una selección aleatoria de los participantes y pueden estar disponibles sólo para unas pocas semanas.

 

Interesante…

Robots exclusion Protocol

Sunday, June 15th, 2008

Os adjunto un contenido muy bueno, extraido directamente de la fuente original.

De recomendable lectura !!

Controlling what content is blocked from being found in search engines is crucial for many websites. Fortunately, the major search engines and other well-behaved robots observe the Robots Exclusion Protocol (REP), which has evolved organically since the early 1990’s to provide a set of controls over what parts of a web site search engines robots can crawl and index.

Article Sections:

Capabilities of the REP

The Robots Exclusion Protocol provides controls that can be applied at the site level (robots.txt), at the page level (META tag, or X-Robots-Tag), or at the HTML element level to control both the crawl of your site and the way it’s listed in the search engine results pages (SERPs). Below is a table listing the common scenarios, directives, and which search engines support them.

Use Case Robots.txt META/ X-Robots-Tag Other Supported By
Allow access to your content Allow FOLLOW
INDEX
Google
Yahoo
Microsoft
Disallow access to your content Disallow NOINDEX
NOFOLLOW
Google
Yahoo
Microsoft
Disallow access to index images on the page NOIMAGEINDEX Google
Disallow the display of a cached version of your content in the SERP NOARCHIVE Google
Yahoo
Microsoft
Disallow the creation of a description for this content in the SERP NOSNIPPET Google
Yahoo
Microsoft
Disallow the translation of your content into other languages NOTRANSLATE Google
Do not follow or give weight to links within this content NOFOLLOW a href attribute:
rel=NOFOLLOW
Google
Yahoo
Microsoft
Do not use the Open Directory Project (ODP) to create descriptions for your content in the SERP NOODP Google
Yahoo
Microsoft
Do not use the Yahoo Directory to create descriptions for your content in the SERP NOYDIR Yahoo
Do not index this specific element within an HTML page class=robots-nocontent Yahoo
Stop indexing this content after a specific date UNAVAILABLE_AFTER Google
Specify a sitemap file or a sitemap index file Sitemap Google
Yahoo
Microsoft
Specify how frequently a crawler may access your website Crawl-Delay Google WMT Yahoo
Microsoft
Authenticate the identity of the crawler Reverse DNS Lookup Google
Yahoo
Microsoft
Request removal of your content from the engine’s index Google WMT
Yahoo SE
Microsoft WMT
Google
Yahoo
Microsoft

Deciding What Should be Public vs. Private

One of the first steps in managing the robots is knowing what type of content should be public vs. private. Start with the assumption that by default, everything is public, then explicitly identify the items that are private.

If you want search engines to access all the content on your site, you don’t need a robots.txt file at all. When a search engine tries to access the robots.txt file on your site and the server can’t return one (ideally by returning a 404 HTTP status code), the search engine treats this the same as a robots.txt file that allows access to everything.

Every website and every business has a different set of needs, so there’s no blanket rule for what to make private, but some common elements may apply.

  • Private data - You may have content on your site that you don’t want to be searchable in search engines. For instance, you may have private user information (such as addresses) that you don’t want surfaced. For this type of content, you may want to use a more secure approach that keeps all visitors from the pages (such as password protection). However, some types of content are fine for visitor access, but not search engine access. For instance, you may run a discussion forum that is open for public viewing, but you may not want individual posts to appear in search results for forum member names.
  • Non-content content - Some content, like images used for navigation, provides little value to searchers. It’s not harmful to include these items in search engine indices, but since search engines allocate limited bandwidth to crawl each site and limited space to store content from each site, it may make sense to block these items to help direct the bots to the content on your site that you do want indexed.
  • Printer-friendly pages - if you have specific pages (URLs) that are formatted for printing you may want to block them out to avoid duplicate content issues. The drawback to allowing the printer-friendly page to be indexed is that it could potentially be listed in the search results instead of the default version of the page, which wouldn’t provide an ideal user experience for a visitor coming to the site through search.
  • Affiliate links and advertising - If you include advertising on your site, you can keep search engine robots from following the links by redirecting them to a blocked page, then on to the destination page. (There are other methods for implementing advertising-based links as well.)
  • Landing pages - Your site may include multiple variations of entry pages used for advertising purposes. For instance, you may run AdWords campaigns that link to a particular version of a page based on the ad, or you may print different URLs for different print ad campaigns (either for tracking purposes or to provide a custom experience related to the ad). Since these pages are meant to be an extension of the ad, and are generally near duplicates of the default version of the page, you may want to block these landing pages from being indexed.
  • Experimental pages - As you try new ideas on your site (for instance, using A/B testing), you likely want to block all but the original page from being indexed during the experiment.

Implementing the REP

REP is flexible and can be implemented a number of ways. This flexibility lets you easily specify some policies for your entire site (or subdomain) and then enhance them more granularly at the page or link level as needed.

Site Level Implementation (Robots.txt)

Site wide directives are stored in a robots.txt file, which must be located in the root directory of each domain or sub-domain. (e.g. http://janeandrobot.com/robots.txt). Robots.txt files located in subfolders are ignored.

A robots.txt file is a UTF-8 encoded file that contains entries that consist of a user-agent line (that tells the search engine robot if the entry is directed at it) and one or more directives that specify content that the search engine robot is blocked from crawling or indexing. A simple robots.txt file is shown below.

User-agent: *
Disallow: /private

user-agent: - Specifies which robots the entry applies to.

  • Set this to * to specify that this entry applies to all search engine robots.
  • Set this to a specific robot name to provide instructions for just that robot. You can find a complete list of robot names at robotstxt.org.
  • If you direct an entry at a particular robot, then it obeys that entry instead of any entries defined for user-agent: * (rather than in addition to those entries).

The major search engines have multiple robots that crawl the web for different types of content (such as images or mobile). They generally begin all robots with the same name so that if you block the major robot, all robots for that search engine are blocked as well. However, if you want to block only the more specific robot, you can block it directly and still allow web crawl access.

  • Google - The primary search engine robot is Googlebot.
  • Yahoo! - The primary search engine robot is Slurp.
  • Live Search - The primary search engine robots is MSNbot.

Disallow: - Specifies what content is blocked

  • Must begin with a slash (/).
  • Blocks access to any URLs that begin with the characters after the /. For instance, Disallow: /images blocks access to /images/, /images/image1.jpg, and /images10.

You can specify other rules for search engine robots in addition to the standard instructions that block access to content as noted in other robot instructions.

Some things to note about robots.txt implementation:

  • The major search engines support pattern matching using the asterisk character (*) for wildcard match and the dollar sign ($) for end of sequence matching as described below in using pattern matching.
  • The robots.txt file is case sensitive, so Disallow: /images would block http://www.example.com/images but not http://www.example.com/Images.
  • If conflicts exist in the file, the robot obeys the longest (and therefore generally more specific) line.

Basic Samples

Block all robots - Useful when your site is in pre-launch development and isn’t ready for search traffic.

# This keeps out all well-behaved robots.
# Disallow: * is not valid.

User-agent: *
Disallow: /

Keep out all bots by default - Blocks all pages except those specified. Not recommended as is difficult to maintain and diagnose.

# Stay out unless otherwise stated

User-agent: *
Disallow: /

Allow: /Public/
Allow: /articles/
Allow: /images/

Block specific content - The most common usage of robots.txt.

# Block access to the images folder

User-agent: *Disallow: /images/

Allow specific content - Block a folder, but allow access to selected pages in that folder.

# Block everything in the images folder
# Except allow images/image1.jpg

User-agent: *
Disallow: /images/
Allow: /images/image1.jpg

Allow specific robot - Block a class of robots (for instance, Googlebot), but allow a specific bot in that class (for instance, Googlebot-Mobile).

# Block Googlebot access
# Allow Googlebot-Mobile access

User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow: /

Pattern Matching Examples

The major engines support two types of pattern matching.

  • * matches any sequence of characters
  • $ matches the end of URL.

Block access to URLs that contain a set of characters - Use the asterisk (*) to specify a wildcard.

# Block access to all URLs that include an ampersand

User-agent: *
Disallow: /*&

This directive would block search engines from crawling http://www.example.com/page1.asp?id=5&sessionid=xyz.

Block access to URLs that end with a set of characters - Use the dollar sign ($) to specify end of line.

# Block access to all URLs that end in .cgi

User-agent: *
Disallow: /*.cgi$

This directive would block search engines from crawling http://www.example.com/script1.cgi but not from crawling http://www.example.com/script1.cgi?value=1.

Selectively allow access to a URL that matches a blocked pattern - Use the Allow directive in conjunction with pattern matching for more complex implementations.

# Block access to URLs that contain ?
# Allow access to URLs that end in ?

User-agent: *
Disallow: /*?
Allow: /*?$

That directive blocks all URLs that contain ? except those that end in ?. In this example, the default version of the page will be indexable:

  • http://www.example.com/productlisting.aspx?

Variations of the page will be blocked:

  • http://www.example.com/productlisting.aspx?nav=price
  • http://www.example.com/productlisting.aspx?sort=alpha

Other robot instructions

Specify a Sitemap or Sitemap index file - If you’d like to provide search engines with a comprehensive list of your best URLs, you can provide one or more Sitemap autodiscovery directives. Note, user-agent does not apply to this directive so you cannot use this to specify a Sitemap to some but not all search engines.

# Please take my sitemap and index everything!

Sitemap: http://janeandrobot.com/sitemap.axd

Reduce the crawling load - This only works with Microsoft and Yahoo. For Google you’ll need to specify a slower crawling speed through their Webmaster Tools. Be careful when implementing this because if you slow down the crawl too much, robots won’t be able to get to all of your site and you may lose pages from the index.

# MSNBot, please wait 5 seconds in between visits

User-agent: msnbot
Crawl-delay: 5

# Yahoo's Slurp, please wait 12 seconds in between visits

User-agent: slurp
Crawl-delay: 12

Page Level Implementation (META Tags)

The REP page-level directives allow you to refine the site wide policies on a page-by-page basis

Placing a meta tag on the page - Place the meta tag in the head tag. Each directive should be comma delimited inside the tag. E.g. <meta name=”ROBOTS” content=”Directive1, Directive 2>.

<html>
<head>
<title>Your title here</title>
<meta name="ROBOTS" content="NOINDEX">
</head>
<body>Your page here</body>
</html>

Targeting a specific search engine - Within the meta tag you can specify which search engine you would like to target, or you can target them all.

<!-- Applies to All Robots -->
<meta name="ROBOTS" content="NOINDEX">

<!-- ONLY GoogleBot -->
<meta name="Googlebot" content="NOINDEX">

<!-- ONLY Slurp (Yahoo) -->
<meta name="Slurp" content="NOINDEX">

<!-- ONLY MSNBot (Microsoft) -->
<meta name="MSNBot" content="NOINDEX">

Control how your listings - there are a set of options you can use to determine how your site will show up on the SERP. You can exert some control over how the description is created, and remove the “Cached page” link.

Example search engine results page (SERP)

<!-- Do not show a description for this page -->
<meta name="ROBOTS" content="NOSNIPPET">

<!-- Do not use http://dmoz.org to create a description -->
<meta name="ROBOTS" content="NOODP">

<!-- Do not present a cached version of the document in a search result -->
<meta name="ROBOTS" content="NOARCHIVE">

Using other directives - Other meta robots directives are shown below.

<!-- Do not trust links on this page, could be user generated content (UCG) -->
<meta name="ROBOTS" content="NOFOLLOW">

<!-- Do not index this page -->
<meta name="ROBOTS" content="NOINDEX">

<!-- Do not index any images on this page (will still index the if they are linked
     elsewhere) Better to use Robots.txt if you really want them safe.
     This is a Google Only tag. -->
<meta name="GOOGLEBOT" content="NOIMAGEINDEX">

<!-- Do not translate this page into other languages-->
<meta name="ROBOTS" content="NOTRANSLATE">

<!-- NOT RECOMMENDED, there really isn't much point in using these -->
<meta name="ROBOTS" content="FOLLOW">
<meta name="ROBOTS" content="UNAVAILABLE_AFTER">

HTTP Header Implementation (X-ROBOTS-Tag)

Allows developers to specify page-level REP directives for non text/html content types like PDF, DOC, PPT, or dynamically generated images.

Using the X-Robots-Tag - to use the X-Robots-Tag, simply add it to your header as shown below. To specify multiple directives you can either comma delimit them, or add them as separate header items.

HTTP/1.x 200 OK
Cache-Control: private
Content-Length: 2199552
Content-Type: application/octet-stream
Server: Microsoft-IIS/7.0
content-disposition: inline; filename=01 - The truth about SEO.ppt
X-Robots-Tag: noindex, nosnippet
X-Powered-By: ASP.NET
Date: Sun, 01 Jun 2008 19:25:47 GMT

The X-Robots-Tag directive supports most of the same directives as the meta tag. The only limitation with this method over the meta tag implementation is that there is no way to target a specific robot - though that probably isn’t a big deal for most use cases.

  • X-Robots-Tag: noindex
  • X-Robots-Tag: nosnippet
  • X-Robots-Tag: notranslate
  • X-Robots-Tag: noarchive
  • X-Robots-Tag: unavailable_after: 7 Jul 2007 16:30:00 GMT

Content Level Implementation

You can further refine your site level and page level directives within several content tags.

Each anchor tag (link) can be modified to tell search engines that you do not trust where this URL is pointing to. This is typically used for links within user generated content (UCG) like wikis, blog comments, reviews and other community sites.

<a href="#" rel="NOFOLLOW">My Hyperlink</a>

Also, in Yahoo Search you can specify which <div> elements on a page you would not like indexed using the class=robots-nocontent attribute. However, we don’t highly recommend using this tag because it is not supported in any other engine, making it not super-useful.

<div class="robots-nocontent">
No content for you! (or at least Yahoo!)
</div>

Common Mistakes

While implementing the REP is generally straight-forward, there are a few common mistakes.

  • GoogleBot follows the most specific directive, ignoring all others. In the robots.txt file, if you specify a section for all user-agents (user-agent: *) and also declare a section for Googlebot (user-agent: Googlebot), Google will disregard all sections in the robots.txt file except the Googlebot section. This could potentially leave you exposing much more content to Google that you might have thought.

# This keeps out all well-behaved robots

User-agent: *
Disallow: /

# This looks like it is giving Google access to only this directory, but since it is a
# GoogleBot specific section, Google will disregard the previous section
# and access the whole site.

User-agent: Googlebot
Allow: /Content_For_Google/
  • NOFOLLOW will most likely not prevent indexing - if you use NOFOLLOW at either the page or the link level, it is still possible for the links from the page to be indexed because the search engine may have found a reference to them from another source. Another note, using rel="NOFOLLOW" within your anchor text is still perceived as a recommendation by the search engines, not a command.

    To ensure that content is not indexed, either use the Disallow directive at the site level, or use NOINDEX at the page level.

  • Directives that are not recommended - the directives in the REP are all about exceptions, by default the robots assume they can crawl your whole site. Therefore, you do not need to explicitly use the FOLLOW and INDEX directives as they will not be taken into account by the search engines. It sounds silly but I’ve seen a few sites that have implemented these on every page and every link.

    Another directive that is not recommended is the NOCACHE directive. This was created by Microsoft, and is synonymous with NOARCHIVE. While they will most likely always continue to support the directive, it is better to use NOARCHIVE so it will work on all the search engines.

  • Testing Your Implementation

    As you’re implementing your REP design, you should test it both before you deploy it and after. The easiest way to test this is to use the robots validator in either Google or Microsoft’s Webmaster Tools. These tools are generally good enough test beds for most folks, however advanced developers (or paranoid ones with critical business requirements) will want to definitively know what the robots are doing, not simply rely on what the robots say they are doing. These folks will want to look at their tools as well look at their server logs.

    In addition to using validation tools, reporting tools from the search engines on what they couldn’t acces, and looking at logs data to see what the search engine robots are crawling, you should check the search engine results to see if any pages you are intending to block are being indexed. If they are, use the methods described in this section to ensure you are blocking them correctly and use the search engine tools to request that the pages be removed.

    When Blocked Content Appears to be Indexed - If search engines are blocked from crawling pages, they may still index the URL if the robot finds a link to that URL on a page that isn’t blocked. The listing may display the URL only, such as shown below.

    Google partially indexed results

    Or, it may include a title and in some instances, a description. This makes it appear as though the search engine robot is disregarding the directive that blocks access to the page, but the search engine is in fact obeying the directive not to crawl the page and is using anchor text from the link to that page and descriptive details from either the page that contains the link or a source such as the Open Directory Project.

    For more details, see:

    The Easy Way

    Search Engine Tools For Validation - Both Google and Microsoft provide some tools as part of their Webmaster Centers to help you verify if you’ve configured your REP the way you expect. Let’s start with Google’s tools:

    The first thing you should check are the list of URLs that Google has seen from your website and not indexed due to the REP. Note you can also download the list and filter, sort, and have-your-way-with-it in Excel.

    Google Webmaster Tools: Blocked URLs The next step is to use their interactive robots.txt tool to analyze your rules and test specific URLs for blockage. When you pull up the tool they already should have it pre-populated with the robots.txt file they have on file from the last time they crawled. You can input a list of URLs you’d like to check below, select the user-agent you’d like to check against and the tool will tell you if they are blocked or not. You can also use the tool to test changes to your robots.txt file to see how Google would interpret things.

    Google Webmaster Tools: robots.txt analysis Microsoft has a similar tool in their Webmaster Center that will validate a robots.txt file against the standard that MSNBot supports. To use the tool, simply log in copy & paste your robots.txt file into the top field and select Validate. A list of all detectable issues are displayed in the bottom box.

    Microsoft Live Search Webmaster Tools: robots.txt validator

    The Hard Way

    More Accurate Views of Robot Access Through Your Logs - If you have a specific business need to ensure that the robots are following your rules, (or you’re just paranoid) then you should not simply rely on the tools they provide to test compliance. You’re going to need to go straight to the horse’s mouth and analyze your web server logs to see exactly what they are doing. There is no one easy tool for doing this, you’ll likely have to use an existing tool like one of these (Microsoft HTTP Log Parser) or write your own. It isn’t difficult, it will simply take some time to implement. A useful reference for this is a list of all the robot user agents, and more complete list of bots from Google, and Microsoft.

    Verifying Robot Identity - Another thing you’ll likely want to consider in this endeavor is to validate that the robots are who they actually say they are. Google, Yahoo and Microsoft all support Reverse DNS authentication of their robots. The process is pretty simple and described here by Google, Yahoo and Microsoft, essentially you simply find out what range their robot’s DNS is hosted in, and use that in your tool. This way, if the address changes (which it will), you don’t need to update your code.

    Should you find any issues, where one of the robots are not minding the REP, or are misbehaving in some other way, you can always communicate directly with each engine through one of their forums:

    Removing Content From Search Engine Indices

    If you find that you haven’t implemented the techniques described here correctly and private content from your site is indexed, each of the major search engines has methods available for requesting that it be removed. For more information, see:

    Additional Resources:

    eMagister en Tokyo - Dia 3

    Tuesday, April 15th, 2008

    Hoy ha sido un día “duro”. De hecho, son las 22:00h y todos estamos en la habitación !!

    Por la mañana Albert y Yuhi han ido a un centro de formación Japonés. La reunión ha sido un éxito y realmente ha sido muy interesante.

    Mientras tanto, yo he estado preparando la reunión que luego teníamos todos en Google Japan.

    dsc01782.jpg

    Nada que ver con las oficinas de Dublin, por no decir las de Zurich. Aqui están empezando… y eso se nota.

    En realidad, en las reuniones que hemos tenido… todos coinciden en que Yahoo! aqui es el lider. Esto era algo que ya teníamos asumido, pero la sorpresa es que es el lider.. con diferéncia !!!

    No estamos acostumbrados a ver a Google tan por debajo.

    Por la tarde hemos visitado a otro centro de formación. Esta vez, yo he ido con ellos y he podido ver a Yuhi en acción :-) La reunión ha sido también muy positiva… y hemos obtenido información muy relevante. Hemos estado mas o menos… 90 minutos, pero han sido muy interesantes.

    Por cierto:

    Esta foto es de ayer… pero es buena :-) Aqui en Japón el Barça tiene tirada !!

    dsc01777.jpg

    eMagister en Tokyo - Dia 2

    Tuesday, April 15th, 2008

    A primera hora hemos terminado de cerrar/confirmar todas las reuniones que tendremos a partir del martes…

    Una vez todo cerrado, Yuhi nos ha presentado un poco Tokyo y hemos visitado algunas cosas interesantes. Hoy era el único día que podíamos hacer de “turistas”, por lo que hemos aprovechado.

    El resto de semana… el ritmo será infernal :-)

    Entre otros hemos visto:

    • El centro de Shibuya

    dsc01745.jpg

    • El ayuntamiento de Tokyo

    dsc01753.jpg

    Esta foto esta hecha desde lo alto del ayuntamiento. Realmente, no se cuantos departamentos deben tener… pero el mirador está en la planta 45 ;-)

    • El palacio imperial
    • Un templo relacionado con temas de guerra (no recuerdo el nombre)

    dsc01760.jpg

    • El barrio friki por exceléncia (tecnología, manga…)

    dsc01772.jpg