LibGuides: TÉCNICAS DE BÚSQUEDA EN LÍNEA: Función De Un Buscador (Search Engine)

Rastreo e Indexación / Búsqueda y Procesamiento de Datos

Rastreo de la Web por bots, también llamados spiders, es el proceso en el que las pequeñas entidades programadas recogen datos de la computadora central. Están preprogramados para empezar en un sitio y recopilar toda su información y vínculos. Esos vínculos se registran luego. Esa lista de vínculos se convierte entonces en el orden en que el bot continuará su camino de recopilación de datos. Así que, un spider podría comenzar en lifepacific.edu, pero los vínculos a Foursquare y WASC en la página se convierten en los próximos lugares que el spider vaya después de procesar todo bajo el dominio lifepacific.edu. Después de que el spider este repleto, o un tiempo establecido, el bot regresa y sube el contenido de las páginas web y todos los vínculos de vuelta a la computadora central.

La búsqueda y procesamiento de datos es la recopilación de todos los datos que devolvió el bot. Páginas web, conservadas en HTML, se almacenan en los servidores del buscador (search engine). La versión almacenada no es la versión en vivo de la página web. Lo que se ve cuando se introduzca la dirección URL en el navegador es una versión histórica llamada la versión en caché.

Los bots pueden ser invocados que regresen a las páginas web a menudo, si el contenido cambia con frecuencia. Por ejemplo, la página de BBC News, los bots regresarían a menudo debido a la frecuencia con que el contenido cambia.

Los bots no encontrarán todo en la web. Si no hay vínculos a una página, básicamente la página esta invisible para el buscador (search engine). Si es una página web que requiere una contraseña, o se genera como resultado de una búsqueda, nunca será almacenada en un el buscador (search engine). Las páginas web que nunca serán buscadas se conocen como “Deep web” (web profundo) o el web invisible.

Indexación

La indexación es el proceso de grabación de cada palabra, cada carácter y su ubicaciónen una página web. El mismo concepto se encuentra en la parte posterior de un libro, donde se enumeran las palabras principales y en qué páginas se producen. La versión del buscador (search engine) de indexación es donde aparece la palabra dentro de cualquier página, cada ocurrencia de cada sitio web que ha sido rastreado. El índice de Google, es el índice más grande del internet conocido, como La tabla Grande, es tan grande que tiene que tener índices a los índices; hay enorme cantidad de datos presentes.

El proceso de indexación no sólo cita las ubicaciones, pero convierte todo en números. Las computadoras funcionan en 1's y 0's, no en el alfabeto inglés, o cualquier otro en esa situación. El proceso de convertir las palabras en números es importante, porque el proceso de búsqueda no se basa en palabras y letras, si no en matemáticas.

El Procesamiento De Búsquedas

Lo que se escribe en el cuadro de búsqueda, se tiene que convertir en números, de modo que se pueda procesar la solicitud. Antes de que se convierte en números, el buscador se desacera de varios términos. La mayoría de buscadores disponen de una lista de palabras que evitan, palabras que no serán registradas. La mayoría de los buscadores no registran palabras comunes THE, AND, IT, BE, WILL, etc. Estas breves palabras son sólo relleno para la computadora. Si estas palabras son absolutamente necesarias en la búsqueda, debe incluir las entre comillas o en Google agregar el signo de más antes del término. Una vez que los términos se convierten en números, el buscador, calcula qué términos cercanos están catalogados matemáticamente con lo que uno pidió. El algoritmo es complejo, pero devuelve los elementos basados en que tan cerca matemáticamente está a su búsqueda. Los resultados más altos están en la lista primero. Algunos buscadores incluso muestran un porcentaje de relevancia.

Las resultados más altas de relevancia están determinadas por: si las palabras están en el título, en vez de simplemente estar en el texto, si la palabra aparece remarcada o en cursiva en la página, cuántas veces aparece la palabra en una página, el número y la calidad de los vínculos en esa página, y si las palabras aparecen en el encabezado (nube invisible de etiquetas creadas por el programador).

Algo para tener en mente, cuando uno está buscando en el internet no estás buscando en todo el internet. Sólo está buscando en un índice del internet. Google tiene el índice más grande y devolverá millones de resultados, pero Yahoo es más pequeño y devolverá menos resultados. La diferencia no es sólo el número de resultados, sino además son diferentes resultados. Cada buscador enviada bots en diferentes direcciones, por lo que han indizado diferentes partes de la web. No sólo eso, sino que la lista de resultados será diferente porque trabajan de diferentes algoritmos (existen muchos y algunos son secretos vigilados).

¿Qué Diferencia Hace Esto?

Ahora que usted sabe que está buscando en un índice y que el índice no son solo palabras, sino representaciones matemáticas. Entonces construir una búsqueda debe tener más sentido.

La búsqueda de palabras clave, es sólo una cuestión de números coincidentes en el índice. No es un problema.

La búsqueda de frases es una búsqueda exacta de secuencia de números. No es un problema para el buscador.

El comodín y truncamiento funciona porque el símbolo (el número representa un término) puede buscarse por que el comodín se introdujo en la búsqueda. Mi ejemplo en la otra página fue savior vs saviour. En el índice puede estar representado por algo parecido (esto es un ejemplo totalmente inventado) 813612 vs 8136132. El comodín entonces le dice al buscador que busque en el índice y busque cualquier número. El comodín cortara ambos símbolos a su raíz de 8136.

Boolean operators obligan al buscador que utilice varias entradas en el índice. OR pide básicamente 2 búsquedas y combina los resultados. AND busca ambos términos, pero sólo devuelve los resultados que tienen en común; tiene que comparar los resultados. NOT es la eliminación de resultados comunes, con la página en común entonces esta página se queda fuera de la lista de resultados.

Búsqueda por proximidad es más complicada, porque el buscador debe buscar primero en las páginas común, como la función AND. Entonces compara las ubicaciones de los términos; si están en la misma página, pero están lo suficientemente cerca en el texto. Y lo increíble es que la búsqueda se realiza en menos de un segundo.

Saber cómo funciona el buscador puede ayudarle a pensar cómo formular su búsqueda.

TÉCNICAS DE BÚSQUEDA EN LÍNEA: Función De Un Buscador (Search Engine)

Básico

Rastreo e Indexación / Búsqueda y Procesamiento de Datos

Indexación

El Procesamiento De Búsquedas

¿Qué Diferencia Hace Esto?