Documentos en formatos no indexables

carlosaam1990Trabajo10 de Marzo de 2015

3.666 Palabras (15 Páginas)551 Visitas

Página 1 de 15

Se le conoce informalmente como Internet Profunda o Internet Invisible (en inglés: Deepweb, Invisible Web, Deep Web, Dark Web o Hidden Web) a una porción presumiblemente muy grande de la Internet que ha sido hecha casi imposible de rastrear vía proxyficación con muchos proxys, el no utilizar direcciones de Internet, sino códigos y el utilizar el pseudodominio de nivel superior .onion, la cuál fue creada por la Marina de los Estados Unidos como una prueba y ahora es aprovechada por delincuentes cibernéticos.

Se le conoce así a todo el contenido de Internet que no forma parte del Internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos. La mayor parte de la información encontrada en la Internet Profunda está enterrada en sitios generados dinámicamente y para los motores de búsqueda tradicionales es difícil hallarla. Fiscales y Agencias Gubernamentales han calificado a la Internet Profunda como un refugio para la delincuencia debido al contenido ilícito que se encuentra en ella.1

Índice [ocultar]

1 Causas

2 Tamaño

3 Denominación

4 Rastreando la Internet profunda

5 Ingresando a la red profunda

5.1 Las arañas (Web crawler)

5.2 Tor

5.3 Bitcoin

6 Recursos de la internet profunda

7 Véase También

8 Referencias

9 Enlaces externos

§Causas[editar]

La principal causa de la existencia de la Internet profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en Internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la "Internet profunda" se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la Internet Profunda esto no significaría que ésta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y sólo determinados usuarios, aquellos con contraseña o códigos especiales, pueden hacerlo.

Los siguientes son algunos de los motivos por los que los buscadores son incapaces de indexar la Internet profunda:

Páginas y sitios web protegidos con contraseñas o códigos establecidos.

Páginas que el buscador decidió no indexar: esto se da generalmente porque la demanda para el archivo que se decidió no indexar es poca en comparación con los archivos de texto HTML; estos archivos generalmente también son más “difíciles” de indexar y requieren más recursos.2

Sitios, dentro de su código, tiene archivos que le impiden al buscador indexarlo.

Documentos en formatos no indexables.

De acuerdo a la tecnología usada por el sitio, por ejemplo los sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a la interfaz creada para acceder a dichas bases de datos, como por ejemplo, catálogos de librerías o agencias de gobierno.2

Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.3

Sitios que tienen una mezcla de media o archivos que no son fáciles de clasificar como visible o invisible (Web opaca).

La información es efímera o no suficientemente valiosa para indexar. Es posible indexar está información pero como cambia con mucha frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.2 }

Páginas que contienen mayormente imágenes, audio o video con poco o nada de texto.

Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip,.tar, etc)

Información creada en páginas dinámicas después de llenar un formulario, la información detrás de los formularios es invisible.

Documentos dinámicos, son creados por un script que selecciona datos de diversas opciones para generar una página personalizada. Este tipo de documentos, aunque sí se pueden indexar, no están en los motores de búsqueda porque en ocasiones puede haber varias páginas iguales, pero con pequeños cambios, y las arañas web quedan atrapadas en ellos.2

Es un sitio aislado, es decir, no hay ligas que lo vinculen con otros sitios y viceversa.4

Son subdirectorios o bases de datos restringidas.

§Tamaño[editar]

La internet profunda es un conjunto de sitios web y bases de datos que buscadores comunes no pueden encontrar ya que no están indexadas. El contenido que puede ser hallado dentro de la Internet profunda es muy amplio.5

Se estima que la Internet Profunda es 500 veces mayor6 que la Internet Superficial, siendo el 95% de esta información públicamente accesible.

El internet se ve dividido en dos ramas, La internet profunda y la superficial. El Internet superficial se compone de páginas estáticas o fijas, mientras que Web profunda está compuesta de páginas dinámicas. La páginas estáticas no dependen de una base de datos para desplegar su contenido sino que residen en un servidor en espera de ser recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia. Todos los cambios se realizan directamente en el código y la nueva versión de la página se carga en el servidor. Estas páginas son menos flexibles que las páginas dinámicas. Las páginas dinámicas se crean como resultado de una búsqueda de base de datos. El contenido se coloca en una base de datos y se proporciona sólo cuando lo solicite el usuario.7

En 2010 se estimó que la información que se encuentra en la Internet profunda es de 7,500 terabytes, lo que equivale a aproximadamente 550 billones de documentos individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de lo que se puede encontrar en la Internet superficial. En comparación, se estima que la Internet superficial contiene solo 19 terabytes de contenido y un billón de documentos individuales.

También en 2010 se estimó que existían más de 200,000 sitios en la internet profunda.8

Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente la Internet profunda debe tener unos 91 000 Terabytes.9

La ACM por sus siglas en inglés (Association for Computing Machinery) publicó en 2007 que Google y Yahoo indexaban el 32 % de los objetos de la internet profunda, y MSN tenía la cobertura más pequeña con el 11 %. Sin embargo, la cobertura de lo tres motores era de 37 %, lo que indicaba que estaban indexando casi los mismos objetos.10

Se prevé que alrededor del 95% del internet es internet profunda, también le llaman invisible u oculta, la información que alberga no siempre está disponible para su uso. Por ello se han desarrollado herramientas como buscadores especializados para acceder a ella.4

§Denominación[editar]

Son páginas de texto, archivos, o en ocasiones información a la cual se puede acceder por medio de la World Wide Web que los buscadores de uso general no pueden, debido a limitaciones o deliberadamente, agregar a sus índices de páginas webs.

La Web profunda se refiere a la colección de sitios o bases de datos que un buscador común, como Google, no puede o quiere indexar. Es un lugar específico del Internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo deseé.11

Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término "la Web invisible" en 1994 para referirse a los sitios web que no están registrados por algún motor de búsqueda.12

Bergman citó un artículo de 1996 de Frank García:13

Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y Mateo B. Koll de Personal Library Software, en una descripción de la herramienta @ 1 de web profunda, en un comunicado de prensa de diciembre de 1996.14

La importancia potencial de las bases de datos de búsqueda también se reflejó en el primer sitio de búsqueda dedicado a ellos, el motor AT1 que se anunció con bombos y platillos a principios de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida por AOL en 1998, y poco después el servicio AT1 fue abandonado.12

El primer uso del término específico de web profunda, ahora generalmente aceptada, ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.

Por otra parte, el término web invisible se dice que es inexacto porque:

Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.

Alguna información puede ser encontrada más fácilmente que otra, pero ésto no quiere decir que esté invisible.

La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.

El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las interrogaciones del usuario, por tanto no es correcto decir que la información almacenada en

...

Descargar como (para miembros actualizados) txt (23 Kb)

Leer 14 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com