Nuevo Mundo: 2016

jueves, 15 de septiembre de 2016

la-gnosis-de-samael-aun-weor

http://www.scoop.it/t/la-gnosis-de-samael-aun-weor

http://www.scoop.it/t/http:/la-atlantida

http://www.scoop.it/t/la-atlantida

Actividad FINAL de evaluación P2P: Curadores de contenido

Actividad FINAL de evaluación P2P: Curadores de contenido

LA VALORACIÓN Y EL FILTRADO DE INFORMACIÓN

Curación de contenidos

Curación de contenidos es un barbarismo por anglicismo acuñado por profesionales del mundo del marketing, aunque actualmente ha sido adoptado por otros campos, que surge gracias a la necesidad adquirida que las empresas y profesionales del marketing tienen de localizar, filtrar, modificar y distribuir, de forma segmentada, parte de la gran cantidad de contenidos que se generan en Internet.

Se trata de una nueva tendencia que ha surgido en el seno de las estrategias de marketing de contenidos que las empresas han incorporado, recientemente, a sus planes de marketing 2.0, para cubrir las necesidades que algunos buscadores de contenido en Internet, tales como Google, les han ido imponiendo, con el fin, de hacer que la información que aportan los sitios web, vaya adquiriendo valor por sus contenidos, de forma que los usuarios adquieran experiencias de máxima calidad mientras "navegan" por Internet, en su incesante búsqueda de información.

Con el tiempo, la diversidad de internet hizo que la curación de contenidos se adoptara como una metodología pasible de ser aplicada a otros campos. Propulsada por la curiosidad, la audacia, la diversión y el manejo convergente de diferentes disciplinas, la curación de contenidos se convirtió en una de las llamadas "profesiones invisibles" que emergieron con la cultura de la interacción. En la actualidad es un perfil profesional muy buscado y con una gran proyección, que consiste en la aplicación del "pensamiento algorítmico" para la búsqueda, selección, clasificación, organización y orientación de contenidos en función de objetivos empresariales, pero también institucionales y sociales.

Historia

La Curación de Contenidos no es un fenómeno nuevo, aunque su aplicación en las estrategias de marketing del ámbito empresarial, si es muy reciente. Históricamente, museos y galerías de arte han utilizado esta técnica para seleccionar y exponer sus obras de la forma más ordenada y segmentada posible.

Metodología

Filtrado: Método por el cual se filtra la información relacionada con un tema determinado. El filtrado es necesario, dada la gran cantidad de información de la que hoy en día disponemos, gracias al fenómeno de Internet.

Análisis: Tras el método de filtrado, hay que analizar los contenidos recopilados, para, finalmente, proceder con la elección y modificación de aquellos contenidos que hayan sido seleccionados.

Distribución: Una vez que hemos seleccionado y modificado los contenidos de interés para una audiencia determinada, será necesaria la distribución del resultado final, de forma inteligente y a través de aquellos canales de interés, para que las búsquedas relacionadas con el contenido en cuestión, sean efectivas y alcancen la audiencia seleccionada.

Esta descripción la encuentran en Wikipedia.

Lo anterior, es una definición y breve descripción, del proceso de aparición, de una solución viable de filtrado de información para hacer frente a la inmensa cantidad de contenidos que aparecen cuando realizamos consultas web sobre temas específicos y puntuales, y concuerda con lo descrito en la separatas del módulo 6 del curso "Encontrando tesoros en la red (2.a edición)".

La actividad FINAL de evaluación P2P: Curadores de contenido, la he realizado de acuerdo a lo indicado en el acápite correspondiente los los que detallo a continuación:

1. Organizaremos lo que sabemos, para planificar nuestra primera curación de contenidos.

¿Qué área/s temática/s conocemos? ¿En qué eje/s temático/s dentro del área seleccionada podríamos aportar "nuestra voz personal" o puntos de vista, o contribuir con un "valor agregado"?

Realicen una lista de 10 posibles temas para una curación de contenidos, como una lluvia de ideas.

(Pueden pertenecer a diferentes áreas temáticas)

Respuesta:

La automatización de los siguientes procesos:

INGENIERIA GENÉTICA

1.- La guerra de la ciencia contra el mosquito del zika

2.- Científicos británicos reciben luz verde para modificar embriones

3.- El ‘cortapega’ genético revierte una enfermedad en animales vivos

4.- La terapia génica se incorpora al arsenal contra el cáncer

5.- “El objetivo de la manipulación de los genes no es modificarlos”

6.- ¿Por qué son peligrosos los alimentos transgénicos?

7.-OGM, organismos genéticamente modificados… ¿A favor o en contra?

8.-Humanos modificados genéticamente, una realidad

9.-Plantas modificadas genéticamente para usos medicinales...

10.-Lee M. Silver: "Los países desarrollados tendrán ciudadanos genéticamente enriquecidos".

Redúzcanla a 5.

Respuesta:

1.- ¿Por qué son peligrosos los alimentos transgénicos?

2.-OGM, organismos genéticamente modificados… ¿A favor o en contra?

3.-Humanos modificados genéticamente, una realidad

4.-Plantas modificadas genéticamente para usos medicinales...

5-Lee M. Silver: "Los países desarrollados tendrán ciudadanos genéticamente enriquecidos".

Redúzcanla a 3.

Respuesta:

1-Humanos modificados genéticamente, una realidad

2.-Plantas modificadas genéticamente para usos medicinales...

3-Lee M. Silver: "Los países desarrollados tendrán ciudadanos genéticamente enriquecidos".

Ahora tendrán que seleccionar solo una.

¿Cómo? Determinando con cuál de las 3 temáticas, resultarían más personas beneficiadas con su trabajo.

Respuesta:

Lee M. Silver: "Los países desarrollados tendrán ciudadanos genéticamente enriquecidos".

2. Desarrollarán una página en Scoop.it

Con el tema seleccionado. Deberán ingresar al menos 10 posts.

Respuesta:

Ver respuesta siguiente. Para realizar este filtrado he utilizado la metodología descrita anteriormente filtrado, análisis y distribución, realizando para ello búsquedas avanzadas, de imágenes y especializadas (Academic)

3. Crearán una nueva entrada en su blog en la cual incluirán el link a su página de Scoopit

Lee M. Silver: "Los países desarrollados tendrán ciudadanos genéticamente enriquecidos".

www.scoop.it/t/ advancement-of-genetic-engineering-in-humans….

http://www.scoop.it/t/ genetica-su-futuro

martes, 23 de agosto de 2016

4.- Desarrollar una entrada en su blog que relate la experiencia de búsqueda y los resultados parciales obtenidos en cada paso realizado.

Módulo 5: El arte de preguntar.

Actividad de evaluación P2P: Aprender practicando: Esta tarea con evaluación entre pares pretende evidenciar lo aprendido sobre utilización de palabras claves y el Google Académico.

4. Desarrollar una entrada en su blog que relate la

experiencia de búsqueda y los resultados parciales

obtenidos en cada paso realizado.

Pregunta espontánea: Sirven los factores de crecimiento para regenerar el tejido óseo?

Campo temático: Ingeniería de Tejidos: Cerca de 476.000 resultados. Esto de entrada nos muestra que el campo temático, en este caso, es un campo temático muy extenso y da resultados demasiado generales.

Problema Específico: Regeneración Ósea: Cerca de 30.100 resultados. Nos va mostrando que mejoran las opciones de búsqueda selectiva. Sin embargo, también es evidente que va a se necesario el uso de filtros.

Referencia Autoral: Eduardo Anitua : Cerca de 54.100 resultados… esto nos muestra la importancia en publicaciones de este autor.

He podido ver como el tipo de términos utilizados va marcando la diferencia en la búsqueda y obtención de resultados pertinentes. También percibo que en el caso de estas temáticas científicas la búsqueda en la Web profunda, bases de datos , se hace imprescindible, asi como la aplicación de todos los filtyros disponibles.

La búsqueda en Google Académico, arroja datos muy generales de la búsqueda. http://scholar.google.es/scholar?hl=es&q=regeneraci%C3%B3n+osea&btnG=&lr=

Comentario: El resultado fue satisfactorio se han obtenido múltiples ejemplo que se ayudará a definir el plan deseado para la empresa.

Google Académico como usarlo:

Aquí se comparte un vídeo que nos comenta un poco más sobre cómo usar el Google Académico.

Dar clic sobre logo para más información

https://youtu.be/RCV2b-xVEMA

video de como se usa google academico

https://youtu.be/RCV2b-xVEMA

modulo 5.-Actividad de evaluación P2P: Aprender practicando....

Actividad de evaluación P2P: Aprender practicando

Esta tarea con evaluación entre pares pretende evidenciar lo aprendido sobre utilización de palabras claves y el Google Académico. Como respuesta a esta tarea P2P deberán compartir en este espacio la URL de la entrada en su blog que incluye el desarrollo de búsqueda de información realizado.

Para el desarrollo de esta actividad deberán seguir estos pasos:

1) Lo primero que harán es escribir una pregunta espontánea vinculada a sus intereses profesionales, tal como se la formularíamos a una persona.

2) Traducirla a los distintos tipos de palabras clave (de campo temático, de problema específico y de referencia autoral)

3) Realizar algunos intentos de búsqueda en el Google Académico.
Intentar también con la búsqueda en títulos, reiterando la búsqueda en sucesivas oportunidades con diferentes cambios, hasta obtener un buen resultado.
Tomar nota de los diferentes resultados.

La Web superficial y la Web profunda. MODULO 4.-

La Web 

superficial y  

La Web 

profunda.

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sean gratuitos), entre otros tipos de formas de almacenamiento de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web visible?

Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son: • Su información no está contenida en bases de datos

• es de libre acceso

• No requiere la realización de un proceso de registro para acceder  Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

¿Qué es la Web invisible?

La Web invisible es el término utilizado para describir toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. 

Generalmente es información almacenada y accesible mediante bases de datos.

Si bien el 90% de las bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage) y son incapaces de entrar dentro de las tablas e indizar cada registro. 

Les falta la habilidad para interrogarlas, seleccionar sus opciones y teclear una consulta para extraer sus datos. La información almacenada es por consiguiente "invisible" a estos robots ya que los resultados se generan frente a una pregunta directa mediante páginas dinámicas (ASP, PHP...), es decir, páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente.

La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.

Web invisible y e-print

Como una nueva forma de trabajar de la comunidad científica, la literatura gris de nueva generación incorpora los denominados e-print. 

Un pre-print refiere a un manuscrito que ha pasado por un proceso de revisión y está aguardando para ser publicado en un medio o formato tradicional; a un pre-print accesible vía Internet se le conoce como e-print. 

Otra forma de referirse a estos  documentos en español es e-impreso.

La aparición de los e-print se dio en los primeros años de la última década del siglo XX. 

Stevan Harnad, en ese entonces científico cognoscitivista en Princeton, y Paul Ginsparg, físico en el Laboratorio Nacional de Los Álamos (LANL), reconocieron que los avances recientes en telecomunicaciones y cómputo ofrecían a los científicos la posibilidad de intercambiar información sin necesidad de intermediarios para llegar a sus colegas y sugirieron que los autores y los institutos de investigación podían establecer archivos electrónicos para desafiar el control de la industria editorial sobre la comunicación científica. 

Harnad afirmó que la publicación de un artículo es simplemente un paso en el proceso científico, y el centrarse en ese punto es acortar las posibilidades que las TIC ofrecen; acuñó el término Scholarly Skywriting para ilustrar cómo las TIC participan en todas las etapas del proceso creativo y en la revisión formal por parte de los pares, "...

Del bosquejo de los manuscritos hasta que la copia final aceptada del manuscrito se publica"

En:" La literatura gris y los e-print" de Verónica Soria Ramírez publicado en BIBL. UNIV., NUEVA ÉPOCA, JULIO-DICIEMBRE 2003, VOL. 6, No. 2, P. 127-137. Disponible en <http://eprints.rclis.org/bitstream/10760/7711/1>.

Siguiendo con el concepto anterior de literatura gris, se puede decir que si bien esta definición comenzó a aplicarse a aquel material científico o de estudio que no alcanzaba los circuitos comerciales de circulación (desde tesis de grado y posgrado hasta traducciones, separatas o catálogos, entre otras formas de producción de conocimiento), se volvió particularmente significativo en torno a la documentación que en internet permanece oculta. 

Tanto ha sido esto preocupante que algunos organismos internacionales como la International Atomic Energy Agency (IAEA), en Viena, y la Food and Agriculture Organization (FAO), en Roma, ofrecen bases de datos que pueden ser consultadas a través de http://www.iaea.org/inis/ y http://agris.fao.org/, respectivamente. 

Canadá, Estados Unidos y algunos países de Europa han avanzado también en la conformación de bases de datos que se ocupan de organizar (sistematizar, de alguna manera también) esta documentación gris. 

En España, el Ministerio de Educación y Ciencia, ofrece la base Teseo que recoge las tesis doctorales del país:http://www.educacion.es/teseo.

Basado en: "La Literatura Gris". Form. Univ. [online]. 2011, vol.4, n.6, pp. 1-2. ISSN 0718-5006. doi: 10.4067/S0718-50062011000600001. Disponible en  <http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-50062011000600001&lng=en&nrm=iso>.

Caracterización de la Web 

invisible o profunda

Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

La Web opaca:

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

No cabe duda de que los actuales buscadores y directorios de la web están mejorando su funcionamiento. Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas. 

A medida que estas herramientas se vayan haciendo más poderosas disminuirá la necesidad de la elaboración manual de guías o concentradores de recursos y quizás más la de orientación en las estrategias de búsqueda y en el uso y aprovechamiento de los recursos localizados.

Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar todas las páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las diferentes herramientas. 

Por ejemplo, se puede tener la referencia de una base de datos, disponible a través de un sitio web, en una de las páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la página de acceso directo a la base de datos en ese sitio.

La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso hacerse de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza, varían más (por ejemplo, la información bursátil) serían visitadas más frecuentemente por los robots que aquellas que tienden a ser más estables en su contenido.

El número máximo de resultados visibles no es un problema cuando los buscadores presentan los resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a la búsqueda realizada. 

En la medida en que se pueda realizar una búsqueda avanzada y los criterios de relevancia combinen el número de ligas con la frecuencia de palabras, la presentación de los resultados no constituirá un obstáculo para encontrar la información. 

El usuario siempre debe tener en cuenta que los buscadores son más apropiados cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se busca; mientras que es más adecuado realizar búsquedas temáticas en los directorios.

Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.

La Web privada:Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

Las páginas están protegidas por contraseñas (passwords).

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad. 

En cualquier caso, son los dueños de la información los que deciden no hacerla disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que les hagan entrar en procesos circulares interminables, mermando así la eficiencia en su funcionamiento

La Web propietaria:

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

En un artículo reciente de la OCLC Office for Research se examinan las tendencias en cuanto a tamaño, crecimiento e internacionalización de la Web pública, es decir, la porción de información más visible y accesible para el usuario promedio.

 

Las principales conclusiones del estudio son:

El crecimiento de la Web pública muestra un estancamiento en los últimos años. Ello se debe a que se crean menos sitios Web y otros desaparecen, aunque esto no quiere decir que no aumente en volumen de información, es decir, en número de páginas o número de Terabytes.

Otra posibilidad, que no se señala en este estudio, pero que puede aventurarse, es que algunos sitios web estén transformándose en sitios accesibles solamente mediante pago.

La Web pública está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés. Esto nos lleva a pensar que es probable que haya más recursos invisibles en páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés.

La Web realmente invisible:

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

Algunos buscadores tradicionales como Altavista o Google han evolucionado y presentan ahora la posibilidad de realizar búsquedas por materiales o formatos especiales, como imágenes, audio y vídeo son posibles porque se realiza una catalogación textual de éstos. 

Las búsquedas en materiales en formatos como PDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. Así, el principal medio por el cual se pueden efectuar las búsquedas es el texto. 

Por ejemplo, si queremos recuperar imágenes en blanco y negro, éstas deben estar clasificadas de ese modo en la base de datos. Esto implica, desde luego un proceso manual. 

Hoy por hoy, los métodos bibliotecarios tradicionales resultan ser los más eficaces en la búsqueda de información, al menos mientras la inteligencia artificial no avance más. 

Realizar una búsqueda del tipo “quiero fotografías de personas que se parezcan a Woody Allen” sólo es posible si hay un especialista que clasifique las imágenes para distinguir si se trata de dibujos o fotografías, si éstas son de personas, y además incluya la información acerca de los parecidos. 

Las maquinarias actuales de búsqueda son extraordinariamente eficaces para recuperar información textual, pero esto no excluye la necesidad de la catalogación y clasificación de los recursos. 

Por lo mismo, el número de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que ser limitado. Una página web que contiene una imagen, sin mayor información textual acerca de su contenido, no podrá ser recuperada automáticamente más que por su extensión (.jpg, por ejemplo).

Recursos de 

búsqueda en la Web 

profunda por tipo de 

recurso

Buscadores

Scirus

http://www.scirus.com/

WebSearch

http://www.websearch.com.au/

Metabuscadores

iBoogie

http://www.iboogie.tv/

Fazzle

http://www.fazzle.com/

Ixquick

http://www.ixquick.com/

Search.Com

http://www.search.com/

Directorios de buscadores

AlphaSearch

http://www.alphasearch.org/

Directorios

CompletePlanet

http://www.completeplanet.com/

Direct Search

http://www.freepint.com/gary/direct.htm

HotSheet

http://www.hotsheet.com/

IncyWincy

http://www.incywincy.com/

InternetInvisible

http://www.internetinvisible.com/

Librarians Index

http://lii.org/

Master Link List On the Internet

http://www.web-friend.com/links/masterlinks.html

RefDesk.com

http://refdesk.com/

Webfile.com

http://webfile.com/

Where to Do Research

http://www.wheretodoresearch.com/

Directorios anotados

AcademicInfo

http://www.academicinfo.net/

Resource Discovery Network 

http://www.rdn.ac.uk/

Directorios de bases de datos

WebData.com

http://www.webdata.com/

Guías

About

http://www.about.com/

LibrarySpot

http://www.libraryspot.com/

Motores avanzados

Deep Query Manager (sustituye a Lexibot)

http://brightplanet.com/news/dqm2.asp

FeedPoint

http://www.quigo.com/feedpoint.htm

Search4science

http://www.search4science.com/

Strategic Finder

http://www.strategicfinder.com/

En conclusión, lo que 

realmente sigue siendo 

invisible en 

la web son:

Las páginas desconectadas;

Las páginas no clasificadas que contienen principalmente imágenes, audio o vídeo;

Las páginas no clasificadas que contienen principalmente archivos PDF,

PostScript, Flash, Shockwave, ejecutables y comprimidos;

El contenido de las bases de datos relacionales;

El contenido que se genera en tiempo real;

El contenido que se genera dinámica-mente.

Pero:

Algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;

Es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;

Existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;

El contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;

El contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;

WEB SUPERFICIAL

Los buscadores acceden a una pequeña parte de la información que existe online. Las características de los sitios son: *la información no está realizada en base de datos; *Es de libre acceso y *No requiere de proceso de registro. En la Web superficial se encuentra del 5 al 7% de toda la información que existe online.

Estas páginas tienen un URL fijo y accesible son estáticas

WEB PROFUNDA

Es aquella que los buscadores comunes no pueden acceder en forma convencional, pero nos muestran las páginas de inicio homepage. Una vez que accedemos a estas páginas, generalmente solicitan registrarse. Muchas de ellas son gratuitas, otras piden trabajos a cambio de utilizarlas y algunas requieren de un pago mensual. Están realizadas en el formato Base de Datos. Están formadas por páginas dinámicas no posee una URL fija (son temporales) o sea se construyen cuando se hace la consulta y desaparecen una vez cerrada la misma.

Fuente: varias fuentes.

La web superficial, también llamada visible, son aquellos sitios que mediante un buscador convencional se pueden encontrar fácilmente. La información de una web superficial es de libre acceso, es decir que está a la vista de todos de una forma fácil, ahora bien en cierto sentido la web superficial tiene una desventaja que en algunos casos se presentan al momento de hacer una consulta de ciertas informaciones a través de un buscador convencional.

¿Cuál es la desventaja?

Debido a que hay mucha información que está contenida en una base de datos, los buscadores no son capaces de indizar las informaciones contenidas en una base de datos y solo nos presenta una parte de las informaciones de libre acceso, pero acá se presenta otro problema y es que muchas veces buscamos una información y los datos ofrecidos no cumplen con lo que en realidad buscamos, por ejemplo, buscamos la definición de la palabra “conuco” (que en este país es el lugar donde las personas siembran frutos o alimentos es referente a una hortaliza), pero el buscador nos despliega una serie de resultados y en ninguno de ellos encontramos una definición concreta.

La web profunda, o invisible, es la información que generalmente se almacena y se accede mediante una base de datos a través de páginas dinámicas y aunque contienen información de acceso libre, contienen otras en la cual es necesario estar registrado para poder obtener la información deseada.

Se caracteriza en cuatro tipos, según Sherman y Price:

- La web opaca: Esta se compone de archivos que podrían ser encontradas a través de un buscador convencional, pero por alguna razón no están.

- La web privada: Son las páginas web que podrían estar indizadas en los motores de búsqueda, pero que por alguna causa son excluidas deliberadamente por falta de utilidad.

- La web propietaria: Son las que requieren un registro, ya sea de forma gratuita o pagada, para acceder a la información.

- La web realmente invisible: Son las que debido a limitaciones del buscador no pueden ser indizadas por los mismos.

La diferencia entre la web superficial y la web profunda radica en la forma que se puede tener acceso a los contenidos de sus webs, en la web superficial se presentan los contenidos de libre acceso y en la web profunda necesitamos realizar una serie de pasos o cumplir con ciertos requisitos para obtener la información. 

Para dar un ejemplo figurado, en la web superficial es como si alguien nos pidiese buscar una naranja y al llegar al árbol recogemos una del suelo habiendo más en el árbol, existe la posibilidad que la naranja salga buena, pero también está la posibilidad de que no salga muy buena. Y en la web profunda es cuando decidimos escalar el árbol de ser necesario con tal de encontrar una buena.

Continuando con las diferencias entre "Web superficial o visible" y "Web profunda o invisible", es importante destacar que la primera no está en base de datos y en la profunda la información está almacenada y está accesible mediante base de datos.

También es necesario mencionar que en la web profunda 

no existe URL fija

Comparto un cuadro que puede sintetizar las diferencias entre la web superficial y la web profunda.

Web Superficial Web Profunda

Información disponible en Internet que es recuperada interrogando a los buscadores convencionales. Información disponible en Internet que no es recuperada interrogando a los buscadores convencionales.

Está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija. Páginas que no tienen una URL fija y que se construyen en el mismo   instante.

Los documentos aparecen referenciados o ligados en otros Los documentos no tiene un link  desde otro documento.

Está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés. 

Páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés.

Es de libre acceso. 

No requiere la realización de un proceso de registro para acceder. Páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada.

Páginas clasificadas que contienen principalmente imágenes, audio o vídeo; las páginas clasificadas que contienen principalmente archivos PDF,PostScript, Flash, Shockwave, ejecutables y comprimidos. 

Páginas no clasificadas que contienen principalmente imágenes, audio o vídeo; las páginas no clasificadas que contienen principalmente archivos PDF , PostScript, Flash, Shockwave, ejecutables y comprimidos.

Web indexadas, Web indexable o Lightnet.-

La web de superficie (también llamada la Web visible , Clearnet , web indexadas , Web indexable o Lightnet , es la parte de la World Wide Web que está fácilmente disponible para el público en general y se pueden buscar con el estándar de motores de búsqueda web . 

Es lo opuesto de la web profunda.

Un website es accesible para buscadores cuando los robots de los motores de búsqueda pueden indexar fácilmente la estructura de URLs de dicho website, quedando las diferentes páginas del site incluidas en los índices y listados de los buscadores y existiendo una compatibilidad de dichas páginas con buscadores.

Con una buena accesibilidad web conseguiremos una mejora en la indexación de las páginas de la web y por lo tanto en la capacidad de un mejor posicionamiento.

A mayor número de páginas indexadas por el buscador, mayor visibilidad y por lo tanto mayor posibilidad de generar más tráfico web Para una buena arquitectura de la web, todas las páginas del sitio tienen que estar conectadas por enlaces rastreables.

Las páginas indexadas indican el nivel de profundidad con que los buscadores han rastreado una web. La relación entre el número de páginas indexadas y el número real de páginas publicadas e indexables se denomina saturación, y el objetivo es obtener el 100%: que todas las páginas del portal estén indexadas en los buscadores

Las páginas tienen 

que ser:

Indexable => amigable para los buscadores

Usable => amigable para el usuario

Sociable => integrada con los sociales media

Accesible => por todos los usuarios Compatible

Una página bien indexada es aquella que puede ser encontrada por los buscadores, rastreada correctamente, es decir, que todo su contenido puede ser leído por el robot del buscador, y que puede ser clasificada en las categorías de búsqueda pertinentes y con un mayor nivel de relevancia respecto a sus competidoras