¿Porqué el Filtrado de URL es requerido y cómo se consigue?
Este artículo ofrece una introducción a lo que es el Filtrado de URL, porque es necesario y cómo se lleva acabo a nivel Enterprise.
Revisaremos los diversos factores involucrados en la clasificación de sitios web y su actualización.
También se discute sobre las ventajas y desventajas del filtrado de URL.
¿Qué es el Filtrado de URL?
Haga de cuenta que usted teclea el nombre de su sitio de redes sociales favorito en el navegador web y éste despliega un mensaje como “La política de su organización no permite la navegación a este sitio web” y no le permite el acceso al mismo desde su oficina, esto es porque existe el filtrado de URL que ha sido puesto en su lugar por su departamento de TI.
Así, un filtro de URL es utilizado básicamente para clasificar en categorías los sitios web en el Internet y ya sea que permita/bloquee el acceso a los mismos a los usuarios de la web de su organización, haciendo referencia a una base de datos ya clasificado en categorías (mantenida por proveedores de filtrado de URL) o haciendo la clasificación en tiempo real.
El filtrado de URL también puede ser aplicado únicamente durante ciertos horarios durante el día o días de la semana, si se llega a requerir.
¿Porqué un Filtro de URL es requerido?
El filtrado de URL es requerido para bloquear a los usuarios de una organización el acceso a sitios web durante las horas de trabajo que:
- Reduzcan drásticamente la productividad
- Les permita ver contenido censurable en el lugar de trabajo
- Si el uso de ancho de banda es intensivo y por lo tanto exijan demasiados recursos
- Fuga de información confidencial o crítica
¿Cómo se realiza el Filtrado de URL?
El filtrado de URL es realizado básicamente por un proveedor de Filtrado de URL al mantener una base de datos altamente clasificada en categorías con la mayoría de sitios web del Internet.
Ya sea que permita el acceso a los mismos o no-permita el acceso a los usuarios del Internet de una organización ya sea todo el tiempo o solo durante cierto horario en el día.
La políticas de cuales categoría de sitios web deben ser permitidas/no-permitidas a los usuarios de una organización puede ser establecidas por el personal del departamento de TI a través de una interfaz basada en web ofrecida por los filtros de URL.
De esta manera, existe un appliance local de hardware o un aplicación de software ejecutándose en un servidor que se conecta con una base de datos central de los proveedores de filtrado de URL la cual permite bloquear sitios web individuales.
Puede existir una base de datos local, la cual es actualizada por completo o parcialmente desde una base de datos central.
Pero el actualizarlas por completo puede llegar a traer sus propios problemas de productividad como el uso de ancho de banda o el uso de memoria.
Algunos proveedores permiten agregar URL automáticamente, eliminando la necesidad de someterlas manualmente para su inclusión en su base de datos.
Un sitio web puede ser clasificado en una sola categoría o en múltiples categorías y el bloqueo puede ser realizado apropiadamente.
Por ejemplo, el acceso a un sitio web puede ser permitido si se encuentra en la categoría de deportes pero no si se encuentra en deportes y apuestas.
Generalmente, las compañías de Filtrado de URL evalúan los sitios web basándose en el nombre de sus dominios (además de las URL) ya que un dominio puede contener múltiples URL que tienden con frecuencia a crecer.
Opcionalmente, hasta las direcciones IP de los nombres de dominios pueden ser incluidas durante la clasificación de los dominios.
Los sub-dominios también necesitan ser clasificados además de los dominios principales (para blogs, etc.) y las páginas intermedias necesitan se clasificadas además de las páginas primarias o basándose en las páginas primarias (como los sitios de traducción o sitios que despliegan imágenes de otros servidores).
También puede ser necesario el evaluar de manera similar los sitios web que contienen múltiples idiomas.
Clasificación de sitios web en Tiempo-Real:
El Internet es demasiado grande y es prácticamente imposible de clasificar en categorías la lista completa de sitios web presentes.
Así que cuando el usuario accede a ciertos sitios web el sistema de filtrado de URL los clasifica ‘sobre la marcha’ o en tiempo-real.
Esto típicamente puede tardar solo algunos cientos de milisegundos y las bases de datos locales son actualizadas automáticamente en conjunto con la base de datos central.
Esta clasificación en categorías es realizada automáticamente por maquinas de aprendizaje (aplicaciones de software automatizadas como los robots de búsqueda de sitios web) quienes recuperan las piezas/palabras claves (a veces todas las palabras) del contenido del sitio web y en el contexto deciden la categoría más apropiada.
Así también las ligas de los sitios web hacia otros sitios web son analizadas para colocarla en la categoría relevante.
Esta maquinas de aprendizaje son entrenadas por humanos profesionales al alimentarlas con datos de entrenamiento (que contienen sitios web clasificados en categorías por humanos profesionales) y ajustando la configuración para reflejar los mismo resultados, sobre un periodo considerable de tiempo
Intervención Humana:
Hay veces en que las maquinas en aprendizaje no son capaces de clasificar sitios web y todos estos sitios web son categorizados por humanos profesionales que participan activamente en el entrenamiento de las mismas, analizando los resultados, irregularidades, etc.
La sumisión de sitios web de cualquier usuario también es aceptada, esta es revisada por los profesionales para su clasificación (para los sitios web que no se encuentran en una categoría).
Los datos de las URL en las que han navegado pero que no se encuentran clasificadas son recolectadas y enviadas a equipos de especialistas altamente entrenados para su clasificación.
Una vez que se incluyen en una categoría, una lista de filtros es actualizada con las nuevas URL evaluadas y la base de datos es actualizada en la siguiente actualización que normalmente se maneja como una suscripción del servicio.
Ventajas y Desventajas del Filtrado de URL:
Como se menciono anteriormente el filtrado de URL ayuda a las organizaciones a mejorar la productividad al asegurarse de que el tiempo de los empleados no es gastado en actividades innecesarias durante el horario de oficina.
Este filtrado de URL también puede ayudar a prevenir código malicioso, spyware, phishing, etc.
Lo cual puede ser potencialmente dañino para la organización. Algunos proveedores ofrecen también el bloqueo de aplicaciones Peer-to-Peer y mensajería instantánea las cuales utilizan más recursos, malgastan el tiempo y también son una amenaza a la seguridad.
El bloqueo excesivo puede causar ciertos problemas con los usuarios.
Por ejemplo, el uso de ciertas aplicaciones requieren de la instalación de cierto spyware comercial y el bloqueo del mismo puede denegar el acceso a estas aplicaciones de los usuarios.
El bloqueo en exceso también puede resultar en más llamadas/tickets a la mesa de ayuda que requieren ser atendidos, y ser resueltos por el equipo de soporte.
Si esto pasa con frecuencia, entonces el tiempo del usuario y el del equipo de soporte es utilizado en exceso.
A veces, se tiene el problema de que ciertos sitios web que ya fueron clasificados se vuelven una amenaza de sitios en una etapa más adelante.
Una buena solución incluye la reclasificación de estos sitios o la creación de categorías de URL personalizadas.