Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Extractor Web de huella digital

De
217 pages

El objetivo de este proyecto es triple: Por una lado, se creará una aplicación que será capaz de extraer información de Internet, información que en muchos casos es privada o el usuario cree serlo. El programa, denominado Skiptracing ha sido realizado en la empresa Denodo Technologies, utilizando la plataforma que ellos proporcionan, Denodo Platform 4.6. Aunque Skiptracing obtiene información personal de Internet, esto no quiere decir que la información que Skiptracing extrae no sea información "legal". Skiptracing extrae la información que Internet le proporciona "públicamente", es decir, que cualquier otra persona realizando una búsqueda a mano podrá ser capaz de obtener. El segundo objetivo, es hacer una demostración del funcionamiento de la plataforma Denodo y ver como su uso facilita el desarrollo de la aplicación actual. El actual proyecto fin de carrera, fue realizado en Denodo Technologies como prácticas en empresa, y se desarrolló como piloto para un cliente final. Demostrar que en el momento en el que se entra en Internet no es difícil poder obtener información sobre cualquier persona, entendiendo que la persona en cuestión realiza un uso de Internet en general, de la Web 2.0 en particular. La extracción de informacón por parte de redes sociales es el caso más preocupante, en muchos casos dan cierta información que podría ser privada y en caso de que no sea así, queda patente la mala utilización de las redes sociales por parte del usuario. Las redes sociales ofrecen opciones e información para proteger nuestros datos, que en muchas, o la mayoría, el usuario ignora dejando sus datos completamente expuestos al mundo. Además, existen muchas personas que utilizan un blog personal o realizan consultas personales en foros completamente abiertos, pudiendo extraerse información muy personal por parte de terceras personas.
Ingeniería de Telecomunicación
Voir plus Voir moins

UNIVERSIDAD CARLOS III DE MADRID
ESCUELA POLITECNICA SUPERIOR
INGENIERIA DE TELECOMUNICACION
PROYECTO FIN DE CARRERA
ExtractorWeb deHuellaDigital
Autor: ANA MARIA SALAS FERNANDEZ
Tutor: DR. VICENTE LUQUE CENTENO
OCTUBRE DE 2010Agradecimientos
En primer lugar, me gustara agradecer a mis padres todo su apoyo y
su compresion , por compartir conmigo mis exitos y mis fracasos, y estar
incondicionalmente a mi lado. Sin ellos, no hubiera podido llegar donde estoy
hoy. Gracias a mi hermano Nacho, por ser un gran hermano y por animarme
siempre. Gracias a la gran familia que tengo.
Tambien me gustara dar las gracias a William, mi novio, porque gracias a
el recupere la seguridad y conanza en m misma, y por compartir juntos los
buenos y malos momentos que nos ha dado la carrera. Gracias por animarme,
apoyarme y creer en m siempre, por ser tan importante para m en todos los
momentos de mi carrera.
En este punto me tengo que acordar de mis compan~eras y compan~eros de
estudio. Con los que he compartido largas horas de estudio y largos das de
biblioteca. Gracias por ser tan buenos compan~eros y amigos.
Por ultimo, agradecer a Denodo la posibilidad de realizar con ellos el PFC
y a todos mis compan~eros por la acogida en mi actual empresas.
En de nitiva, gracias a todos aquellos que han hecho posible este proyecto.
<Gracias a todos!Indice general
1. Introduccion y Objetivos 1
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Problematica de las redes sociales . . . . . . . . . . . . 3
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Partes del proyecto . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Estado del Arte 7
2.1. Data Mashup . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2. Ejemplos [20] . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Wicket . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2. >Por que Wicket? . . . . . . . . . . . . . . . . . . . . . 9
2.2.3. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Spring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2. >Que es Spring? . . . . . . . . . . . . . . . . . . . . . . 13
3. Plataforma Denodo 15
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2. Virtual Data Port . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.2. Arquitectura VDP . . . . . . . . . . . . . . . . . . . . 16
3.2.2.1. NIVEL FISICO . . . . . . . . . . . . . . . . . 18
3.2.2.2. LOGICO . . . . . . . . . . . . . . . . 19
3.2.2.3. MODULOS DE DATOS: CACHE . . . . . . 20
3.3. ITPilot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2. Distribucion de los entornos . . . . . . . . . . . . . . . 22
3.3.2.1. ENTORNO DE GENERACION . . . . . . . 22
3.3.2.2.RNO DE EJECUCION . . . . . . . . 23
3.3.2.3. ENTORNO DE MANTENIMIENTO . . . . 24
3.3.3. Herramienta gar ca . . . . . . . . . . . . . . . . . . . . 25
3.4. Aracne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
iiiiv INDICE GENERAL
3.5. Scheduler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.2. Arquitectura . . . . . . . . . . . . . . . . . . . . . . . 29
3.6. Comparativa de Denodo Platform con otras plataformas . . . 30
4. Skiptracing 39
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2. Requisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1. Requisitos Funcionales . . . . . . . . . . . . . . . . . . 40
4.2.2. Modelo de requisitos . . . . . . . . . . . . . . . . . . . 41
4.2.2.1. Identicacion de Actores . . . . . . . . . . . . 41
4.2.2.2. Identicacion de Casos de Uso . . . . . . . . . 41
4.3. Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.1. SKIPTRACING-ITP-WRAPPERS . . . . . . . . . . . 43
4.3.2. SKIPTRACING-SCHEDULER . . . . . . . . . . . . . 44
4.3.3. SKIPTRACING-EXPORTER . . . . . . . . . . . . . . 45
4.3.4. SKIPTRACING-VDP-VQL . . . . . . . . . . . . . . . 45
4.3.5. SKIPTRACING-PROC . . . . . . . . . . . . . . . . . 46
4.3.6. SKIPTRACING-WEB . . . . . . . . . . . . . . . . . . 47
4.4. Analisis de fuentes . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.1. Fuentes Web . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4.1.1. GOOGLE . . . . . . . . . . . . . . . . . . . . 48
4.4.1.2. GOOGLE BLOGS . . . . . . . . . . . . . . . 49
4.4.1.3. GOOGLE NEWS . . . . . . . . . . . . . . . . 51
4.4.1.4. FACEBOOK . . . . . . . . . . . . . . . . . . 53
4.4.1.5. LINKEDIN . . . . . . . . . . . . . . . . . . . 57
4.4.1.6. LIIN EMPRESAS . . . . . . . . . . . . 63
4.4.1.7. SONICO . . . . . . . . . . . . . . . . . . . . 65
4.4.1.8. PAGINAS AMARILLAS . . . . . . . . . . . . 68
4.4.2. Vistas bases . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4.2.1. Base itp google . . . . . . . . . . . . . . . . . 71
4.4.2.2. Base itp google news . . . . . . . . . . . . . . 71
4.4.2.3. Base itp google blog . . . . . . . . . . . . . . 72
4.4.2.4. Base itp facebook . . . . . . . . . . . . . . . 72
4.4.2.5. Base itp facebook google . . . . . . . . . . . 73
4.4.2.6. Base itp linkedin . . . . . . . . . . . . . . . . 74
4.4.2.7. Base itp lcompany . . . . . . . . . . . . . . . 75
4.4.2.8. Base itp sonico . . . . . . . . . . . . . . . . . 76
4.4.2.9. Base itp pamarillas . . . . . . . . . . . . . . . 77
4.4.2.10. Base xml provinces . . . . . . . . . . . . . . . 78
4.4.2.11. Base csv task input . . . . . . . . . . . . . . 78
4.4.2.12. Base person . . . . . . . . . . . . . . . . . . . 79
4.4.2.13. Base person result . . . . . . . . . . . . . . . 79
4.4.2.14. Base csv nickname . . . . . . . . . . . . . . . 80

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin