Shadowrun > Les archives des Shadowforums
Bienvenue dans les Ombres Francophones
AccueilArchivesForumsCyber-EspaceAgendaPersona 2.0

Archives » Discussions diverses » Data Search ? Whouat motor in ze Web ?
19-10-2009 12:01:45#1
M. JonsonHello people,

Connaissez vous des méta moteurs de recherche, permettant d'effectuer des recherches d'image (si possible en mode avancé) sur plusieurs moteurs à la fois (une fois sorti de bing et gogol ?)
19-10-2009 19:28:37#2
MenditsoDes méta moteurs images...
Je sais pas si ça existe... enfin pas encore.
Le mieux pour chercher des images c'est de faire des recherches dans des banques d'image tel que getty image, fotosearch ou corbis.
20-10-2009 00:46:05#3
M. Jonsonoki, merci
20-10-2009 10:35:28#4
LyrTu as le moteur http://www.alltheweb.com/ (un peu racheté par Yahoo, mais encore bon pied bon oeil) qui a des algo bien différents de Gogol et qui te permet de varier les résultats.

Petit truc pour la recherche d'image:
Alltheweb a tendance à pointer directement l'image trouvée, même si elle est dans une zone non autorisée en accès direct (que ce soit No Hotlinking ou autre). Un truc à essayer à chaque échec du clic, c'est de copier l'adresse du lien proposé par Alltheweb, en te baladant dedans, tu trouveras une amorce "publicitaire/hotlinkante" et à la fin, la vraie adresse, avec le :// remplacé par du code.
Exemple:
http:// av.rds.yahoo.com/ _ylt=A0geulusdd1KqX0BfQ.HBqMX;_ylu=X3oDMTBwanIybjRqBHBndANhdHdfaW1nX3Jlc3VsdARzZWMDc3I-/ SIG=1303e1mnl/EXP=1256113964/ **http%3a//fwk.narod.ru/gallery/luis_royo/malefic/luisroyo_malefic_Shadowrun.jpg
(adresse coupée pour la voir en entier)

Tu retire donc tout avant le dernier http (celui précédé de **) et tu remplaces le %3a par : et la plupart du temps, tu passes outre les protections contre le hotlinking ou autre.
N'hésite pas non plus à aller paramètrer les préférences personnelles pour un affichage plus confortable des résultats.
20-10-2009 10:51:10#5
Robin des Ombresd'ailleurs, j'en profite pour faire mon geek ... le sujet du datasearch est un truc assez important je pense - surtout quand c'est principalement contrôlé par une seule entreprise. dernièrement je suis tombé sur le projet YaCi. Je n'ai pas essayé, je ne sais pas ce que ca vaut, mais le principe est vraiment intéressant.

L'idée est la suivante : plutôt que d'avoir des énormes machines appartenant à une entreprise pour indexer tout le net et faire des recherches, on a un réseau P2P entièrement décentralisé ou chaque noeud participe à l'indexation. Quand on fait une recherche, celle-ci se propage au sein du réseau, qui finit par retourner les résultats obtenus.

La décentralisation offre certains avantages :
- c'est résistant aux pannes
- c'est une ressource commune contrôlée par personne
- c'est très difficile d'obtenir un profil des recherches effectuées par un utilisateur du réseau.
20-10-2009 10:51:14#6
BladeTu peux essayer Ginpic qui pourrait correspondre à ce que tu cherches.

Pixolu a une approche intéressante de la recherche d'image puisqu'il permet d'affiner ta recherche en disant quelles images correspondent à ce que tu cherches.
Intéressant aussi pour la recherche d'image TinEye qui fait de la recherche inversée (tu lui donnes une image et il te trouve d'autres images qui y ressemblent)
20-10-2009 12:22:55#7
M. Jonsonmerci les gens.

pixolu ca a l'air sympa mais semble long, et je vais tester alltheweb.
21-10-2009 09:54:09#8
Le Dieu Fredj'utilise régulièrement Cooliris, addon de Mozilla ça aide pour passer pas mal de pages en revue rapidement
21-10-2009 09:56:54#9
Robin des Ombresouah ! Fredounet !
21-10-2009 10:10:58#10
Beast
Le Dieu Fred a écrit:

j'utilise régulièrement Cooliris, addon de Mozilla ça aide pour passer pas mal de pages en revue rapidement

et c'est du bel effet quand il s'affiche, je plussoie.
20-11-2009 12:11:01#11
M. Jonsonre back from the rising aeons...

bref, un consultant (mwouhaha) me propose une veille en ligne sur ducontenu, du genre tout ce qui va paraitre sur le sujet, vous allez le trouver totamatiquement.

j'ai fourbeusement demandé si ça incluais le contenu dynamique (attention, mes notions sont floues).

en bon biclassé commercial/consultant, il m'a demandé de lui préciser ma question.

en sale juriste/runner, je legwork pour vous demander de m'aider à formuler ma question d'un point de vue technique.

or donc mon souci:

je surveille du contenu (texte et img pour le coup) sur le net, pour voir si les méchant ils parlent mal de moi. mais je voudrai connaitre les limites d'une telle surveillance.

pour les images on a vu ça plius haut, mais pour le texte ?

si je recherche l'expression 'jonson est un social traitre", via google, quel est le contenu que je ne trouverai pas ? (une image avec le texte scanné, par pas indexé par google ? les adresses dynamiques, parce sur la page STALBS.com il y a du contenu, mais que en fait c'est du XML dynamique et que en vrai le texte n'est pas sur la page indexée mais ailleurs ou s'affiche ne javascript ?)

voila, j'ai un peu l'idée de comment ca marche mais à la louche, comment ça se traduit en termes techniques clairs que je puisse demander au commercial "mais votre truc, il indexe le xml dynamique qui n'existe pas " ?

sais pas suis je suis clair là ??
21-11-2009 05:20:05#12
okhinLe dynamique est indexé. Puisque, à partir du moment ou la page est accessible par un lien, ton moteur de recherche y accède (au robots.txt près). Donc, tout ce qui est texte brut est accessible par un moteur de recherche.
Bon, après, il ne va pas forcément te le sortir (Google indexe sur une sorte de réputation. En gros, meilleur est la réputation de ton site, mieux c'est. Pour monter ta réputation, soit tu est potes avec des sites qui ont de la réputation aussi, soit tu taille ton chemin à l'attitioude et tout le monde accède à ton site).

Cela dit, une donnée qui n'existe pas, ça n'existe pas (c'est un peu comme déréférencer un pointeur NULL, c'est sale). Donc, si la donnée existe et est consultable, tu peux la trouver (pas forcément simplement, si le fourbe sysadmin, ne voulant pas qu'on le trouve, à mis une liste de fichier/page à exclure dans un robots.txt, les moteurs de recherche n'iront pas le chercher).

Tu ne pourras pas garantir que tu trouveras le fait qu'on parle mal de ton client. Par contre, tu pourra dire que, au delà d'un certain volume de donnée, tu le trouvera.

Okhin
Archives » Discussions diverses » Data Search ? Whouat motor in ze Web ?