17 juil. 2008
Introduction à la recherche d'information par Google

Google nous propose sur son blog officiel un très bon billet de Amit Singhal intitulé "Technologies behind Google ranking".
Ce billet expose de manière claire et simple et illustrée, les principales problématiques de la recherche d'information sur internet. On y retrouve trois axes majeurs :
- La compréhension des pages à indexer
- La compréhension des requêtes de l'utilisateur
- La compréhension des utilisateurs eux-mêmes
Emilie : je trouve toujours bien que les éditeurs de solutions, quelles qu'elles soient, fassent un effort de vulgarisation pour mettre à la portée de tous des concepts, des processus... qui ne sont pas faciles d'accès. Bravo Google !
16 juil. 2008
TineEye : une image pour trouver une image
Habituellement, lorsque l'on fait une recherche d'images, sur Google par exemple, on tape des mots-clés. Avec TinEye (créé par la société Idée), on choisit une image. En lançant une image en guise de requête, on obtient la liste des sites Web où cette image se trouve. Pour tester TinEye, c'est sur invitation, car le comparateur d'images est encore en bêta privée.
En attendant, Korben l'a testé.
Et voici une vidéo qui présente TinEye :
Et une autre qui nous explique comment TinEye fonctionne :
Jérôme : Quelle frustration, effectivement lorsque j'ai voulu tester TinEye hier de ne pouvoir aller plus loin que la vidéo de présentation et les quelques widgets proposés. Cependant, sur ces démonstrations, la technologie a vraiment l'air intéressante et j'ai hâte de pouvoir le tester. Et en même temps, je m'interroge encore sur les utilisations possibles de TinEye. Quelqu'un a des idées ?
En attendant, Korben l'a testé.
Et voici une vidéo qui présente TinEye :
Et une autre qui nous explique comment TinEye fonctionne :
Les gagnants du "SearchMonkey Developper Challenge" sont...
On vient d'apprendre quels sont les cinq gagnants du "SearchMonkey Developper Challenge", choisis parmi une centaine de projets. Les projets ont été sélectionnés par un jury composé notamment de Michael Arrington et Amit Kumar, et étaient classés en cinq catégories :





- Innovative Structured Data : c'est l'équipe StumbleUpon qui remporte cette catégorie avec son Infobar qui permet de connaître les sites Web les plus plébiscités.

- Best Infobar : le site gagnant est un site de notation de restaurants, réalisé par l'équipe de BooRah.

- Best Enhanced Result : l'informaticien Greg Schechter a développé un système qui ajoute des informations aux résultats de recherche obtenus suite à l'envoi d'une requête sur le site Xbox.com.

- Best Data Service : David Hinckley a créé un service de données (voir le site de généalogie) qui permet à d'autres développeurs SearchMonkey de présenter des résultats de riches, issus de son site, dans leurs propres applications.

- Grand Prize : le Grand Prix est attribué à Marco Vitanza qui a créé un Infobar pour les blogs Blogspot qui fournit les liens vers les 10 billets les plus récents sur un blog Blogspot. Pour chaque bllet, sont indiqués la date et le titre.

Jérôme : Vive Search Monkey! Même si je m'attendais à encore plus innovant au niveau des gagnants (si j'avais su, j'aurais proposé mon application de test pour shopreflex), c'est un bon début. En tout cas, j'espère que la Yahoo! Search Gallery va vite se remplir de plein d'applications et qu'elle sera utilisée par de nombreux internautes! Encore bravo à Yahoo! pour cette initiative et bravo aux développeurs qui ont remporté le "Search Monkey Developper Challenge".
Un Google français ? Quelle utopie !
Catherine Barba, François Bourdoncle, Mats Carduner, Pierre Kosciusko-Morizet, Laurent Kott, Cédric Manara et Mark Zaleski nous offrent un joli papier dans Le Monde, sobrement intitulé "Un Google français n'est pas qu'une utopie".
Amateurs de moteurs de recherches, ne vous ruez pas sur ce papier, car il ne traite nullement des moteurs de recherche ou bien même de Google. Ce papier est un papier de politico-entrepreneurs, qui rappellent à juste titre qu'il faut arrêter de bloquer l'innovation en France par peur du changement. Je suis sur ce point tout à fait d'accord avec les auteurs.
La lecture de cet article m'a fait inévitablement penser à Quaero. Quaékoi ? Nous en avions déjà parlé sommairement à deux reprises en 2006 sur ce même blog. Quaero, vous savez le tour de passe-passe permettant d'offrir des subventions à quelques entreprises triées sur le volet (du copinage) dans le but de faire avancer la recherche européenne dans divers domaines de la recherche d'information, et par la suite de permettre à ces mêmes entreprises de réintégrer tout ça dans leurs propres produits. Bref un consortium permettant de financer une partie des efforts de recherche et développement d'Exalead, Jouve, Synapse, et les autres...
Car si nous faisons aujourd'hui un bilan de Quaero, que pouvons nous constater ? Allez donc voir sur le site : Rien ! Du bla-bla, encore du bla-bla, et puis... rien d'autre.
Tout ça pour dire que j'ai un peu de mal à lire ces belles paroles de François Bourdoncle entre autres sur la nécessité de libérer l'innovation française, alors que ces mêmes donneurs de morale utilisent des fonds publics pour le développement de leur société. Autant de fonds qui auraient été en mesure de lancer de jeunes belles startups françaises.
Amateurs de moteurs de recherches, ne vous ruez pas sur ce papier, car il ne traite nullement des moteurs de recherche ou bien même de Google. Ce papier est un papier de politico-entrepreneurs, qui rappellent à juste titre qu'il faut arrêter de bloquer l'innovation en France par peur du changement. Je suis sur ce point tout à fait d'accord avec les auteurs.
Emilie : je me suis ruée dessus, par curiosité... Un texte intéressant en soi dans la mesure où : 1) il fait ressortir l'un des freins majeurs de la France quand il s'agit d'innovation : la peur du changement 2) il souligne la nécessité de ne plus bloquer l'innovation en France. Toutefois, le texte ne dit rien qu'on ne sait déjà.Mais revenons à Google, aux moteurs de recherche et à la France.
La lecture de cet article m'a fait inévitablement penser à Quaero. Quaékoi ? Nous en avions déjà parlé sommairement à deux reprises en 2006 sur ce même blog. Quaero, vous savez le tour de passe-passe permettant d'offrir des subventions à quelques entreprises triées sur le volet (du copinage) dans le but de faire avancer la recherche européenne dans divers domaines de la recherche d'information, et par la suite de permettre à ces mêmes entreprises de réintégrer tout ça dans leurs propres produits. Bref un consortium permettant de financer une partie des efforts de recherche et développement d'Exalead, Jouve, Synapse, et les autres...
Car si nous faisons aujourd'hui un bilan de Quaero, que pouvons nous constater ? Allez donc voir sur le site : Rien ! Du bla-bla, encore du bla-bla, et puis... rien d'autre.
Tout ça pour dire que j'ai un peu de mal à lire ces belles paroles de François Bourdoncle entre autres sur la nécessité de libérer l'innovation française, alors que ces mêmes donneurs de morale utilisent des fonds publics pour le développement de leur société. Autant de fonds qui auraient été en mesure de lancer de jeunes belles startups françaises.
Emilie : je suis tout à fait d'accord sur ce point. Et ce qui me fait le plus sourire c'est le passage où les auteurs du texte indiquent : "ils (les entrepreneurs) n'ont pas besoin de subventions". Et Quaero alors ? Il faut savoir que ce projet est doté d'un budget global de 199 millions d'euros sur cinq ans !!! C'est une somme impressionnante qui, pour l'instant, n'a pas débouché sur quelque chose de concret. Le projet a fait essentiellement parler de lui par les désaccords entre français et allemands. Vous connaissez l'expression "jeter de l'argent par la fenêtre" ?Bref, dans un tel contexte, "Un Google français n'est pas qu'une utopie", c'est tout simplement une impossibilité.
Emilie : je ne serais pas aussi stricte... toutefois, je ne suis pas certaine que c'est en lançant des projets à grande échelle comme Quaero que ce sera possible. Prenez l'exemple de Google... il est né à l'université dans les têtes de deux étudiants et a grandi dans un garage.A lire également sur le même sujet, un très bon article d'Ouriel Ohayon intitulé "Peut-on créer un Google à la Française ? la réponse en vidéo"
10 juil. 2008
Yahoo! BOSS, une révolution est en marche
Nous avons déjà parlé de la petite révolution entamée par Yahoo! avec Search Monkey. J'étais très enthousiaste à la lecture de la documentation de ce nouveau service de Yahoo! et après plusieurs tests, mon enthousiasme n'allait que grandissant.

Yahoo! va aujourd'hui encore plus loin dans cette politique d'ouverture avec sa nouvelle annonce : BOSS (Build your Own Search Service). C'est à mon sens la plus grande révolution dans le domaine des moteurs de recherche depuis bien longtemps (depuis le PageRank ?).
De quoi s'agit-il ? BOSS est une API de recherche permettant de bénéficier de l'infrastructure de Yahoo! (jusque là rien de bien nouveau), mais offrant également la possibilité d'intervenir à différents niveaux du processus de recherche:
Je n'ai pas encore lu la documentation en détail, ni effectué de tests. Ce billet est plus une réaction à chaud à l'annonce de Yahoo! D'autres billets viendront donc compléter celui-ci après une lecture attentive de la documentation et des tests.
Mais si BOSS tient ses promesses, ça va être énorme !!!
Petite pensée personnelle : Quand certains moteurs (suivez mon regard) s'éparpillent sur tous les fronts, d'autres comme Yahoo! se battent, ouvrent des perspectives et deviennent de plus en plus sympathiques.

Yahoo! va aujourd'hui encore plus loin dans cette politique d'ouverture avec sa nouvelle annonce : BOSS (Build your Own Search Service). C'est à mon sens la plus grande révolution dans le domaine des moteurs de recherche depuis bien longtemps (depuis le PageRank ?).
De quoi s'agit-il ? BOSS est une API de recherche permettant de bénéficier de l'infrastructure de Yahoo! (jusque là rien de bien nouveau), mais offrant également la possibilité d'intervenir à différents niveaux du processus de recherche:
- Le tri des résultats : possibilité de pondérer et de trier les résultats avec ses propres critères.
- La présentation : flexibilité totale de la présentation, sans aucune nécessité d'inclure une quelconque référence à Yahoo! De plus, Yahoo! propose un langage de présentation BOSS permettant de facilement inclure les résultats de BOSS avec d'autres sources de données
- Manque encore la possibilité d'intervenir sur l'analyse des requêtes, et sur le processus d'indexation, mais ça viendra peut-être un jour
Je n'ai pas encore lu la documentation en détail, ni effectué de tests. Ce billet est plus une réaction à chaud à l'annonce de Yahoo! D'autres billets viendront donc compléter celui-ci après une lecture attentive de la documentation et des tests.
Mais si BOSS tient ses promesses, ça va être énorme !!!
Petite pensée personnelle : Quand certains moteurs (suivez mon regard) s'éparpillent sur tous les fronts, d'autres comme Yahoo! se battent, ouvrent des perspectives et deviennent de plus en plus sympathiques.
Emilie : une très bonne nouvelle, effectivement, pour les développeurs du monde entier, surtout lorsque l'on voit de quoi BOSS est capable. Mais cette ouverture n'est cependant pas totalement désintéressée. Je viens en effet de lire que BOSS est totalement gratuit sous réserve que les publicités Yahoo! puissent être ajoutées aux résultats dans les prochains mois (même si les revenus générés seront partagés) : "The service is provided free of service, on the condition that Yahoo advertisements may be added to results in the months to come." Mais est-ce si important à côté de la révolution qui est en marche ?
9 juil. 2008
Les résultats de Google profitent à Yahoo!
C'est ce qui ressort de l'étude réalisée par le cabinet Hitwise et évoquée sur Abondance : "le trafic sur les sites de Yahoo! serait généré dans une forte proportion par Google, notamment sur son site Yahoo! Answers." Yahoo! Answers mais aussi Yahoo! Maps, Yahoo! News, etc.


Jérôme : J'ai effectivement vu passer cette news ce matin qui m'a fait beaucoup rire (jaune). La nouvelle stratégie Yahoo! va devenir : embaucher des référenceurs pour optimiser son référencement sur Google! Nous vivons une époque formidable...
2 juil. 2008
Les fruits de la R&D chez Sinequa
Le futur de la recherche chez Sinequa se résumé à 5 grands projets qui devraient arriver à plus ou moins long terme. Ils sont présentés rapidement mais clairement par François d'Hageleer, vice-président marketing, sur 01net :- TexCoop : "Il s'agit de s'affranchir des structures automatiques des documents. Par exemple, dans Word, vous avez des métadonnées comme l'auteur ou le titre du document. Ces données ne correspondent pas forcément à la réalité."
- Blogoscopie : "Il s'agit d'analyser les tendances, les opinions, notamment dans les blogs ou les wikis. Leurs contenus ne sont ni contrôlés ni forcément formalisés. Il s'agit donc d'analyser et de contextualiser ces textes et d'identifier s'il s'agit d'une opinion positive ou négative."
- Piithie : il s'agit "d'une recherche sur le suivi d'impact. J'ai lancé un produit, je veux savoir qui en parle et en quel terme."
- RPM2 : l'objectif est de "prendre des extraits pertinents de médias différents et les agréger"
- CallSurf inform@gic : ce projet porte sur l'analyse ainsi que l'indexation du contenu des centres d'appels.
Jérôme : Sinequa, la fameuse solution qui propulse Wikio... Alors, au sujet de ces annonces. TexCoop : heu... c'est tout ? Supprimer les méta-données des différents formats de fichiers ? Blogoscopie : une industrialisation de Wikio shopping en quelque sorte, non ? Piithie : une sorte de Google Trends si je comprends bien. RPM2 : Là nous touchons le saint graal de l'accès à l'information. Un tel système serait effectivement intéressant dans un contexte professionnel, mais également à titre individuel s'il était dérivé en un service web (le futur de Wikio ?)
Après les formulaires et les images, les animations flash
Après les formulaires et les images, c'est au tour des animations Flash de "passer à la casserole" chez Google.
Elles sont a priori mieux indexées par le moteur de recherche (toujours) et ce sera bientôt le cas également pour Yahoo (dans les prochains jours). Jusqu'à maintenant, il fallait créer un site équivalent en HTML. Bof, bof...
Dans l'immédiat, seul le contenu textuel sera lu, qu'il soit statique ou dynamique. Il fallait s'y attendre vu la récente association d'Adobe et des deux géants de la recherche. Adobe aurait ainsi fourni quelques informations sur son lecteur Flash.
(vu chez Yahoo).
Elles sont a priori mieux indexées par le moteur de recherche (toujours) et ce sera bientôt le cas également pour Yahoo (dans les prochains jours). Jusqu'à maintenant, il fallait créer un site équivalent en HTML. Bof, bof...
Dans l'immédiat, seul le contenu textuel sera lu, qu'il soit statique ou dynamique. Il fallait s'y attendre vu la récente association d'Adobe et des deux géants de la recherche. Adobe aurait ainsi fourni quelques informations sur son lecteur Flash.
Jérôme : Effectivement, les référenceurs doivent accueillir cette annonce avec joie.Alors, bientôt plus de doublons HTML ?
Petite parenthèse sur le monde dynamique de l'Open Source pour signaler que Nutch intègre depuis longtemps un parser Flash et que suite à la publication des spécifications Flash d'Adobe, Tika (la librairie de manipulation de contenu utilisée par Nutch) devrait prochainement intégrer un parser Flash encore plus performant.
Tout ça pour dire que l'intégration du contenu flash dans Google et Yahoo! n'était à mon avis pas un problème technique, mais un problème politique et/ou stratégique. Je rejoint donc le scepticisme et les interrogations de Christian Fauré : "Faut-il se réjouir de l'indexation de Flash ?"
(vu chez Yahoo).
25 juin 2008
La fin d'une époque
On apprend sur inFLUX que le guide Web Yahoo en français n'est plus. Sniff, sniff... La fin d'une époque et aussi un peu de nostalgie quand on repense aux annuaires qui ont bercé les années 90, comme Lokace, Nomade, Ecila ou encore Looksmart.
Je crois que je vais replonger dans "Internet comment trouver tout ce que vous voulez" paru aux éditions Logiques Editions. Si je retrouve le bouquin dans ma bibliothèque, je vous fais un scan de l'introduction ;)
Je crois que je vais replonger dans "Internet comment trouver tout ce que vous voulez" paru aux éditions Logiques Editions. Si je retrouve le bouquin dans ma bibliothèque, je vous fais un scan de l'introduction ;)
Jérôme : Aux dernières nouvelles de Maître Andrieu Toujous Bien Informé, l'annuaire français existe toujours, mais a changé d'adresse et est incorrectement linké... Olivier s'inquiète d'ailleurs à juste raison à propos de Yahoo! (même si à priori, Yahoo Search recrute en France).
Emilie : merci pour cette précision qui s'avérait indispensable ! Nous avons participé à la rumeur générale tout en l'ayant remise en cause :)
Google va sanctionner les FSB
FSB ? Mais c'est quoi ce truc encore ?
Extrait de l'article de Tubbydev :
Extrait de l'article de Tubbydev :
Ce terme souligne essentiellement une pratique de "petits malins qui cherchent l’audience et essaient de se placer le plus vite possible dans Google en partant du principe qu’y être AVANT les faits... le fait", en rédigeant des articles sur des choses qui n'ont pas encore eu lieu.Un exemple cité dans l'article :
"Divertissonsnous.com met en ligne des articles annonçant qu’il a les vidéos des buts et tout le monde se précipite dessus. Dès que les vidéos sont disponibles, il les met en ligne et est en pointe puisque déjà en place depuis pas mal de temps."Et Google n'aime pas du tout, du tout et envisage donc de sanctionner cette pratique dite "bientôt web".
Jérôme : Certains référenceurs sont vraiment incroyables ! Je les admire pour leur créativité et je les déteste parce qu'ils pourrissent les résultats des moteurs. En tous cas, j'aimerais bien savoir comment Google va pouvoir identifier le "bientôt web", car c'est loin d'être évident !
19 juin 2008
La recherche audio et video, c'est pour bientôt ?
56 équipes issues de 17 pays différents vont, dans les prochains mois, plancher sur le développement d'une technologie de recherche basée sur l'analyse audio et vidéo (cela implique donc de la reconnaissance vocale et de la reconnaissance de formes comme les visages). Ils ont à leur disposition du contenu réel (documentaires télévisés, publicités et actualités) fourni par l'A*Star, qui est à l'origine de cette initiative.Il existe déjà des systèmes de ce type mais ils utilisés dans des contextes bien précis comme la Défense. Les vidéos grand public sont autrement plus complexes à analyser : quantité de voix, qualité de l'image, multitude de choses à reconnaître, etc. Blinkx s'en sort plutôt bien...
Jérôme : Comme nous l'avons vu hier avec Facesaerch, il existe déjà par exemple chez Google des technologies de reconnaissance de portraits qui fonctionnent pas mal. Nous avons également des outils de recherche visuelle comme like.com (en maintenance au moment où j'écris ces lignes) qui est vraiment très intéressant. Donc oui, je crois à la possibilité de rajouter automatiquement des méta données aux vidéos et aux images. Concernant la voix, il y a maintenant longtemps (depuis la popularisation du téléphone) que de nombreuses recherches existent sur le sujet (c'est d'ailleurs il me semble les premiers travaux à avoir utilisé les N-Grams). Donc, encore une fois oui, je crois que d'un point de vue technologique de tels moteurs peuvent voir le jour dans un avenir proche. Mais d'un point de vue économique, je suis plus réservé : le traitement des flux vidéos et photos est bien plus gourmand en ressources que celui des simples textes. Qui pourra se permettre de lancer un tel projet à l'échelle du Web ? Quel sera le modèle économique pour que les revenus équilibrent les ressources nécessaires à ce genre de moteur ? De plus il ne faut pas oublier qu'un tel traitement nécessite une forte composante linguistique : ce qui signifie qu'un tel moteur n'est pas aussi facilement transposable d'une langue à l'autre que peut l'être un moteur de recherche par mots clés.On peut s'attendre dans les prochaines années à l'apparition de moteurs de recherche nouvelle génération qui permettront, qui sait, de soumettre en guise de requête un extrait vidéo ou audio. Info ou intox ?
Bref, oui, j'y crois d'un point de vue technologique. Mais je suis plus réservé sur la faisabilité économique.
Inscription à :
Messages (Atom)
Chercher
Archives
Derniers Billets
Derniers Visiteurs
Catégories
- 2008
- abondance
- addict-o-matic
- adobe
- aixtal
- ajax
- alternative
- annuaires
- audio
- auteur
- bart
- bientôt web
- blinkx
- blogoscopie
- boss
- cartographie
- cashback
- dapper
- don organe
- doona
- duplication
- ebay
- emilie ogez
- enquête
- evri
- facesearch
- findloo
- flash
- forum
- france
- fsb
- glue
- i-expo
- icones
- image
- images
- jean véronis
- job
- live search
- microformat
- microsoft
- moteur recherche
- motrech
- mots-clés
- nutch
- pertinence
- piithie
- powerset
- quaero
- recherche
- reconnaissance de la parole
- reconnaissance des formes
- robots balises html exclusion protocole
- rpm2
- répertoires
- searchmonkey
- similarr
- simpsons
- sinequa
- spam
- suggestion
- sémantique
- taille web
- taux rebond
- texcoop
- tineeye
- tutoriel
- video
- web 3.0
- web invisible
- web sémantique
- web3
- yahoo
- écologie
- évènement
A propos de ce blog
Le blog motrech existe depuis le mois de Février 2005. Tout comme la liste du même nom, il est (bien sur!) consacré aux moteurs de recherche.
Propulsé à l'origine par Jérôme Charron, Emilie Ogez a embarquée à bord en Avril 2008.