scholarly journals Open-set web genre identification

2019 ◽  
Author(s):  
Δημήτριος Πρίτσος

Ο παγκόσμιος Ιστός (World Wide Web) αναπτύσσεται συνεχώς και οι άνθρωποι χρησιμοποιούν πληροφορίες από ιστοσελίδες για να πραγματοποιήσουν καθημερινές δραστηριότητες. Υπάρχει επιτακτική ανάγκη να διευκολυνθεί η πρόσβαση σε αυτό το τεράστιο απόθεμα πληροφοριών με τρόπο που να συμφωνεί με τον τρόπο σκέψης των χρηστών. Το είδος (genre) των ιστοσελίδων είναι ένας σημαντικός παράγοντας για να διακρίνουμε της ιδιότητές τους. Τα είδη του Ιστού (π.χ. blogs, e-shop, FAQs, κτλ.) αναφέρονται στην μορφή, την δομή και το επικοινωνιακό σκοπό των ιστοσελίδων παρά στο θέμα τους. Η Αυτόματη Αναγνώριση Είδους Ιστοσελίδων (ΑΑΕΙ) παρέχει δυνατότητα βελτίωσης της επίδοσης των συστημάτων ανάκτησης πληροφορίας επιτρέποντας την δημιουργία περίπλοκων ερωτήσεων που συνδυάζουν πληροφορία θέματος και είδους καθώς και την κατάταξη και ομαδοποίηση των αποτελεσμάτων αναζήτησης με βάση το είδος τους. Εξειδικευμένες συλλογές εγγράφων μπορούν να συλλεχθούν υιοθετώντας την εστιασμένη ανίχνευση (focused crawling) με βάση το είδος. Η αξιοπιστία της πληροφορίας των ιστοσελίδων μπορεί να βελτιωθεί σημαντικά αν υπάρχει διαθέσιμη πληροφορία για το είδος τους. Εφαρμογές κυβερνο-ασφάλειας, όπως το anti-phishing, μπορούν επίσης να ενισχυθούν συμπεριλαμβάνοντας πληροφορία για το είδος των ιστοσελίδων. Σε περίπτωση που εργαλεία επεξεργασίας φυσικής γλώσσας πρέπει να εφαρμοστούν στο κειμενικό μέρος των ιστοσελίδων, η γνώση του είδους τους επιτρέπει την επιλογή κατάλληλων μοντέλων που έχουν εκπαιδευτεί να χειρίζονται αξιόπιστα παρόμοια κείμενα. Η υπάρχουσες έρευνες στην ΑΑΕΙ κυρίως ακολουθούν το σενάριο της ταξινόμησης κλειστού συνόλου όπου δεδομένου ενός προκαθορισμένου συνόλου ειδών και παραδειγμάτων εκπαίδευσης για καθένα από τα είδη αυτά, ο στόχος είναι να ανατεθεί οποιαδήποτε νέα ιστοσελίδα σε ένα από τα γνωστά είδη. Όμως, αυτό δεν ταιριάζει με τις περισσότερες από τις εφαρμογές που σχετίζονται με την ΑΑΕΙ. Καταρχάς, δεν υπάρχει γενική συμφωνία ως προς τον ορισμό ενός μεγάλου συνόλου ειδών που θα καλύπτει το μεγαλύτερο κομμάτι του Ιστού. Θα πρέπει να αναμένεται ότι μεγάλος όγκος ιστοσελίδων δεν θα ανήκουν σε κανένα από τα προκαθορισμένα είδη. Αυτές οι ιστοσελίδες μπορούν να θεωρηθούν ως θόρυβος στην ΑΑΕΙ. Επιπλέον, τα είδη των ιστοσελίδων εξελίσσονται στον χρόνο, νέα είδη αναδύονται και υπάρχοντα είδη τροποποιούνται (π.χ. blogs και micro-blogs). Φαίνεται λοιπόν ότι είναι δικαιολογημένο να υιοθετηθεί το σενάριο ανοιχτού συνόλου για την ΑΑΕΙ. Στις πολύ λίγες υπάρχουσες μελέτες που εστιάζουν στην ΑΑΕΙ ανοιχτού συνόλου δεν έχει εφαρμοστεί αντικειμενική αξιολόγηση που θα αποκαλύψει τις πραγματικές δυνατότητές τους. Στην παρούσα διατριβή, αναπτύσσουμε τρεις μεθόδους ΑΑΕΙ ανοιχτού συνόλου. Η πρώτη μέθοδος (OCSVM) ακολουθεί το παράδειγμα της ταξινόμησης μιας κλάσης όπου στη φάση της εκπαίδευσης χρησιμοποιούνται μόνο θετικά παραδείγματα από μία συγκεκριμένη κλάση κάθε φορά. Μια άλλη μέθοδος (RFSE) ακολουθεί την λογική της μάθησης συνόλων (ensemble learning) και εφαρμόζει τυχαία επιλογή χαρακτηριστικών για να αποφύγει την "κατάρα" της διαστασιμότητας. Η τρίτη μέθοδος (NNDR) είναι τροποποίηση του ταξινομητή κ-κοντινότερων γειτόνων και προσπαθεί να εκτιμήσει το ρίσκο ανοιχτού χώρου (στην περιοχή που βρίσκεται μακριά από τα θετικά παραδείγματα εκπαίδευσης μιας γνωστής κλάσης μπορεί να βρίσκονται παραδείγματα μιας άλλης, άγνωστης, κλάσης). Επιπλέον, εξετάζουμε διάφορα σχήματα αναπαράστασης κειμένου περιλαμβάνοντας χαρακτηριστικά χαμηλού επιπέδου και ανεξάρτητα γλώσσας όπως τα ν-γράμματα λέξεων και χαρακτήρων καθώς και χαρακτηριστικά που απαιτούν συντακτική ανάλυση των κειμένων όπως τα ν-γράμματα μερών του λόγου. Επίσης, εισάγουμε στην ΑΑΕΙ την χρήση κατανεμημένων αναπαραστάσεων που εξάγονται από μοντέλα γλώσσας νευρωνικών δικτύων. Μια άλλη κύρια συνεισφορά της παρούσας διατριβής είναι το πλαίσιο αξιολόγησης που προτείνουμε για μεθόδους ΑΑΕΙ ανοιχτού συνόλου. Σε αντίθεση με προηγούμενες εργασίες στην περιοχή αυτή, εστιάζουμε και σε αδόμητο θόρυβο και σε δομημένο θόρυβο. Το πρώτο αναφέρεται στην περίπτωση που ο θόρυβος αποτελείται από μία τυχαία συλλογή ιστοσελίδων χωρίς καμία πληροφορία για το είδος τους. Ο δομημένος θόρυβος, απ’ την άλλη, αποτελείται από ιστοσελίδες συγκεκριμένων ειδών. Υιοθετούμε την χρήση μέτρων αξιολόγησης ειδικά για ταξινόμηση ανοιχτού συνόλου που είναι παραλλαγές των γνωστών μέτρων ακρίβειας, ανάκλησης και μέτρου F1. Τα μέτρα αυτά αποκλείουν τα αληθώς θετικά (true positives) παραδείγματα της άγνωστης κλάσης. Επιπλέον, χρησιμοποιούμε γραφικές μεθόδους αξιολόγησης που αναπαριστούν την επίδοσης των εξεταζόμενων μεθόδων υπό διάφορες συνθήκες. Επίσης, εισάγουμε την χρήση του ελέγχου ανοικτότητας (openness) στις μελέτες ΑΑΕΙ που επιτρέπει τον έλεγχο της ομογένειας του θορύβου και της δυσκολίας του προβλήματος. Περιγράφονται τα πειράματα που εκτελέστηκαν για την αξιολόγηση των προτεινόμενων μεθόδων ΑΑΕΙ με την χρήση του πλαισίου αξιολόγησης ανοιχτού συνόλου όταν ο θόρυβος είναι είτε αδόμητος είτε δομημένος. Η μέθοδος βάσει συνόλων (RFSE) πέτυχε τα καλύτερα αποτελέσματα συνολικά αποδεικνύοντας την ικανότητά της να χειριστεί δεδομένα υψηλής διαστασιμότητας και αραιότητας (sparseness). Η μέθοδος NNDR βελτιώνεται σημαντικά όταν συνδυάζεται με κατανεμημένες αναπαραστάσεις που παρέχουν συμπαγή και πυκνά διανύσματα. Αυτή η μέθοδος είναι πολύ ανταγωνιστική ειδικά όταν δίνεται έμφαση στην ακρίβεια έναντι της ανάκλησης. Αυτό είναι σημαντικό δεδομένου ότι σε αρκετές εφαρμογές ΑΑΕΙ (π.χ. κατάταξη αποτελεσμάτων αναζήτησης) προτιμάται η βελτιστοποίηση της ακρίβειας. Η μέθοδος που βασίζεται στην μάθηση μιας κλάσης (OCSVM) γενικά δεν είναι ανταγωνιστική. Όμως, υπερέχει της RFSE για μεγάλες τιμές ανοικτότητας, δηλαδή όταν πολύ λίγα γνωστά είδη είναι διαθέσιμα και ο θόρυβος είναι εξαιρετικά ετερογενής. Διάφορες ιδέες για την επιπλέον βελτίωση των αποτελεσμάτων συζητούνται.

2005 ◽  
Vol 4 (2) ◽  
pp. 477-482
Author(s):  
Prasant Yadav ◽  
Mrs Mala Kalra ◽  
Dr. K.P Yadav

The enormous growth of the World Wide Web in the recent years has made it important to perform resources discovery efficiently. The rapid growth of World Wide Web poses (Doubles in size approximately every eight months) unprecedented scaling challenges for general purpose crawler and search engine. Finding useful information from the web which has a large and distributed structure required efficient search strategies. As ontology plays an important role in providing controlled vocabulary of concepts, each with an explicitly defined and machine process able semantics. In this paper ,we propose the novel concept of intelligent crawling of Ontology based content focused crawling , the new approach that analyses it crawl boundary to find the links that are likely to be the most relevant for the crawl  while a boundary irrelevant region of the web. Through our new focused crawling technique we solve the polysemy (refer to word with multiple meaning) and synonymy (refers to multiple word having the same meaning) semantic net problem. Also instead of searching in the whole web, our proposed technique will search in the ontology build by us that is updated periodically after a very short interval than instead of displaying all the information that is not related to the user need, we will display only relevant and related information. Our purposed work give us two  fold benefit , firstly only focused result are retrieved  which reduce the number of results entreated and secondly, due to focused searching irrelevant result are pruned which reduce the time.


Author(s):  
Ralf Demmel

Zahlreiche Falldarstellungen sowie die Ergebnisse einer Reihe empirischer Untersuchungen lassen vermuten, dass die exzessive Nutzung von Onlinediensten mit erheblichen Beeinträchtigungen der Lebensführung einhergehen kann. In der Literatur wird oftmals auf Ähnlichkeiten zwischen der sog. <I>Internet Addiction</I> einerseits und Abhängigkeitserkrankungen oder Störungen der Impulskontrolle andererseits hingewiesen. Die Validität des Konstrukts ist jedoch umstritten. In Abhängigkeit von der jeweiligen Symptomatik können verschiedene Subtypen der Internet»sucht« beschrieben werden:<I><OL><LI>addiction to online sex, <LI>addiction to online gambling, <LI>addiction to online relationships, <LI>addiction to web cruising and e-mail checking</I> und <I><LI>addiction to multi-user dungeons.</OL></I> Zur Prävalenz der Internet»sucht« in der Allgemeinbevölkerung liegen bislang keine zuverlässigen Schätzungen vor. Verschiedene Personenmerkmale (Alter, Geschlecht, psychische Störungen etc.) sowie spezifische Merkmale der verschiedenen Onlinedienste (Anonymität, Ereignishäufigkeit etc.) scheinen das Risiko einer exzessiven und somit möglicherweise schädlichen Nutzung zu erhöhen. Die vorliegenden Daten sind widersprüchlich und erlauben lediglich vorläufige Schlussfolgerungen, da sich die Soziodemographie der Nutzer innerhalb weniger Jahre deutlich verändert hat und darüber hinaus hinsichtlich der Nutzung des World Wide Web nach wie vor erhebliche geographische Ungleichheiten vorausgesetzt werden müssen. Vor dem Hintergrund erheblicher Forschungsdefizite einerseits und zahlreicher »Schnittstellen« andererseits erscheint es naheliegend und dringend notwendig, dass die Forschung auf diesem Gebiet künftig in weitaus stärkerem Maße als bislang von den Fortschritten anderer Disziplinen profitiert. Aufgabe empirischer Forschung sollte neben der Entwicklung reliabler und valider Erhebungsinstrumente und der Durchführung aufwändiger Längsschnittstudien an repräsentativen Zufallsstichproben die Formulierung evidenz-basierter Behandlungsempfehlungen sein.


1999 ◽  
Vol 43 (1) ◽  
pp. 46-54 ◽  
Author(s):  
Hartmut Wandke ◽  
Jörn Hurtienne
Keyword(s):  

Zusammenfassung. Das World Wide Web (WWW) entwickelte sich zum umfangreichsten und am häufigsten genutzten Teil des Internets. In einer empirischen Studie wurde untersucht, wie Anfänger bei der Informationsrecherche im WWW vorgehen. Die Vorgehensweise der Benutzer wurde protokolliert. Es zeigte sich, daß sie mit zunehmender Komplexität der Suchaufgaben bedeutend mehr zusätzliche Schritte benötigen, häufiger Hilfe benötigen und Schwierigkeiten bei der Orientierung im Netz haben. Die Benutzer navigieren hauptsächlich mit Hilfe von inhaltlichen Links auf das vermutete Ziel hin und mit den BACK- und HOME-Funktionen des Browser zurück. Bestimmte Seiten werden oft wiederholt angesteuert. Ein großer Teil des Navigationsverhaltens ist durch unmittelbare Hin- und Zurückbewegungen gekennzeichnet. Die Suche nach Links auf einer WWW-Seite verläuft oft nicht optimal. Ursachen sind: eine selbstabbrechende Suche bei nur teilweiser Übereinstimmung zwischen Ziel- und Linkinformation und der Verzicht auf das Scrollen längerer Seiten. Aus den Ergebnissen können Schlußfolgerungen für die Gestaltung der Struktur von Informationsangeboten auf einzelnen WWW-Servern und für das Layout von WWW-Seiten gezogen werden.


2009 ◽  
Author(s):  
Blair Williams Cronin ◽  
Ty Tedmon-Jones ◽  
Lora Wilson Mau

1995 ◽  
Vol 34 (01/02) ◽  
pp. 75-78 ◽  
Author(s):  
R. D. Appel ◽  
O. Golaz ◽  
Ch. Pasquali ◽  
J.-C. Sanchez ◽  
A. Bairoch ◽  
...  

Abstract:The sharing of knowledge worldwide using hypermedia facilities and fast communication protocols (i.e., Mosaic and World Wide Web) provides a growth capacity with tremendous versatility and efficacy. The example of ExPASy, a molecular biology server developed at the University Hospital of Geneva, is striking. ExPASy provides hypermedia facilities to browse through several up-to-date biological and medical databases around the world and to link information from protein maps to genome information and diseases. Its extensive access is open through World Wide Web. Its concept could be extended to patient data including texts, laboratory data, relevant literature findings, sounds, images and movies. A new hypermedia culture is spreading very rapidly where the international fast transmission of documents is the central element. It is part of the emerging new “information society”.


2005 ◽  
Vol 67 (07) ◽  
Author(s):  
A Tautz ◽  
C Gärtner ◽  
S Schwarze
Keyword(s):  

Sign in / Sign up

Export Citation Format

Share Document