focused crawling Latest Research Papers

An intelligent system for focused crawling from Big Data sources

Expert Systems with Applications ◽

10.1016/j.eswa.2021.115560 ◽

2021 ◽

pp. 115560

Author(s):

Ida Bifulco ◽

Stefano Cirillo ◽

Christian Esposito ◽

Roberta Guadagni ◽

Giuseppe Polese

Keyword(s):

Big Data ◽

Intelligent System ◽

Data Sources ◽

Focused Crawling

An Advanced Approach on Focused Crawling with Anchor Text

Current Topics on Mathematics and Computer Science Vol. 3 ◽

10.9734/bpi/ctmcs/v3/2547f ◽

2021 ◽

pp. 22-35

Author(s):

S. Subatra Devi

Keyword(s):

Focused Crawling ◽

Anchor Text

Focused crawling application for building corporate knowledge base

2021 3rd International Congress on Human-Computer Interaction, Optimization and Robotic Applications (HORA) ◽

10.1109/hora52670.2021.9461366 ◽

2021 ◽

Author(s):

Neyko Neykov ◽

Svetlana Stefanova

Keyword(s):

Knowledge Base ◽

Focused Crawling

Emotional attitudes towards procrastination in people: A large-scale sentiment-focused crawling analysis

Computers in Human Behavior ◽

10.1016/j.chb.2020.106391 ◽

2020 ◽

Vol 110 ◽

pp. 106391 ◽

Cited By ~ 1

Author(s):

Zhiyi Chen ◽

Rong Zhang ◽

Ting Xu ◽

Yaqi Yang ◽

Junyu Wang ◽

...

Keyword(s):

Large Scale ◽

Focused Crawling

A Review of Focused Crawling Schemes for Search Engine

Smart Trends in Computing and Communications: Proceedings of SmartCom 2020 - Smart Innovation, Systems and Technologies ◽

10.1007/978-981-15-5224-3_30 ◽

2020 ◽

pp. 311-317

Author(s):

Suresh Kumar ◽

Manisha Gupta

Keyword(s):

Search Engine ◽

Focused Crawling

Open-set web genre identification

10.12681/eadd/46881 ◽

2019 ◽

Author(s):

Δημήτριος Πρίτσος

Keyword(s):

World Wide Web ◽

Ensemble Learning ◽

World Wide ◽

Focused Crawling ◽

Open Set ◽

Genre Identification

Ο παγκόσμιος Ιστός (World Wide Web) αναπτύσσεται συνεχώς και οι άνθρωποι χρησιμοποιούν πληροφορίες από ιστοσελίδες για να πραγματοποιήσουν καθημερινές δραστηριότητες. Υπάρχει επιτακτική ανάγκη να διευκολυνθεί η πρόσβαση σε αυτό το τεράστιο απόθεμα πληροφοριών με τρόπο που να συμφωνεί με τον τρόπο σκέψης των χρηστών. Το είδος (genre) των ιστοσελίδων είναι ένας σημαντικός παράγοντας για να διακρίνουμε της ιδιότητές τους. Τα είδη του Ιστού (π.χ. blogs, e-shop, FAQs, κτλ.) αναφέρονται στην μορφή, την δομή και το επικοινωνιακό σκοπό των ιστοσελίδων παρά στο θέμα τους. Η Αυτόματη Αναγνώριση Είδους Ιστοσελίδων (ΑΑΕΙ) παρέχει δυνατότητα βελτίωσης της επίδοσης των συστημάτων ανάκτησης πληροφορίας επιτρέποντας την δημιουργία περίπλοκων ερωτήσεων που συνδυάζουν πληροφορία θέματος και είδους καθώς και την κατάταξη και ομαδοποίηση των αποτελεσμάτων αναζήτησης με βάση το είδος τους. Εξειδικευμένες συλλογές εγγράφων μπορούν να συλλεχθούν υιοθετώντας την εστιασμένη ανίχνευση (focused crawling) με βάση το είδος. Η αξιοπιστία της πληροφορίας των ιστοσελίδων μπορεί να βελτιωθεί σημαντικά αν υπάρχει διαθέσιμη πληροφορία για το είδος τους. Εφαρμογές κυβερνο-ασφάλειας, όπως το anti-phishing, μπορούν επίσης να ενισχυθούν συμπεριλαμβάνοντας πληροφορία για το είδος των ιστοσελίδων. Σε περίπτωση που εργαλεία επεξεργασίας φυσικής γλώσσας πρέπει να εφαρμοστούν στο κειμενικό μέρος των ιστοσελίδων, η γνώση του είδους τους επιτρέπει την επιλογή κατάλληλων μοντέλων που έχουν εκπαιδευτεί να χειρίζονται αξιόπιστα παρόμοια κείμενα. Η υπάρχουσες έρευνες στην ΑΑΕΙ κυρίως ακολουθούν το σενάριο της ταξινόμησης κλειστού συνόλου όπου δεδομένου ενός προκαθορισμένου συνόλου ειδών και παραδειγμάτων εκπαίδευσης για καθένα από τα είδη αυτά, ο στόχος είναι να ανατεθεί οποιαδήποτε νέα ιστοσελίδα σε ένα από τα γνωστά είδη. Όμως, αυτό δεν ταιριάζει με τις περισσότερες από τις εφαρμογές που σχετίζονται με την ΑΑΕΙ. Καταρχάς, δεν υπάρχει γενική συμφωνία ως προς τον ορισμό ενός μεγάλου συνόλου ειδών που θα καλύπτει το μεγαλύτερο κομμάτι του Ιστού. Θα πρέπει να αναμένεται ότι μεγάλος όγκος ιστοσελίδων δεν θα ανήκουν σε κανένα από τα προκαθορισμένα είδη. Αυτές οι ιστοσελίδες μπορούν να θεωρηθούν ως θόρυβος στην ΑΑΕΙ. Επιπλέον, τα είδη των ιστοσελίδων εξελίσσονται στον χρόνο, νέα είδη αναδύονται και υπάρχοντα είδη τροποποιούνται (π.χ. blogs και micro-blogs). Φαίνεται λοιπόν ότι είναι δικαιολογημένο να υιοθετηθεί το σενάριο ανοιχτού συνόλου για την ΑΑΕΙ. Στις πολύ λίγες υπάρχουσες μελέτες που εστιάζουν στην ΑΑΕΙ ανοιχτού συνόλου δεν έχει εφαρμοστεί αντικειμενική αξιολόγηση που θα αποκαλύψει τις πραγματικές δυνατότητές τους. Στην παρούσα διατριβή, αναπτύσσουμε τρεις μεθόδους ΑΑΕΙ ανοιχτού συνόλου. Η πρώτη μέθοδος (OCSVM) ακολουθεί το παράδειγμα της ταξινόμησης μιας κλάσης όπου στη φάση της εκπαίδευσης χρησιμοποιούνται μόνο θετικά παραδείγματα από μία συγκεκριμένη κλάση κάθε φορά. Μια άλλη μέθοδος (RFSE) ακολουθεί την λογική της μάθησης συνόλων (ensemble learning) και εφαρμόζει τυχαία επιλογή χαρακτηριστικών για να αποφύγει την "κατάρα" της διαστασιμότητας. Η τρίτη μέθοδος (NNDR) είναι τροποποίηση του ταξινομητή κ-κοντινότερων γειτόνων και προσπαθεί να εκτιμήσει το ρίσκο ανοιχτού χώρου (στην περιοχή που βρίσκεται μακριά από τα θετικά παραδείγματα εκπαίδευσης μιας γνωστής κλάσης μπορεί να βρίσκονται παραδείγματα μιας άλλης, άγνωστης, κλάσης). Επιπλέον, εξετάζουμε διάφορα σχήματα αναπαράστασης κειμένου περιλαμβάνοντας χαρακτηριστικά χαμηλού επιπέδου και ανεξάρτητα γλώσσας όπως τα ν-γράμματα λέξεων και χαρακτήρων καθώς και χαρακτηριστικά που απαιτούν συντακτική ανάλυση των κειμένων όπως τα ν-γράμματα μερών του λόγου. Επίσης, εισάγουμε στην ΑΑΕΙ την χρήση κατανεμημένων αναπαραστάσεων που εξάγονται από μοντέλα γλώσσας νευρωνικών δικτύων. Μια άλλη κύρια συνεισφορά της παρούσας διατριβής είναι το πλαίσιο αξιολόγησης που προτείνουμε για μεθόδους ΑΑΕΙ ανοιχτού συνόλου. Σε αντίθεση με προηγούμενες εργασίες στην περιοχή αυτή, εστιάζουμε και σε αδόμητο θόρυβο και σε δομημένο θόρυβο. Το πρώτο αναφέρεται στην περίπτωση που ο θόρυβος αποτελείται από μία τυχαία συλλογή ιστοσελίδων χωρίς καμία πληροφορία για το είδος τους. Ο δομημένος θόρυβος, απ’ την άλλη, αποτελείται από ιστοσελίδες συγκεκριμένων ειδών. Υιοθετούμε την χρήση μέτρων αξιολόγησης ειδικά για ταξινόμηση ανοιχτού συνόλου που είναι παραλλαγές των γνωστών μέτρων ακρίβειας, ανάκλησης και μέτρου F1. Τα μέτρα αυτά αποκλείουν τα αληθώς θετικά (true positives) παραδείγματα της άγνωστης κλάσης. Επιπλέον, χρησιμοποιούμε γραφικές μεθόδους αξιολόγησης που αναπαριστούν την επίδοσης των εξεταζόμενων μεθόδων υπό διάφορες συνθήκες. Επίσης, εισάγουμε την χρήση του ελέγχου ανοικτότητας (openness) στις μελέτες ΑΑΕΙ που επιτρέπει τον έλεγχο της ομογένειας του θορύβου και της δυσκολίας του προβλήματος. Περιγράφονται τα πειράματα που εκτελέστηκαν για την αξιολόγηση των προτεινόμενων μεθόδων ΑΑΕΙ με την χρήση του πλαισίου αξιολόγησης ανοιχτού συνόλου όταν ο θόρυβος είναι είτε αδόμητος είτε δομημένος. Η μέθοδος βάσει συνόλων (RFSE) πέτυχε τα καλύτερα αποτελέσματα συνολικά αποδεικνύοντας την ικανότητά της να χειριστεί δεδομένα υψηλής διαστασιμότητας και αραιότητας (sparseness). Η μέθοδος NNDR βελτιώνεται σημαντικά όταν συνδυάζεται με κατανεμημένες αναπαραστάσεις που παρέχουν συμπαγή και πυκνά διανύσματα. Αυτή η μέθοδος είναι πολύ ανταγωνιστική ειδικά όταν δίνεται έμφαση στην ακρίβεια έναντι της ανάκλησης. Αυτό είναι σημαντικό δεδομένου ότι σε αρκετές εφαρμογές ΑΑΕΙ (π.χ. κατάταξη αποτελεσμάτων αναζήτησης) προτιμάται η βελτιστοποίηση της ακρίβειας. Η μέθοδος που βασίζεται στην μάθηση μιας κλάσης (OCSVM) γενικά δεν είναι ανταγωνιστική. Όμως, υπερέχει της RFSE για μεγάλες τιμές ανοικτότητας, δηλαδή όταν πολύ λίγα γνωστά είδη είναι διαθέσιμα και ο θόρυβος είναι εξαιρετικά ετερογενής. Διάφορες ιδέες για την επιπλέον βελτίωση των αποτελεσμάτων συζητούνται.

A new architecture for improving focused crawling using deep neural network

Journal of Intelligent & Fuzzy Systems ◽

10.3233/jifs-182683 ◽

2019 ◽

Vol 37 (1) ◽

pp. 1233-1245 ◽

Cited By ~ 2

Author(s):

M.E. ElAraby ◽

Sherihan M. Abuelenin ◽

Hossam M. Moftah ◽

M.Z. Rashad

Keyword(s):

Neural Network ◽

Deep Neural Network ◽

Focused Crawling

An Intelligently-Focused Crawling for Filtering the e-Learning Documents Using Optimized Hidden Na ̈ıve Bayes Classifier,

Applied Mathematics & Information Sciences ◽

10.18576/amis/130412 ◽

2019 ◽

Vol 13 (4) ◽

pp. 603-609

Author(s):

A., S. A. Sahaaya Arul Ramachandran, Mary

Keyword(s):

Bayes Classifier ◽

Focused Crawling ◽

E Learning

Focused crawling from the basic approach to context aware notification architecture

Indonesian Journal of Electrical Engineering and Computer Science ◽

10.11591/ijeecs.v13.i2.pp492-498 ◽

2019 ◽

Vol 13 (2) ◽

pp. 492

Author(s):

Venugopal Boppana ◽

Sandhya P

Keyword(s):

Context Aware ◽

Huge Amount ◽

Focused Crawling ◽

Web Documents ◽

Cpu Time ◽

Related Information ◽

Wide Range ◽

Short Time ◽

Focused Crawlers ◽

The Given

<p><span lang="EN-IN">The large and wide range of information has become a tough time for crawlers and search engines to extract related information. This paper discusses about focused crawlers also called as topic specific crawler and variations of focused crawlers leading to distributed architecture, i.e., context aware notification architecture. To get the relevant pages from a huge amount of information available in the internet we use the focused crawler. This can bring out the relevant pages for the given topic with less number of searches in a short time. Here the input to the focused crawler is a topic specified using exemplary documents, but not using the keywords. Focused crawlers avoid the searching of all the web documents instead it searches over the links that are relevant to the crawler boundary. The Focused crawling mechanism helps us to save CPU time to large extent to keep the crawl up-to-date.</span></p>

A Novel Approach on Focused Crawling With Anchor Text

Asian Journal of Computer Science and Technology ◽

10.51983/ajcst-2018.7.1.1849 ◽

2018 ◽

Vol 7 (1) ◽

pp. 7-15

Author(s):

S. Subatra Devi

Keyword(s):

Search Engines ◽

Web Pages ◽

Focused Crawling ◽

Anchor Text ◽

Novel Approach ◽

The Web

A novel approach with focused crawling for various anchor texts is discussed in this paper. Most of the search engines search the web with the anchor text to retrieve the relevant pages and answer the queries given by the users. The crawler usually searches the web pages and filters the unnecessary pages which can be done through focused crawling. A focused crawler generates its boundary to crawl the relevant pages based on the link and ignores the irrelevant pages on the web. In this paper, an effective focused crawling method is implemented to improve the quality of the search. Here, three learning phases are considered namely, content-based, link-based and sibling-based learning are undergone to improve the navigation of the search. In this approach, the crawler crawls through the relevant pages efficiently and more relevant pages are retrieved in an effective way. It is proved experimentally that more number of relevant pages are retrieved for different anchor texts with three learning phases using focused crawling.

focused crawling
Recently Published Documents

TOTAL DOCUMENTS

H-INDEX

An intelligent system for focused crawling from Big Data sources

An Advanced Approach on Focused Crawling with Anchor Text

Focused crawling application for building corporate knowledge base

Emotional attitudes towards procrastination in people: A large-scale sentiment-focused crawling analysis

A Review of Focused Crawling Schemes for Search Engine

Open-set web genre identification

A new architecture for improving focused crawling using deep neural network

An Intelligently-Focused Crawling for Filtering the e-Learning Documents Using Optimized Hidden Na ̈ıve Bayes Classifier,

Focused crawling from the basic approach to context aware notification architecture

A Novel Approach on Focused Crawling With Anchor Text

Export Citation Format

focused crawlingRecently Published Documents

TOTAL DOCUMENTS

H-INDEX

An intelligent system for focused crawling from Big Data sources

An Advanced Approach on Focused Crawling with Anchor Text

Focused crawling application for building corporate knowledge base

Emotional attitudes towards procrastination in people: A large-scale sentiment-focused crawling analysis

A Review of Focused Crawling Schemes for Search Engine

Open-set web genre identification

A new architecture for improving focused crawling using deep neural network

An Intelligently-Focused Crawling for Filtering the e-Learning Documents Using Optimized Hidden Na ̈ıve Bayes Classifier,

Focused crawling from the basic approach to context aware notification architecture

A Novel Approach on Focused Crawling With Anchor Text

focused crawling
Recently Published Documents