diff --git a/bin/importmediawiki.sh b/bin/importmediawiki.sh index ee43d81c4..fe83b5f2c 100755 --- a/bin/importmediawiki.sh +++ b/bin/importmediawiki.sh @@ -1,3 +1,3 @@ #!/bin/bash cd "`dirname $0`" -./apicall.sh /IndexImportWikimedia_p.html?file=$1 > /dev/null +./apicall.sh /IndexImportMediawiki_p.html?file=$1 > /dev/null diff --git a/htroot/CrawlResults.html b/htroot/CrawlResults.html index 419f5379e..709a9c037 100644 --- a/htroot/CrawlResults.html +++ b/htroot/CrawlResults.html @@ -75,7 +75,7 @@ ::

(7) Results from surrogates import

These records had been imported from surrogate files in DATA/SURROGATES/in

-

Use Case: place files with dublin core metadata content into DATA/SURROGATES/in or use an index import method (i.e. wikimedia import, OAI-PMH retrieval)

+

Use Case: place files with dublin core metadata content into DATA/SURROGATES/in or use an index import method (i.e. MediaWiki import, OAI-PMH retrieval)

#(/process)# diff --git a/htroot/IndexImportWikimedia_p.html b/htroot/IndexImportMediawiki_p.html similarity index 81% rename from htroot/IndexImportWikimedia_p.html rename to htroot/IndexImportMediawiki_p.html index ebf688816..fbb59c431 100644 --- a/htroot/IndexImportWikimedia_p.html +++ b/htroot/IndexImportMediawiki_p.html @@ -1,29 +1,29 @@ - YaCy '#[clientname]#': Wikimedia Dump Import + YaCy '#[clientname]#': MediaWiki Dump Import #%env/templates/metas.template%# #(import)#::#(/import)# - + #%env/templates/header.template%# #%env/templates/submenuIndexCreate.template%# -

Wikimedia Dump Import

+

MediaWiki Dump Import

#(import)#

#(status)#No import thread is running, you can start a new thread here::Bad input data: #[message]# #(/status)#

-
+
- Wikimedia Dump File Selection: select a xml file (which may be bz2- or gz-encoded) - You can import Wikipedia dumps here. An example is the file - - http://download.wikimedia.org/dewiki/20090311/dewiki-20090311-pages-articles.xml.bz2. + MediaWiki Dump File Selection: select a xml file (which may be bz2- or gz-encoded) + You can import MediaWiki dumps here. An example is the file + + http://dumps.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2.
- Dumps must be in XML format and may be compressed in gz or bz2. Uncompressed XML is also ok. + Dumps must be in XML format and may be compressed in gz or bz2. Place the file in the YaCy folder or in one of its sub-folders.
- +

diff --git a/htroot/IndexImportWikimedia_p.java b/htroot/IndexImportMediawiki_p.java similarity index 97% rename from htroot/IndexImportWikimedia_p.java rename to htroot/IndexImportMediawiki_p.java index 68e5d9cce..867a290c0 100644 --- a/htroot/IndexImportWikimedia_p.java +++ b/htroot/IndexImportMediawiki_p.java @@ -1,4 +1,4 @@ -// IndexImportWikimedia.java +// IndexImportMediawiki.java // ------------------------- // (C) 2009 by Michael Peter Christen; mc@yacy.net // first published 04.05.2009 on http://yacy.net @@ -31,7 +31,7 @@ import de.anomic.search.Switchboard; import de.anomic.server.serverObjects; import de.anomic.server.serverSwitch; -public class IndexImportWikimedia_p { +public class IndexImportMediawiki_p { public static serverObjects respond(final RequestHeader header, final serverObjects post, final serverSwitch env) { final serverObjects prop = new serverObjects(); diff --git a/htroot/env/templates/submenuIndexCreate.template b/htroot/env/templates/submenuIndexCreate.template index f5daf42fe..6387127b6 100644 --- a/htroot/env/templates/submenuIndexCreate.template +++ b/htroot/env/templates/submenuIndexCreate.template @@ -8,7 +8,7 @@

  • Full Site Crawl/
    Sitemap Loader
  • Crawl Start
    (Expert)
  • Network
    Scanner
  • -
  • Crawling of
    Media Wikis
  • +
  • Crawling of
    MediaWikis
  • Crawling of
    phpBB3 Forums
  • @@ -33,7 +33,7 @@

    Database Reader

    \ No newline at end of file diff --git a/htroot/mediawiki_p.java b/htroot/mediawiki_p.java index a73a29386..b181c9627 100644 --- a/htroot/mediawiki_p.java +++ b/htroot/mediawiki_p.java @@ -56,7 +56,7 @@ public class mediawiki_p { File dumpFile = new File(sb.getDataPath(), "DATA/HTCACHE/mediawiki/" + dump); if (!dumpFile.exists()) return post; MediawikiImporter.checkIndex(dumpFile); - MediawikiImporter.wikisourcerecord w = MediawikiImporter.find(title.replaceAll(" ", "_"), MediawikiImporter.idxFromWikimediaXML(dumpFile)); + MediawikiImporter.wikisourcerecord w = MediawikiImporter.find(title.replaceAll(" ", "_"), MediawikiImporter.idxFromMediawikiXML(dumpFile)); if (w == null) { return post; } diff --git a/locales/de.lng b/locales/de.lng index 0e4baf332..60d82e8bb 100644 --- a/locales/de.lng +++ b/locales/de.lng @@ -936,7 +936,7 @@ Statistics about \#\[domains\]\# domains in this stack:==Statistiken über #[dom \(7\) Results from surrogates import==\(7\) Ergebnisse aus dem Surrogat Import These records had been imported from surrogate files in DATA/SURROGATES/in==Diese Datensätze wurden aus Surrogat Dateien in DATA/SURROGATES/in importiert Use Case: place files with dublin core metadata content into DATA/SURROGATES/in or use an index import method==Anwendungsfall: Dateien mit Dublin Core Metadaten Inhalt in das DATA/SURROGATES/in kopieren oder eine der Index Import Funktionen nutzen -\(i.e. wikimedia import, OAI-PMH retrieval\)==(z.B. WikiMedia Dump Import, OAI-PMH Import\) +\(i.e. MediaWiki import, OAI-PMH retrieval\)==(z.B. MediaWiki Dump Import, OAI-PMH Import\) #Domain==Domain #URLs=URLs "delete all"=="Alle Löschen" @@ -1661,15 +1661,15 @@ The crawling queue==Der Crawler-Puffer Various stack files that belong to the crawling queue==Verschiedene Stack-Dateien, die zum Crawler-Puffer gehören #----------------------------- -#File: IndexImportWikimedia_p.html +#File: IndexImportMediawiki_p.html #--------------------------- -#Wikimedia Dump Import==Wikimedia Dump Import +#MediaWiki Dump Import==MediaWiki Dump Import No import thread is running, you can start a new thread here==Sie können hier einen neuen Thread starten, da aktuell kein Import Thread läuft Bad input data:==Ungültige Eingabedaten: -Wikimedia Dump File Selection: select a \'bz2\' file==Wikimedia Dump Datei Auswahl: Wähle eine 'bz2' Datei aus -You can import Wikipedia dumps here. An example is the file==Hier können Sie Wikimedia Dumps importieren. Als Beispiel dient die Datei -Dumps must be in XML format and must be encoded in bz2. Do not decompress the file after downloading!==Dumps müssen im XML Format vorliegen und bz2 komprimiert sein. Entpacken Sie die Datei nicht nach dem Herunterladen! -"Import Wikimedia Dump"=="Importiere Wikimedia Dump" +MediaWiki Dump File Selection: select a \'bz2\' file==MediaWiki Dump Datei Auswahl: Wähle eine 'bz2' Datei aus +You can import MediaWiki dumps here. An example is the file==Hier können Sie MediaWiki Dumps importieren. Als Beispiel dient die Datei +Dumps must be in XML format and may be compressed in gz or bz2. Place the file in the YaCy folder or in one of its sub-folders.==Dumps müssen im XML Format vorliegen und bz2 komprimiert sein. Legen Sie die Datei im YaCy-Verzeichnis oder einem Unterordner ab. +"Import MediaWiki Dump"=="Importiere MediaWiki Dump" When the import is started, the following happens:==Wenn der Import gestartet wird passiert Folgendes: The dump is extracted on the fly and wiki entries are translated into Dublin Core data format. The output looks like this:==Der Dump wird zur Laufzeit extrahiert und die Wiki Einträge werden in das Dublin Core Datenformat übersetzt. Die Ausgabe schaut wie folgt aus: Each 10000 wiki records are combined in one output file which is written to /DATA/SURROGATES/in into a temporary file.==Je 10000 Wiki Einträge werden zusammen in eine Ausgabedatei geschrieben und in /DATA/SURROGATES/in temporär gespeichert. @@ -3381,7 +3381,7 @@ Advanced Properties==Erweiterte Konfiguration #--------------------------- External Content Integration==Integration von externen Inhalten Import phpBB3 forum==Importiere phpBB3 Forum -Import Wikimedia dumps==Importiere Wikimedia Dumps +Import Mediawiki dumps==Importiere Mediawiki Dumps Import OAI-PMH Sources==Importiere OAI-PMH Quellen #----------------------------- @@ -3451,7 +3451,7 @@ Crawl Start
    \(Expert\)==Crawl Start
    (Experte) Network
    Scanner==Netzwerk
    Scanner #>Intranet
    Scanner<==>Intranet
    Scanner< Crawling of==Crawlen von -#Media Wikis==Media Wikis +#MediaWikis==MediaWikis >phpBB3 Forums<==>phpBB3 Foren< Content Import<==Content Importer< Network Harvesting<==Netzwerk Harvesting< @@ -3460,7 +3460,7 @@ Network Harvesting<==Netzwerk Harvesting< Database Reader<==Datenbank Leser< for phpBB3 Forums==für phpBB3 Foren Dump Reader for==Dump Leser für -#Wikimedia dumps==Wikimedia dumps +#MediaWiki dumps==MediaWiki dumps #----------------------------- #File: env/templates/submenuPortalIntegration.template diff --git a/source/net/yacy/document/importer/MediawikiImporter.java b/source/net/yacy/document/importer/MediawikiImporter.java index 2fb66685f..5ade909da 100644 --- a/source/net/yacy/document/importer/MediawikiImporter.java +++ b/source/net/yacy/document/importer/MediawikiImporter.java @@ -77,7 +77,7 @@ public class MediawikiImporter extends Thread implements Importer { private static final String pageend = ""; private static final byte[] pagestartb = UTF8.getBytes(pagestart); private static final byte[] pageendb = UTF8.getBytes(pageend); - private static final int docspermbinxmlbz2 = 800; // documents per megabyte in a xml.bz2 wikimedia dump + private static final int docspermbinxmlbz2 = 800; // documents per megabyte in a xml.bz2 mediawiki dump public static Importer job; // if started from a servlet, this object is used to store the thread @@ -274,22 +274,22 @@ public class MediawikiImporter extends Thread implements Importer { } } - public static void checkIndex(File wikimediaxml) { - File idx = idxFromWikimediaXML(wikimediaxml); + public static void checkIndex(File mediawikixml) { + File idx = idxFromMediawikiXML(mediawikixml); if (idx.exists()) return; - new indexMaker(wikimediaxml).start(); + new indexMaker(mediawikixml).start(); } public static class indexMaker extends Thread { - File wikimediaxml; - public indexMaker(File wikimediaxml) { - this.wikimediaxml = wikimediaxml; + File mediawikixml; + public indexMaker(File mediawikixml) { + this.mediawikixml = mediawikixml; } public void run() { try { - createIndex(this.wikimediaxml); + createIndex(this.mediawikixml); } catch (final IOException e) { } catch (final Exception e) { Log.logException(e); @@ -297,8 +297,8 @@ public class MediawikiImporter extends Thread implements Importer { } } - public static File idxFromWikimediaXML(File wikimediaxml) { - return new File(wikimediaxml.getAbsolutePath() + ".idx.xml"); + public static File idxFromMediawikiXML(File mediawikixml) { + return new File(mediawikixml.getAbsolutePath() + ".idx.xml"); } public static void createIndex(File dumpFile) throws IOException { @@ -307,7 +307,7 @@ public class MediawikiImporter extends Thread implements Importer { // init reader, producer and consumer PositionAwareReader in = new PositionAwareReader(dumpFile); - indexProducer producer = new indexProducer(100, idxFromWikimediaXML(dumpFile)); + indexProducer producer = new indexProducer(100, idxFromMediawikiXML(dumpFile)); wikiConsumer consumer = new wikiConsumer(100, producer); ExecutorService service = Executors.newFixedThreadPool(2); Future producerResult = service.submit(consumer);