Na stronie dostępne są dwa nowe słowniki: słownik polsko-francuski (50410 haseł) oraz słownik francusko-polski (46558 haseł). Opracowane z nadesłanych źródeł.
Wydaje mi się, że ten temat nie będzie kontynuowany.
Jako, że jestem regularnie co kilka tygodni pytany jak tworzy się bazy słownikowe dla programu Xlator postanowiłem możliwie przejrzyście spisać instrukcję krok po kroku.
1. Na początek potrzebne są nam dane – jest to słownik, więc niezbędne wydaje się posiadanie dwóch kategorii danych: termin + definicja. Użyjmy więc arkusza kalkulacyjnego i stwórzmy sobie następujący plik, w tym przypadku jest to fragment słownika francusko-polskiego:
abonprix;à bon prix – tanio
actuellement;actuellement – aktualnie
Jak widać jest to format CSV, rozdzielany średnikami (Excel, nie wiedzieć czemu, nazywa ten format CSV rozdzielany przecinkami). Pierwsza kolumna („abonprix”) to kolumna z terminem, pozbawionym spacji, przecinków, polskich znaków, cyfr, myślników, apostrofów – muszą tam zostać gołe znaki alfabetu łacińskiego. Nic więcej.
Druga kolumna („à bon prix – tanio”) zawiera definicję. Warto powtórzyć w niej wygląd terminu w prawidłowej formie, ze wszystkimi upiększaczami. Długość tej kolumny jest ograniczona, ale nie pamiętam do ilu znaków, chyba 1024, czyli wcale nie mało.
2. Drugi etap to tworzenie bazy danych za pomocą MS Access. Baza musi nazywać się „Dictionary” i zawierać trzy pola:
- TitleXlator
- TextXlator
- Title
Wszystkie pola są standardowego typu tekstowego. Najwygodniej jest najpierw zaimportować wcześniej przygotowany plik tekstowy w formacie CSV, a następnie zmienić nazwy pół, nazwę bazy, skasować indeks (o ile został dodany). Pole „Title” może pozostać puste.
3. Ściągamy program directxv1 autorstwa Luc’a, który bez zbędnego skomplikowania przekonwertuje nam przygotowaną bazę .mdb na xlatorowy plik .xv1
4. W zasadzie na tym etapie można by skończyć zabawę, ale dobrze jest skonwertować plik .xv1 na format .xc2. Potrzebny jest do tego ten konwerter. Składnia programu jest prosta:
konwerter „nazwa” plik_we plik_wy [opcja]
co na przykładzie wygląda następująco:
konwerter „Francusko-Polski” 0 0 /c
Nazwa pliku wejściowego i wyjściowego podawana jest bez rozszerzenie. Pamiętajcie również o jednoznakowej konwencji nazewnictwa słowników.
To tyle.
otwarcie forum
Przesiąknięty letnią naiwnością nieskromnie uznałem, że dwa z moich projektów są na tyle interesujące, iż warto uruchomić jakiś kanał zwrotny dla użytkowników. I tak powstało forum, dzięki uprzejmości wordpress’owej wtyczki RS-discus. Zainteresowani proszeni są o głosy opiniotwórcze w sprawach AleBota, słowników Xlatora i we wszystkich innych.
Po drugie i na marginesie: znalazłem dzisiaj w logach wejście na bloga z domeny *.polkomtel.com.pl (Firefox, Windows XP) poprzez wyszukiwarkę google.pl wg słów kluczowych: wyszukiwanie substring w perlu. Jeżeli szukają skrypciarza to niech po prostu napiszą do mnie maila…
[xlator] baza filmów – aktualizacja
Główne zmiany:
- aktualny stan bazy stoklatka.pl,
- porawiony algorytm parsowania (usunięte śmieci i niepotrzebne dane),
- zawartość słownika jest posortowana,
- z indeksu wyszukiwania (T9) usunięte zostały cyfry, należy wpisywać szukane hasło i pominięciem takich znaków. Np: szukając filmu „40 dni i 40 nocy” piszemy: „dniinocy”.
Xlator – mobilny system słownikowy
Jakby jeszcze ktoś nie zauważył zaangażowałem się ostro w budowanie baz danych do Xlatora. A co to takiego? To bardzo prosty, ale wydajny sposób przechowywania, wyszukiwania i prezentacji danych w telefonie komórkowym wyposażonym system operacyjny Symbian (dowolna wersja). Oto lista aktualnie dostepnych słowników:
English-Polish – 26.882 haseł
Polish-English – 27.266 haseł
German-Polish – 42.856 haseł
Polish-German – 38.460 haseł
English-Spanish – 27.228 haseł
Spanish-English – 28.476 haseł
US English-Polish – 75.330 haseł
Polish-US English – 56.940 haseł
German-English – 11.921 haseł
English-German – 19.327 haseł
Encyclopedia PWN – 104.310 haseł
English thesaurus – 8.387
Big American thesaurus – 70.000 haseł
slownik ortograficzny PWN – 12.4861 haseł
slownik jezyka polskiego PWN – 72.934 haseł
tablica znakow ASCII
Polski Słownik Alternatywny – 499 haseł
slownik wyrazów obcych PWN – 11.587 haseł
slownik hiszpańsko-polski – 50.000 haseł
slownik polsko-hiszpański – 50.000 haseł
koniugacje hiszpańskie – 1.000 haseł
Można je ustrzelić tutaj lub tutaj. Słowniki zestawione przeze mnie to:
Polski słownik do gier typu Scrabble – 2.715.204 haseł
Polski słownik synonimów – 43.171 haseł
Katalog filmów (stopklatka.pl) – 8.560 haseł
Tablice rejestracyjne – 411 haseł
Słownik terminów informatycznych i pokrewnych – 4.462 hasła
Można je ściągnąć z tej strony: kasze.ijon.info/index.php/xlator.
Najnowsze komentarze