Ingemar Olson wrote:
> Jag tycker att det liknar (”), men OCR-programmet har tolkat det som gåsögon
> och jag har sett att andra korrekturläsare låter det stå kvar som gåsögon.
Vad som hänt här är nästan säkert att sätteriet fått slut på riktiga gåsögon,
och har fått improvisera genom att ta en typ som liknar gåsögon, och göra vad
de kan, medan gjuteriet fått en snabb-beställning på litet mer typer.
Samma sak i skotska efternamn: M΄Adam, kommer tidigare skrevs M`Adam, som i sin tur
först skrevs M<litet upphöjt c>Adam. Man tog sedan till ` som det tecken som mest
liknade ett upphöjt c när detta saknades, och sedan missförstods detta som en
förkortningsaccent, och accenten vände rikting från '6' till '9', s.a.s.
Gåsögon är rätt i det här sammanhanget: det är det funktionen som avses, även om
man inte kunnat använda rätt typ för ändamålet.
--
Anders Thulin ath*algonet.se http://www.algonet.se/~ath
Okej, jag skulle nog ha kunnat gissa att det slutliga svaret blev:
>Vi vill ha det som mest liknar förlagan (den inscannade bilden).
Men det hjälper mig bara lite. Vad jag tycker det liknar lär inte vara samma
som vad andra tycker.
Så titta på 3:e och 5:e raden på
http://www.lysator.liu.se/runeberg/famijour/1874/0021.html .
Jag tycker att det liknar (), men OCR-programmet har tolkat det som gåsögon
och jag har sett att andra korrekturläsare låter det stå kvar som gåsögon.
Det är ju klart att det blir lättare för dig om vi alla gör det samma. Så ta
på dig din domarehatt och tala om vad du vill ha. Då kan jag sluta med
frågorna ;-) .
Ingemar
ps: vad tycker du om strecken i dikten på
http://www.lysator.liu.se/runeberg/famijour/1874/0026.html ?
Skall det bli ett minustecken eller två?
_________________________________________________________________
Designer Mail isn't just fun to send, it's fun to receive. Use special
stationery, fonts and colors.
http://join.msn.com/?pgmarket=en-ca&page=byoa/prem&xAPID=1994&DI=1034&SU=ht…
Start enjoying all the benefits of MSN® Premium right now and get the
first two months FREE*.
Projekt Runeberg,
Mycket snart måste vi skaffa mer disk och för det behöver vi
pengar. Jag vill köpa fyra stycken 200 GB diskar som vi kan
arrangera som en Linux Software RAID, vilket skulle ge oss 550 GB
användbart lagringsutrymme. Det kommer att räcka för ett helt års
tillväxt, kanske för två år.
Det kan tyckas märkligt att 4 x 200 = 550, men det beror på att en
av diskarna används för paritet eller kontrollsummor, som gör att
kombinationen kommer att fortsätta fungera även om en av diskarna
falerar, och på att dessa så kallade "200" GB diskar rymmer
200.000.000.000 bytes vilketr bara är 186 x 1024 x 1024 x 1024 bytes
eller 186 GB med filer. Och 3 x 186 = 558.
För att köpa de här diskarna och två nya kontrollerkort och
tillräckligt med backup-band, behöver vi få in 8000 kronor = 900
euro = 1060 dollar.
Gåvor till Projekt Runeberg kan sättas in på svenskt postgiro
nummer 885669-2 eller med internationell banköverföring till "SWIFT"
med BIC = NDEASESS, IBAN = SE59 9500 0099 6042 0885 6692.
Den här informationen finns nu också på vår startsida,
http://runeberg.org/
Lars Aronsson,
projektledare.
--
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/
Project Runeberg,
(svensk text följer i nästa meddelande)
Very soon we need to buy more disk and for that we need to raise
money. I want to buy four 200 GB disks that we can configure as a
Linux Software RAID cluster that would bring us 550 GB of useful
storage. This should be sufficient for the coming year, perhaps for
two years.
It might seem odd that 4 x 200 = 550, but this is because one of the
disks is used for parity checksums, so that the combination will
continue to work even if one of the disks crashes, and because the so
called "200" GB disks hold 200,000,000,000 bytes and that is merely
186 x 1024 x 1024 x 1024 bytes or 186 GB of files. And 3 x 186 = 558.
To buy these disks and two new controller cards and enough backup
tape, we need to raise 8000 kronor = 900 euro = 1060 US dollars.
Donations to Project Runeberg can be given to Swedish "postgiro"
account 885669-2 or by "SWIFT" international bank transfer to
BIC = NDEASESS, IBAN = SE59 9500 0099 6042 0885 6692.
This information is now available on our front page,
http://runeberg.org/
Lars Aronsson,
coordinator.
--
Project Runeberg - your digital library - http://runeberg.org/
> > Det skulle vara bra om det fanns någonstans där man kunde se, och
> > klippa ut, enstaka problematiska ISO 8859-1 bokstäver som man
>
>När du korrekturläser har du dessa klipp-och-klisterbara tecken till
>höger om den stora inmatningsrutan, precis där de behövs.
Aha! Jag hade inte märkt det. Kanske om jag hade en "19-inch" skärm va?
> > Jag ser att det fins rätt så många (vad jag skulle kalla
> > "quotation marks" på engelska). Alltså det där som ser ut som ett
> > komma, eller snarare två kommor,
>
>Det låter som du talar om gåsögon, som ser ut »så här». De har
>position 187 decimalt eller 273 oktalt i ISO 8859-1. Det finns även
>en ovanligare variant som pekar åt andra hållet « och har nummer
>171 decimalt eller 253 oktalt. Även dessa finns klipp- och
>klisterbara till höger om inmatningsfältet vid korrekturläsning.
Jag kände inte till namnet gåsögon. Men frågan var mer vilket är riktigt.
Originalet ser ut som () fast lite lägre på linjen, men OCR har tolkat det
som (»).
Nu när jag har läst lite mer om gåsögon (t. ex. susning.nu/Citat) ser det ut
som om de skulle vara okej, även om det inte är samma tecken som i
orginalet. Men i originalen så pekar ju alla åt höger, både framför och
bakom ordet i mitten, och jag ser att svenska standarden är att peka inåt.
Det enda jag vill är att inte börja rätta sidor som bara skall bli besvär
för er senare.
Så vad vill ni ha? Om det duger med gåsögon som alla pekar till höger så är
det ju lättast.
Ingemar
_________________________________________________________________
Scan and help eliminate destructive viruses from your inbound and outbound
e-mail and attachments.
http://join.msn.com/?pgmarket=en-ca&page=byoa/prem&xAPID=1994&DI=1034&SU=ht…
Start enjoying all the benefits of MSN® Premium right now and get the
first two months FREE*.
Project Runeberg,
At the end of July, our collections contained 209755 pages in digital
facsimile, of which 37254 were proofread. This is 9436 and 2900
pages, respectively, more than the beginning of the month.
If we are to be able to double our collection in the coming year, as
we did in the last year, we will have to digitize 200,000 pages in 12
months or an average of 16,667 pages per month, so 9436 pages is not
enough. However, 7000 of the pages were scanned in the last two days
of the month, so I think we still have a good chance. The
proofreading is approaching 40,000 pages or 2 linear metres of
shelving, and this calls for some kind of celebration.
Actually, the real threat right now is that our disks are filling up.
I will return to this in another message.
The most recently scanned works are "Djurens lif", the Swedish
translation of the German zoologist A.E. Brehm's "Thierleben" from
around 1880, and 25 year runs of "Fataburen", the yearbook of Nordiska
museum in Stockholm. The latter is still in preparation and has not
yet been OCRed.
http://runeberg.org/brehm/http://runeberg.org/fataburen/
These are still a bit early to announce, and our front page for August
instead features the collected works by Henrik Ibsen (that we scanned
in June). I hope this will help us to attract more Norwegian
proofreaders and volunteers.
During July, a total of 4888 proofreading contributions (edits) were
received from 50 identified volunteers. The following volunteers were
the most active:
Edits Signature
----- ---------
1000 Steen.Roennow
694 farbror.mats (+fm)
619 agneta
602 fh
549 tomi
417 anders.thapper
94 hartwig.alpers
82 janerikz
81 elagerstroem
67 ryde
64 lars
47 christer.romson
38 publ
30 lena.meyer
30 jan.frelin
26 mats
17 klash
Edits were made to 4185 different pages in 102 different works. Most
edits were made to the following works:
Edits Work Title
----- -------- -----
1247 dbl Dansk biografisk Lexikon
893 faltskar Fältskärns berättelser
582 strindbg Samlade skrifter av August Strindberg
435 nf Nordisk familjebok
196 fribyt Fribytaren på Östersjön
117 runeberg Samlade skrifter
101 oxygen Oxygen och Aromasia
88 lenngren Samlade Skaldeförsök
84 vira Handledning i vira
79 hellas Hellas. De gamla grekernas land och folk
74 tidsford Vetenskapliga tidsfördrif
73 sarek Sarekfjällen
66 tiphyche Tidsskrift for Physik og Chemi
65 sqvinnor Anteckningar om svenska qvinnor
62 gudasaga Fädernas gudasaga m.m.
57 hvar8dag Hvar 8 dag
47 norge80 Norge. Uddrag af ældre og nyere Forfatteres Skrifter
47 hagberg Shakspeare's dramatiska arbeten
46 svstsaku Svensk stats- och samhällskunskap: Lärobok
42 aktamaka Äkta makar
--
Lars Aronsson (lars(a)aronsson.se)
Project Runeberg -- your digital library -- http://runeberg.org/
>Message: 1
>Date: Tue, 03 Aug 2004 18:52:18 +0200
>From: Anders Thulin <ath(a)algonet.se>
>To: runeberg(a)lists.lysator.liu.se
>Subject: [Runeberg] Re: How do I make sure I use ISO 8859-1
>
>"Ingemar Olson" <bio2935c(a)hotmail.com> asks:
>
> > I would like to start proofreading but I'm stuck on the difference
>between
> > ASCII and ISO 8859-1. For example, I am used to keying <alt-148> to
>write an
> > ö, but the instructions ("Olika streck och andra specialtecken" på
> > //runeberg.org/wiki/Instruktioner_för_korrekturläsare) state clearly to
>NOT
> > use this technique.
>
> As you say 'alt-148', the difference you are worried about is really
>the one
>between ISO 8859-1 and the character code used by your Windows system --
>which
>probably is CP1252, which is just a superset of 8859-1. (ASCII is, as far
>as I
>understand, a 7-bit character set, related to the 7-bit ISO 646 character
>sets).
>
> The difference between the two, however, is not in the 0xCO - 0xFF
>area, where
>most of the accented letters have been placed. But if you try to produce
>S/s or
>Z/z with caron, the OE/oe ligature, and y with diaeresis, and the various
>left
>and right single and double quotation marks, the different dashes, and
>several
>other special characters in the 0x80-0x9F area, it won't work.
Tack Anders
Det ser ut som om jag kan fortsätta med alt-xxx för åäö i alla fall - bara
jag undviker 0x80-0x9F. Jag tänker bara jobba med svenska sidor så jag kan
nog undvika de flesta 'konstiga' bokstäverna.
Det skulle vara bra om det fanns någonstans där man kunde se, och klippa ut,
enstaka problematiska ISO 8859-1 bokstäver som man senare kunde sätta in i
texten.
Men nu har jag en annan fråga (till vem som helst som vill svara):
Jag ser att det fins rätt så många (vad jag skulle kalla "quotation marks"
på engelska). Alltså det där som ser ut som ett komma, eller snarare två
kommor, och det står tryckt _mitt_ i raden. Om det hade varit lite högre så
skulle jag ha kallat det "closing quotation mark" () (på engelska). Men när
det står mitt i raden tycks det tolkas av OCR-programmet som ett par V
(eller pilspetsar) som pekar till höger (»). Vad ska man göra med det? Ändra
det till " eller låta det stå kvar som » ? Det ser ju INTE ut som pilspetsar
i orginalet! Vilket är rätt?
Ingemar
_________________________________________________________________
Discover the best of the best at MSN Luxury Living. http://lexus.msn.com/
"Ingemar Olson" <bio2935c(a)hotmail.com> asks:
> I would like to start proofreading but I'm stuck on the difference between
> ASCII and ISO 8859-1. For example, I am used to keying <alt-148> to write an
> ö, but the instructions ("Olika streck och andra specialtecken" på
> //runeberg.org/wiki/Instruktioner_för_korrekturläsare) state clearly to NOT
> use this technique.
As you say 'alt-148', the difference you are worried about is really the one
between ISO 8859-1 and the character code used by your Windows system -- which
probably is CP1252, which is just a superset of 8859-1. (ASCII is, as far as I
understand, a 7-bit character set, related to the 7-bit ISO 646 character sets).
The difference between the two, however, is not in the 0xCO - 0xFF area, where
most of the accented letters have been placed. But if you try to produce S/s or
Z/z with caron, the OE/oe ligature, and y with diaeresis, and the various left
and right single and double quotation marks, the different dashes, and several
other special characters in the 0x80-0x9F area, it won't work.
That is, in principle, the alt-xxx method won't work, as it produces characters
in a different character set. However, if you know the difference between the
two character sets, you can get by. The risk for making errors can be high,
especially if you acquire bad keyboarding habits, and there are no safety nets.
For a full description of the differences, see
http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1252.TXT
Any character with the same CP1252 and Unicode code point is safe:
0xC5 0x00C5 #LATIN CAPITAL LETTER A WITH RING ABOVE
If the differ, you have to use another method:
0x8E 0x017D #LATIN CAPITAL LETTER Z WITH CARON
Strictly speaking, this describes the mapping from CP1252 to Unicode, but as
the first 256 code points of Unicode are the same as those of ISO 8859-1
(a 8859-1 to Unicode mapping table can be found under .../MAPPINGS) the difference
is only superficial.
In the same catalogue (.../WINDOWS/) other code mapping tables can be found.
> So I'm confused. How DO I make sure I generate the ISO characters?
I'm sorry -- I'm not much of a Win expert.
I would use a Wordpad, Save as 'ANSI', and then use the GNU recode program
myself (under Cygwin -- assuming it can be compiled). I better leave it to any
Windows expert to say if the same effect can be produced with pure Win tools.
I've been told that there are two forms of the ALT- keyboarding method:
the ALT-xxx method and the ALT-0xxx method, and that the difference can be
useful when you know exactly how they work. There seems to be one or two
web sites describing it (search for ALT-0xxx): you might want to investigate.
Personally, I regard ALT- as unfit for human use.
best wishes,
--
Anders Thulin ath*algonet.se http://www.algonet.se/~ath
Hello everyone (or maybe only Lars?).
I would like to start proofreading but I'm stuck on the difference between
ASCII and ISO 8859-1. For example, I am used to keying <alt-148> to write an
ö, but the instructions ("Olika streck och andra specialtecken" på
//runeberg.org/wiki/Instruktioner_för_korrekturläsare) state clearly to NOT
use this technique.
I have created other web pages containing åäöÅÄÖ (generated with the alt-nnn
keystrokes) written with "charset=iso-8859-1" and they pass the W3C HTML
validator check _and_ they display correctly (for me anyway), implying that
the characters I generated are part of the ISO 8859-1 character set.
So I'm confused. How DO I make sure I generate the ISO characters? Or did I
misunderstand something in the instructions?
Ingemar
_________________________________________________________________
Powerful Parental Controls Let your child discover the best the Internet has
to offer.
http://join.msn.com/?pgmarket=en-ca&page=byoa/prem&xAPID=1994&DI=1034&SU=ht…
Start enjoying all the benefits of MSN® Premium right now and get the
first two months FREE*.
Projekt Runeberg,
Idag har vår lokala dagstidning Östgöta Correspondenten ett reportage
om Projekt Runeberg där undertecknad och Hans Persson är på bild.
De ger gamla böcker nytt liv
http://www.corren.se/archive/2004/7/20/hr5t2cdynirb97x.xml
--
Lars Aronsson (lars(a)aronsson.se)
Projekt Runeberg - fri nordisk litteratur - http://runeberg.org/