Sentence alignment for gv-eng-20150829-537768.xml (html) - gv-mlg-20150830-73644.xml (html)

#engmlg
1Google's Optical Character Recognition Software Now Works with All South Asian LanguagesMety Ho An'ireo Fiteny Rehetra Any Azia Atsimo Ny Rindrambaiko OCR (Optical Character Recognition) An'ny Google
2A step-by-step process to use Google's Optical Character Recognition software that supports almost all major South Asian languages.Dingana mandeha tsikelikely amin'ny fampiasàna ny rindrambaiko Famantarana Endri-tsoratra an'ny Google (OCR) izay afaka mahazaka ny ankamaroan'ireo fiteny Aziatika Tatsimo.
3Image by Subhashish Panigrahi, freely licensed under CC-by-SA 4.0.Sary an'i Subhashish Panigrahi, nampiasàna malalaka ny lisansa CC-by-SA 4.0.
4The Optical Character Recognition (OCR) software by Google now works for more than 248 world languages, including all the major South Asian languages, and it's easy to use and works with over 90 percent accuracy for most languages.Ankehitriny ny rindrambaiko Optical Character Recognition (OCR) nataon'ny Google dia miasa ho anà fiteny maherin'ny 248 manerana izao tontolo izao, tafiditra amin'izany ny ankamaroan'ireo fiteny Aziatika Tatsimo be mpampiasa, sady mora ampiasaina no mety amin'ny 90% ilay izy ho an'ny maro amin'ireo fiteny ireo.
5OCR software has been extremely beneficial for the study of language, helping to extract text from images of virtually any printed text-and sometimes even handwriting, which opens the door to old texts, manuscripts, and more.Tena nitondra soa betsaka ho an'ny fianarana ny teny ny rindrambaiko OCR, nanampy tamin'ny fisintonana izay rehetra lahatsoratra avy any anaty sary vita printy-ary indraindray aza dia sora-tànana, izay manokatra varavarana ho amin'ireo lahatsoratra tranainy, sora-tànana sy ny sisa.
6Ketan Pratap at NDTV Gadgets writes:Ketan Pratap ao amin'ny NDTV Gadgets manoratra hoe:
7Users can start using the OCR capabilities in Drive by uploading scanned document in PDF or image form after which they can right-click on the document in Drive to open with Google Docs.Azon'ireo mpampiasa atao ny manomboka mampiasa ny fahaizamanaon'ny OCR amin'ny alàlan'ny fampàkarana antontan-taratasy natao amin'ny endrika PDF na sary ho ao amin'ny Drive ary avy eo manindry ny havanana amin'ny totoziny eo ambonin'ilay antontan-taratasiny ao amin'ny Drive mba hosokafan'ny Google Docs ilay izy.
8After choosing the option, a document with the original image alongside extracted text opens, which can be edited.Aorian'ny safidiny, misy lahatsoratra iray miara-misokatra eo anilan'ny sarin'ilay lahatsoratra niaingàna, izay azo avoaka printy.
9Google notes that users will not be required to specify the language of the document as the OCR in Drive will automatically determine it.Marihan'ny Google fa tsy takiana amin'ireo mpampiasa akory ny hamaritra ny fiteny voarakitra ao anatin'ilay antontan-taratasy satria ny OCR ao amin'ny Drive ihany no hamaritra izany ho azy.
10The OCR capability in Google Drive is also available in Drive for Android.Misy ao amin'ny Drive ho an'ny Android ihany koa io fahafahan'ny OCR ao amin'ny Google Drive io.
11On Twitter, many users have welcomed and even celebrated this new feature from Google:Ao amin'ny Twitter, marobe ireo mpampiasa no niarahaba ny fahatongavany sy nankalaza mihitsy aza ity zava-baovaon'ny Google ity :
12Optical Character Recognition #OCR in Google Drive recongnizes many indic languages including #Kannada give it a try http://t.co/99UkCJQ6gbMamaky mari-pamantarana teny maro ny #OCR ao amin'ny Google Drive.
13- Omshivaprakash (@omshivaprakash) August 28, 2015Isan'izany ny #Kannada Mba andramo
14@shylobisnett if you have access to a scanner, you can do OCR through google drive. works a bit faster.Raha manam-pahafahana mampiasa ‘scanner' ianao, dia afaka mampiasa ny OCR amin'ny alàlan'ny Google.
15- Whet Moser (@whet) August 27, 2015Haingana kokoa ny asa
16Wow. Searching Google Drive for a keyword also returns results for images containing that keyword in the image.Oaaay, Ny fikarohana tenifototra amin'ny Google Drive koa dia mitondra ho amin'ireo sary miaty izany tenifototra izany ao anatin'ilay sary.
17Didn't realise it did OCR. - Mark Osborne (@mosborne01) August 25, 2015Tena tsy tao an-tsaina mihitsy hoe hahavita izany ny OCR
18Typically OCR software has difficulty reading the text on old documents or pages with blemishes and ink marks, spitting out gibberish instead of legible text.Raha ny nahazatra dia sahirana ny OCR rehefa hamaky lahatsoratra tranainy be na pejy misy tsy fahatomombanana sy voapentin'ny ranomainty, ka lasa mamoaka teny tsy fantatra na zavatra tsy azo vakiana.
19Google's support page on this project shares additional details about character formatting, like its ability to preserve bold and italicized fonts in the output text:Ny pejy fanohanana ao amin'ny Google ho an'ity tetikasa ity dia mizara antsipirihany fanampiny momba ny fandrafetana ny endri-tsoratra, toy ny fahafahany mitahiry ny endrika matavy sy misompirana ao anatin'ny lahatsoratra hivoaka:
20When processing your document, we attempt to preserve basic text formatting such as bold and italic text, font size and type, and line breaks.Rehefa mikarakara ny lahatsoratra, miezaka isika ny mitahiry ireo endrika fototra efa nandrafetantsika azy, toy ny soratra matavy sy misompirana, ny haben'ny tarehin-tsoratra sy ny karazany, ny fidinana an-dàlana.
21However, detecting these elements is difficult and we may not always succeed.Kanefa, sarotra ny mitily ireny singa ireny ary mety tsy hotafitantska mandrakariva.
22Other text formatting and structuring elements such as bulleted and numbered lists, tables, text columns, and footnotes or endnotes are likely to get lost.Tahaka ny ho very ireo fomba hafa fandrafetana lahatsoratra sy fandaminana ny singa, toy ireo fitanisàna lisitra ialohavanà teboka sy tarehimarika, ny tsanganan-dahatsoratra sy ireo fanamarihana kely ery amin'ny faran'ny pejy.
23For some of the languages, like Malayalam and Tamil, the OCR works with almost 100 percent accuracy, and includes support for formatting things like like auto-cropping, separating text by discarding images, and ignoring color backgrounds, explains Tamil user and Wikimedian Ravishankar Ayyakkannu on Facebook:Ho an'ireo fiteny sasantsasany, toy ny Malayalam sy Tamil, saiky 100% ny asa vita amin'ny OCR, ary ahitàna tohana ho amin'ny fandrafetana zavatra toy ny fanafohezana mandeha ho azy, fanasarahana lahatsoratra amin'ny alàlan'ny sary, ary ny tsy fandraisana ny loko natao lafika, hoy ny fanazavan'ireo mpampiasa ny Tamil sy ilay Wikimedian Ravishankar Ayyakkannu ao amin'ny Facebook:
24[…] Google Tamil OCR works with 100% accuracy ![…] 100% ny asan'ny OCR Google Tamil !
25Keep testing with various samples and comment here.Tohizo amin'ny fanandràmana ohatra samihafa ary apetraho eto ny fanehoankevitra.
26Performance has been the same for many other Indic languages too.Mitovy ihany koa ny vokatra tamin'ireo famantarana ny fiteny maro hafa.
27[…] Auto crops, discards images and colored background.[…] Fanafohezana mandeha ho azy, Auto crops, fanesorana ireo sary sy loko natao lafika.
28Recognizes different layouts.Mamantatra mari-pamantarana endri-tsoratra isankarazany.
29I could find only 1 mistake in whole page.Diso iray monja no hitako taminà pejy iray manontolo.
30Testing latest Vikatan - https://docs.google.com/…/1OXre4…/edit.. […]Manandrana ny Vikatan farany indrindra - https://docs.google.com/…/1OXre4…/edit.. […]
31(Bangla, Malayalam, Kannada, Odia, Tamil, and Telugu-language users have commented in the same post with feedback after testing the updated OCR software.(Samy naneho hevitra tao aminà lahatsoratra iray ihany ireo mpampiasa ny fiteny Bangla, Malayalam, Kannada, Odia, Tamil, sy Telugu-language, nanome domberina taorian'ny nanandramany ny rindrambaiko OCR efa nasiana fanavaozana.
32For a few scripts, like Gurmukhi (used to write Punjabi), it turns out that the output after OCR is quite poor, resulting largely in gibberish, when testing a screenshot image from Punjabi Wikipedia.)Ho an'ny soratra vitsivitsy, toy ny Gurmukhi ( zatra nanoratra ny Punjabi), toa tsikarira fa somary maivana/tsy ampy ihany ny zavatra navoakan'ny OCR, mamoaka zavatra tsy miteny, rehefa andramana amin'ny pikantsary avy ao amin'ny Punjabi Wikipedia.)
33Issues with Gurmukhi script after OCR using Google's OCR.Ireo olana amin'ny soratra Gurmukhi taorian'ny nampiasàna ny OCR an'ny Google.
34Screenshot from Punjabi Wikipedia.Pikantsary tao amin'ny Punjabi Wikipedia.
35This is quite a large leap for the languages with lots of old texts that are not yet digitized.Efa dingana goavana ihany aloha io ho an'ny ankamaroan'ireo fiteny manana lahatsoratra rakitry ny ela izay tsy mbola voatahiry amin'ny endriny dizitaly.
36Old and valuable texts in many languages could now be digitized and shared over the internet using platforms like Wikisource and could be preserved and made available for sharing knowledge.Azo atao ankehitriny ny mitahiry ho amin'ny endrika dizitaly ireo lahatsoratra tranainy sy manana ny lanjany ary mizara azy ireny manerana ny aterineto amin'ny alàlan'ny fampiasàna ireo sehatra toy ny Wikisource, sady azo tahirizina sy atao azo idirana mba hifampizaràna fahalalàna.
37Google's OCR partly uses Tesseract-an OCR engine released as freeware.Amin'ny ampahany ny OCR an'ny Google dia mampiasa ny Tesseract-milina OCR navoaka ho azo ampiasaina malalaka.
38Developed as a community project between 1995 and 2006 (and later taken over by Google), Tesseract is considered to be one of the world's most accurate OCR engines and works for over 60 languages.Niarahana namolavola tamin'ny endrika tetikasanà vondrom-piaramonina, teo anelanean'ny 1995 sy 2006 (ary taty aoriana dia noraisin'ny Google an-tànana), azo heverina ho iray amin'ireo milina OCR azo itokiana indrindra eran'izao tontolo izao ny Tesseract ary mety ho an'ireo fiteny maherin'ny 60.
39The source code is now hosted at https://github.com/tesseract-ocr.Ao amin'ny https://github.com/tesseract-ocr no nampiantranoina ny loharanon'ilay rindrambaiko.
40Check this link for the OCR outputs in various South Asian scripts.Tsidiho ity rohy ity hijerena ireo vokatra navoakan'ny OCR avy amin'ireo soratra samihafa avy any Azia Atsimo.