Picproje Elektronik Sitesi

BİLGİSAYAR => Donanım ve Yazılım => Konuyu başlatan: certy - 07 Ocak 2020, 19:29:05

Başlık: Txt belgesi kodlama türü tespit etme?
Gönderen: certy - 07 Ocak 2020, 19:29:05
Selamlar.

Elimde bir txt dosyası var. Kodlama tipi belli değil. O nedenle saçma sapan karakter görüyorum açtığım zaman. Ansi, UTF8, UTF16, UTF32 ve birkaç tür ile çözdürmeye çalıştım ama sonuca ulaşamadım. Bu dosyanın kodlama türünü nasıl tespit edebilirim? Şimdiden teşekkürler.

Not: Gerekirse dosyayı buraya yükleyebilirim.
Başlık: Ynt: Txt belgesi kodlama türü tespit etme?
Gönderen: taydin - 07 Ocak 2020, 19:39:47
O belirttiğin kodlamaların ötesinde daha onlarca farklı kodlama türü var. En garanti yol, belli bir kodlama türünü seçmene izin veren bir editör kullanmak, olabileceğini düşündüğün bir kodlamayı aktif hale getirip ekranda görünen şey mantıklı mı diye senin karar vermen. Ama program otomatik olarak bulsun diyorsan, bunu %100 her seferinde doğru olarak yapabilecek bir programın olduğunu zannetmiyorum.

Ben emacs kullanıyorum ve bu editörde onlarca kodlama seçimi yapılabiliyor. Başka editörlerde de muhtemelen vardır bu özellik. Emacs ile o dosyayı açıp kodlama türleri arasında geçiş yapabilir ve ekranda gördüğün şey mantıklı mı değil mi değerlendirebilirsin.
Başlık: Ynt: Txt belgesi kodlama türü tespit etme?
Gönderen: dumansiz - 08 Ocak 2020, 10:10:43
taydin'ın da belirttiği gibi, dosya standart bir kodlamaya sahip olmayabilir. Ya da bir şifreleme algoritmasından geçirdikten sonra standart bir kodlama görülebilir.
"winhex" kullanarak en azından bilgiyi "hex" olarak görebilirsiniz. Ayrıca bir sürü kodlama standardını dosya üzerinde seçerek deneyebilirsiniz.
Başlık: Ynt: Txt belgesi kodlama türü tespit etme?
Gönderen: mufitsozen - 08 Ocak 2020, 10:50:25
chardet Python kutuphanesini kullanarak bir cok encoding tipini bulabilirsiniz ama %100 dogru bir sekilde yapmak maalesef mumkun degil.

> pip install chardet
> chardetect myfile.txt.

Başlık: Ynt: Txt belgesi kodlama türü tespit etme?
Gönderen: OG - 08 Ocak 2020, 16:51:57
Alıntı yapılan: dumansiz - 08 Ocak 2020, 10:10:43bir şifreleme algoritmasından geçirdikten sonra standart bir kodlama görülebilir.