Txt belgesi kodlama türü tespit etme?

Başlatan certy, 07 Ocak 2020, 19:29:05

certy

Selamlar.

Elimde bir txt dosyası var. Kodlama tipi belli değil. O nedenle saçma sapan karakter görüyorum açtığım zaman. Ansi, UTF8, UTF16, UTF32 ve birkaç tür ile çözdürmeye çalıştım ama sonuca ulaşamadım. Bu dosyanın kodlama türünü nasıl tespit edebilirim? Şimdiden teşekkürler.

Not: Gerekirse dosyayı buraya yükleyebilirim.
TA1USS

taydin

#1
O belirttiğin kodlamaların ötesinde daha onlarca farklı kodlama türü var. En garanti yol, belli bir kodlama türünü seçmene izin veren bir editör kullanmak, olabileceğini düşündüğün bir kodlamayı aktif hale getirip ekranda görünen şey mantıklı mı diye senin karar vermen. Ama program otomatik olarak bulsun diyorsan, bunu %100 her seferinde doğru olarak yapabilecek bir programın olduğunu zannetmiyorum.

Ben emacs kullanıyorum ve bu editörde onlarca kodlama seçimi yapılabiliyor. Başka editörlerde de muhtemelen vardır bu özellik. Emacs ile o dosyayı açıp kodlama türleri arasında geçiş yapabilir ve ekranda gördüğün şey mantıklı mı değil mi değerlendirebilirsin.
Timur Aydın (mekatronik.org)

dumansiz

taydin'ın da belirttiği gibi, dosya standart bir kodlamaya sahip olmayabilir. Ya da bir şifreleme algoritmasından geçirdikten sonra standart bir kodlama görülebilir.
"winhex" kullanarak en azından bilgiyi "hex" olarak görebilirsiniz. Ayrıca bir sürü kodlama standardını dosya üzerinde seçerek deneyebilirsiniz.

mufitsozen

chardet Python kutuphanesini kullanarak bir cok encoding tipini bulabilirsiniz ama %100 dogru bir sekilde yapmak maalesef mumkun degil.

> pip install chardet
> chardetect myfile.txt.

Aptalca bir soru yoktur ve hiç kimse soru sormayı bırakana kadar aptal olmaz.

OG

Alıntı yapılan: dumansiz - 08 Ocak 2020, 10:10:43bir şifreleme algoritmasından geçirdikten sonra standart bir kodlama görülebilir.
FORUMU İLGİLENDİREN KONULARA ÖM İLE CEVAP VERİLMEZ.