Dodaj do ulubionych

Zmiany algorytmów - cyrylica, polska interpunkcja

10.08.20, 22:07
Jeśli i tu można monitować w sprawach nie tylko forum, to:
1. W sprawozdaniu na żywo zanikają cytowane zapisy z Cwierkacza (zapewne) pisane cyrylicą - naprawdę ten portal chce nas od nich odciąć, nie uwzględniając czcionki wschodnich i eks-jugosłowiańskich alfabetów?
Nie wchodzę wprost na Twitter, by ten zarzut mój potwierdzać - mogą to zrobić Państwo sami.
wiadomosci.gazeta.pl/wiadomosci/14,166794,26199158.html#s=BoxMMtTi
.
2. Od ładnych kilku tygodni w komentarzach tego tu portalu moje wpisy stosujące polskie znaki cudzysłowu są zamieniane na nie tyle znaki anglosaskiego cudzysłowu, ile na znaki pytajnika. Warto, wręcz trzeba ten mankament wykorzenić. Chyba że polskie znaki mają tutejsi informatycy ... w małym poważaniu?
Obserwuj wątek
    • dar61 Zmiany algorytmów cd. 10.08.20, 22:53
      Z następnych niedomagań tut. algorytmów - zastosowany z biblioteki systemowej znak trójkropka [U+2026: …] także zamienia się na Waszych stronach gazeta.pl na znak pytajnika.
      Co u licha?
        • dar61 Zmiany priorytetów? 18.08.20, 15:15
          '...Kogo to obchodzi? Tu masz cały długi wątek [...]...'

          Szkoda, że nie obchodzi redakcji gazeta.pl los wschodnich naszych sąsiadów - bo nie pozwala algorytmom portalu uwidaczniać zapisów alfabetu cyrylicy, udają, że cytuje w nim zapisy na Tweetterze.

          Ta sama redakcja pozwala za to zaistnieć każdemu umlautowi z zapisów alfabetów zachodnich...
          • a_usher Re: Zmiany priorytetów? 18.08.20, 21:58
            Jak już napisałem, jakiś stażysta ograniczył zestaw znaków do iso-8859-2, więc są umlauty, ale nie ma różnych innych liter czy znaków interpunkcyjnych. Przykładowo nie da się poprawnie zapisać nazwiska Cichanoŭska, wielokropka czy różnych typów cudzysłowów. Po hiszpańsku też się nie da pisać.
    • dar61 Zmiany algorytmów - czyżby sukces apelu? 21.08.20, 13:11
      No dzięki serdeczne, jeśli mi się nie przywidziało, to w komentarzach dzisiejszego artykułu piątkowego działu klimatycznego pojawił się prawdziwy, polski, niemechaniczny począteczny dolny cudzysłów!
      Wieczorem sprawdzę, czy to nie zwidy.
      Jak nastąpi znów jakieś polityczne wydarzonko, jakie redakcja tutejsza gazetopeelowa będzie chciała zacytować w oryginale tamtejszej wschodniej cyrylicy, dopiero sprawdzimy, czy i takie cytaty tutejsze algorytmy przepuszczą.
      • a_usher Re: Zmiany algorytmów - czyżby sukces apelu? 22.08.20, 14:27
        To są pewnie jakieś chwilowe przypadłości. Sam tak miałem, a potem się naprostowało na stare i znowu wyskoczyły pytajniki. Może zatem poczekaj do wieczora, a potem odśwież kilka razy stronę.
        Poza tym to mogą być symulowane ,,cudzysłowy" (na dole są dwa przecinki).
        Możliwe też, że jakiś wpływ ma User-Agent przeglądarki…
        Tymczasem sam to sprawdzę w mobilnym Firefoksie.
        • a_usher Re: Zmiany algorytmów - czyżby sukces apelu? 22.08.20, 14:43
          W tekście artykułu nie ma cudzysłowów typograficznych, jest tylko ostylowanie niektórych akapitów (blockquote class="art_blockquote"). A w stylu to może być nawet obrazek wektorowy svg lub bitmapowy zakodowany w Base64.

          No i gdzie te cudzysłowy w komentarzach? Nie podałeś linku do żadnego komentarza, mogłem coś przegapić.
          • a_usher Re: Zmiany algorytmów - czyżby sukces apelu? 22.08.20, 15:22
            No dobra, coś tam znalazłem w komentarzach, ale w Firefoksie zrobili wyszukiwanie „inteligentne” i trzeba samodzielnie sprawdzać, jakie właściwie cudzysłowy znalazł (może zresztą to nie kwestia samego Firefoxa, tylko Androida). Mimo wszystko poczekam do poniedziałku, aż przyjdzie nowa zmiana i zatwierdzi te poprawki, a tymczasem potestuję gdzieś w komentarzach różne znaki…
    • wariant_b Re: Zmiany algorytmów - cyrylica, polska interpun 22.08.20, 17:44
      dar61 napisał:

      > Jeśli i tu można monitować w sprawach nie tylko forum, to:

      > 1. W sprawozdaniu na żywo zanikają cytowane zapisy z Cwierkacza (zapewne pisane cyrylicą)

      Ano, znikają.
      Oznacza to tyle, że narzędzie użyte do generowania witryny gazety wymaga aktualizacji.
      A wprowadzający artykuły mają wiedzieć, że dopóki konwersja znaków nie będzie poprawna
      należy wklejać tweet jako zrzut ekranu, a nie jako tekst w oryginalnym języku.

      Niestety nie jest to poprawka, którą można zrobić od ręki.
      Problem był kiedyś powszechny i dotyczył wielu systemów CMS.
      Może nawet wymagać wymiany bazy danych i przekodowania istniejących tekstów
      przed ponownym wprowadzeniem niewłaściwie konwertowanych.

      > 2. Od ładnych kilku tygodni w komentarzach tego tu portalu moje wpisy stosujące
      > polskie znaki cudzysłowu są zamieniane

      sprawdzam cztery popularne, prawidłowe sposoby wprowadzenia polskich cudzysłowów:
      „ lub „ lub „ lub „
      ” lub ” lub ” lub ”
      zobaczymy, co się wyświetli, ale na podglądzie jest OK.

      Podejrzewam, że nie masz tych polskich cudzysłowów na klawiaturze
      i wklejasz je z programu, w którym jest inne kodowanie znaków niż UTF-8.
      • wariant_b Re: Zmiany algorytmów - cyrylica, polska interpun 22.08.20, 18:07
        wariant_b napisał:

        > sprawdzam cztery popularne, prawidłowe sposoby wprowadzenia polskich cudzysłowów:
        > „ lub „ lub „ lub „
        > ” lub ” lub ” lub ”
        > zobaczymy, co się wyświetli, ale na podglądzie jest OK.

        Wyświetla się też OK (a miałem już przypadki, że podgląd pokazywał inaczej)
        ale pewnie dalej nie wiadomo o co chodzi bez popatrzenia w źródło strony.
        Musi być poprawny znak w UTF-8 lub jedna z sekwencji zastępczych w ASCII,
        którą przeglądarka zinterpretuje i wyświetli jako odpowiedni znak.
        • a_usher Re: Zmiany algorytmów - cyrylica, polska interpun 23.08.20, 15:22
          Coś portalisz.
          1. Teraz rozszerzyli dozwolony zestaw znaków z iso-8859-2 do windows-1250, czyli powróciły m.in. cudzysłowy typograficzne, pauzy i wielokropki. I tyle.
          2. Właściwe znaki wpisuję z klawiatury Androida lub pod Windows z właściwych układów.
          3. Kodowanie strony nie ma nic do kopiowania. Schowek jest unikodowy i poprawnie wyświetlone znaki zawsze są w unikodzie. Dziwne kombinacje moga się objawiać tylko gdy ktoś na stronie www używa fontu nieunikodowego, ale ostatnio takie wynalazki widziałem przy przeglądaniu archiwalnych stron w ArmSCII, gdzie nie było zadeklarowanego zestawu znaków.
          4. Podgląd jest poprawny, bo jest generowany lokalnie przez JavaScript. Zbędna konwersja następuje dopiero po wysłaniu tekstu na serwer przy zapisie do bazy.
          5. Przed przerobieniem systemu komentarzy na javascriptową apkę nie było problemu z cytowaniem tekstów w różnych językach i wstawianiem emoji (zmora ze smartfonów).
          6. Nigdy by mi do głowy nie przyszło testowanie wiszących w powietrzu cudzysłowów. Jakoś tak same się przyklejają do tekstu. ;-P
          • wariant_b Re: Zmiany algorytmów - cyrylica, polska interpun 23.08.20, 20:17
            a_usher napisał:

            > 1. Teraz rozszerzyli dozwolony zestaw znaków z iso-8859-2 do windows-1250,
            > czyli powróciły m.in. cudzysłowy typograficzne, pauzy i wielokropki. I tyle.

            Jeśli gdzieś oferowany jest nam wybór między ISO-8859-2 a CP-1250, to oznacza tylko tyle,
            że kłopoty mogą się pojawić w nieoczekiwanym momencie. Aktualnie (rok 2020,
            Windows 10 2004 lub 1909, aktualne dystrybucje linuxa, bieżące wersje aplikacji itd.)
            obowiązuje unicode UTF-8 i wszystko inne może sprawić kłopot.

            Szczęśliwie problemy z kodowaniem i konwersją szybciutko odchodzą w przeszłość

            > 2. Właściwe znaki wpisuję z klawiatury Androida lub pod Windows z właściwych uk
            > ładów.
            > 3. Kodowanie strony nie ma nic do kopiowania. Schowek jest unikodowy i poprawni
            > e wyświetlone znaki zawsze są w unikodzie. Dziwne kombinacje moga się objawiać
            > tylko gdy ktoś na stronie www używa fontu nieunikodowego, ale ostatnio takie wy
            > nalazki widziałem przy przeglądaniu archiwalnych stron w ArmSCII, gdzie nie był
            > o zadeklarowanego zestawu znaków.
            > 4. Podgląd jest poprawny, bo jest generowany lokalnie przez JavaScript. Zbędna
            > konwersja następuje dopiero po wysłaniu tekstu na serwer przy zapisie do bazy.
            > 5. Przed przerobieniem systemu komentarzy na javascriptową apkę nie było proble
            > mu z cytowaniem tekstów w różnych językach i wstawianiem emoji (zmora ze smartf
            > onów).
            > 6. Nigdy by mi do głowy nie przyszło testowanie wiszących w powietrzu cudzysłow
            > ów. Jakoś tak same się przyklejają do tekstu. ;-P
            • wariant_b Re: Zmiany algorytmów - cyrylica, polska interpun 23.08.20, 20:54
              Sorki, jestem niekompatybilny z laptopem, a akurat tylko taki mam pod ręką.

              > 2. Właściwe znaki wpisuję z klawiatury Androida lub pod Windows z właściwych układów.

              Tylko, że Windows nie ma właściwego układu z polskimi cudzysłowami. Oferuje nam
              amerykańskie "". „Właściwy” trzeba sobie dopiero pobrać i ustawić jako domyślny.

              > 3. Kodowanie strony nie ma nic do kopiowania. Schowek jest unikodowy i poprawnie
              > wyświetlone znaki zawsze są w unikodzie. Dziwne kombinacje moga się objawiać
              > tylko gdy ktoś na stronie www używa fontu nieunikodowego

              Sprawdzę, ale nie wydawało mi się, żeby Microsoft aż tak zmienił obsługę schowka.
              Zmienił domyślne kodowanie w Notatniku, ale przy zapisywaniu pliku w UTF-8 domyślnie
              nie używa BOM, więc plik tekstowy .TXT może zostać odczytany błędnie przez inny program.
              Jako ANSI używa windowsowego CP-1250 (tak przynajmniej wynika z podglądu),
              choć właściwszy byłby chyba nadal stary CP-852.

              Podejrzewam, że w omawianym przypadku źródłem błędu z rosyjską czcionką
              też był Notatnik lub któryś z jego zamienników. Zwyczajowo nie używa się tu edytorów
              tekstu, bo kiedyś potrafiły dziać się cuda z niepotrzebnymi kodami formatującymi.

              > 5. Przed przerobieniem systemu komentarzy na javascriptową apkę nie było problemu
              > z cytowaniem tekstów w różnych językach.

              Ale właśnie przy cudzysłowach przerobiłem inny - po otagowaniu tekstu bbcodem code
              w podglądzie wyświetliły mi się poprawnie kody zastępcze, a po wysłaniu na serwer
              już w ich miejscu były cudzysłowy, choć źródło strony było poprawne. Dobrze, że
              sprawdzałem na forum testowym, bo byłoby mi głupio.

              Przy okazji - kiedyś w tekście usiłowałem wkleić coś po koreańsku. Wysyłany post po prostu
              znikał, beż żadnego komunikatu. Mniemam, że to chyba zasługa Koreańczyka.
              • a_usher Re: Zmiany algorytmów - cyrylica, polska interpun 25.08.20, 02:25
                1. No i przyszedł poniedziałek, naprawili bazę danych i zaorali wszystkie bajery. I znowu tylko iso-8859-2, a zamiast reszty przecinki. Zapomnij o wielokropku i innych znakach, cyrylicy i innych pismach, to było dawno i nieprawda.

                2. Owszem, trzeba coś zrobić samemu, nie pisałem przecież o ustawieniach domyślnych. Pod Windows jest cały czas dostępny układ klawiatury „Mocny akcent”, jest też kilka mniej popularnych przeróbek, jesli nie chcesz samodzielnie nic przerabiać dostarczanym przez MS narzędziem. Poza tym zawsze zmieniam układ anglojęzyczny na amerykański międzynarodowy i dodaję język rosyjski. To ostatnie MS doskonale spartolił w najnowszych aktualizacjach Windows 10, bo z automatu można zainstalować tylko cały pakiet językowy na koncie użytkownika (i powtarzać to dla kolejnych użytkowników).

                3. Już w Windows 95 wprowadzono Unikod w dwubajtowej formie UCS-2, rozszerzonej później do UTF-16 (jeden znak moze zajmować więcej niż dwa bajty). Zakres obsługi unikodu stopniowo rozszerzano, oczywiście wedlug kaprysów firmy. Przykładowo Notatnik pliki zapisuje zawsze zBOM, choć dla UTF-8 nie jest to wymagane. Nie zwalaj zatem nic na notatnik ani na schowek. (pomijając błędne heurystyczne wykrywanie unikodu aż do Windows XP, ale to funkcja użytego kompilatora, a nie samego notatnika). Co ciekawe, niektóre instalatory bazujace na MSI logują swoje akcje w UTF-16 bez BOM.

                4. Chwaliłem wyborcza.pl, ale własnie obejrzałem źródła dostępnej w pełni strony z komentarzami. To grzech o pomstę do nieba wołający! Ale o tym później.

                5. Gdzie używałeś BBCode'u? Tu na forum czy w komentarzach pod artykułami? Teraz rozumiesz, po co są potrzebne oddzielne podfora dla problemów z forum i z gazeta.pl?

                • wariant_b Re: Zmiany algorytmów - cyrylica, polska interpun 25.08.20, 14:35
                  a_usher napisał:

                  > 1. ... Zapomnij o wielokropku i innych znakach, cyrylicy i innych pismach, to było dawno i nieprawda.

                  Nie ma cudzysłowów polskich: „”
                  Nie ma wielokropka: …
                  Я уже забыл кириллицу.

                  Ale są kody zastępcze znaków, które działają niezależnie od kodowania strony internetowej.
                  Niewygodne jak cholera, więc możliwość pozostaje jako teoretyczna.

                  > 2. Owszem, trzeba coś zrobić samemu, nie pisałem przecież o ustawieniach domyślnych.

                  Dobrze, że nie pisałeś, źle że Microsoft sam ich nie uwzględnił, fatalnie - jeśli korzysta się
                  co rusz z innego sprzętu, a przywykło się je mieć. Więc przywykłem do cudzysłowów "" i trzech ...

                  > 3. ... Notatnik pliki zapisuje zawsze zBOM, choć dla UTF-8 nie jest to wymagane.

                  Podgląd pliku mówi co innego. Zapis UTF-8 z BOM jest dodatkową opcją.
                  Akurat UTF-8 może być łatwo pomylony, więc tu aż się prosi o domyślny znacznik.

                  > 4. ... obejrzałem źródła dostępnej w pełni strony z komentarzami.
                  > To grzech o pomstę do nieba wołający! Ale o tym później.

                  Nigdy nie udało mi się zainteresować administracji tym, jak wygląda forum od strony źródła strony
                  i pobranych dodatkowych plików, w tym CSS i skryptów. A z każdą zmianą wygląda to coraz gorzej.
                  Korzystam ze Stylusa, żeby strona forum wyglądała sensownie i czasem ogłupieć można, nim się
                  znajdzie, co tu trzeba zmienić.

                  > 5. Gdzie używałeś BBCode'u? Tu na forum czy w komentarzach pod artykułami?

                  Oczywiście, że na forum. Z rzadka zdarza mi się czytać komentarze, choć czasami potrafią
                  być sensowne lub zabawne, jeszcze rzadziej komentować. Z "code" czasem korzystam czy
                  to do programów, czy do danych tabelarycznych i powinno pokazać dosłowny tekst, tak jak
                  to robi w podglądzie. Niestety sporo bbcodów nie jest zaimplementowanych, a szkoda.

                  • a_usher Re: Zmiany algorytmów - cyrylica, polska interpun 28.08.20, 04:08
                    wariant_b napisał:

                    > a_usher napisał:
                    >
                    > Я уже забыл кириллицу.

                    A ja sprawdzam, jakie języki na forum są be… Na razie przepuścił alfabety bazujące na łacinie, cyrylicy i grece.

                    > Ale są kody zastępcze znaków, które działają niezależnie od kodowania strony
                    > internetowej.

                    Stosowanie encji zamiast poprawnego kodowania powinno być karane dożywotnim zakazem pracy jako webmaster. Podobny wyrok powinien być dla koderów webmaili uparcie wysyłających UTF-8 zakodowany 7-bitowo (np. jako Quoted Printable).

                    >> 3. ... Notatnik pliki zapisuje zawsze zBOM, choć dla UTF-8 nie
                    >> jest to wymagane.
                    > Podgląd pliku mówi co innego. Zapis UTF-8 z BOM jest dodatkową opcją.

                    Masz rację i nie masz. Naprawili to dopiero w Windows 10 19H1 (build 18298), co znaczy, że BOM był prawie zawsze.

                    > Akurat UTF-8 może być łatwo pomylony, więc tu aż się prosi o domyślny znacznik.

                    Etam. W praktyce mylenie jest możliwe głównie dla windowsowych zestawów znaków dwubajtowych, w szczególności chińskich. Standard mówi, że w UTF-8 BOM nie powinno być, kiedy kodowanie jest deklarowane w inny sposób, czyli Notatnik nie powinien zapisywać BOM dla nowych plików określonych typów (np. HTML czy XML) ani dla plików, które BOM wcześniej nie miały. Ale nie chcę się nad tym rozwodzić – MS rzadko kiedy coś poprawia w starych programach, znacznie częściej psuje po swojemu.
                    • awariant Re: Zmiany algorytmów - cyrylica, polska interpun 28.08.20, 13:47
                      a_usher napisał:

                      > A ja sprawdzam, jakie języki na forum są be…

                      Nadal koreański.
                      Właśnie sprawdziłem na forum testowym. Możesz sprawdzić, że wysłanego postu nie ma.

                      > Stosowanie encji zamiast poprawnego kodowania powinno być karane

                      To nie robota webmastera, ale narzędzia, z jakiego korzysta.
                      Osobie, która chciałaby wstawiać kody ręcznie, mogę tylko współczuć.

                      > Podobny wyrok powinien być dla koderów webmaili uparcie wysyłających UTF-8 zakodowany
                      > 7-bitowo (np. jako Quoted Printable).

                      I będą jeszcze czas jakiś. Kodowanie Base64 to już tradycja poczty i zawsze się może trafić
                      użytkownik z tak kodującym klientem pocztowym lub posiadający program, który pozwala
                      wysłać pocztę korzystając z wywołań. Korzystałem tak kiedyś z Pagasusa (pmail - z NZ, a nie IL).

                      >> Akurat UTF-8 może być łatwo pomylony, więc tu aż się prosi o domyślny znacznik.
                      > Etam.

                      No, nie tak znowu etam. Proste edytory tekstowe, poza tworzeniem szybkich notatek
                      są cały czas używane przez programistów i kwestia strony kodowej jest bardzo istotna.
                      UTF-8 jest zgodny z 7-bitowym ASCII i 8-bitowym ISO-8859-1, więc różnice dotyczą
                      pojedynczych, specyficznych znaków i dość łatwo je przeoczyć. "Krzaczki" nierozpoznanego
                      znacznika BOM widać za to natychmiast, bo są na początku pliku.
                      Wiem, że Notatnik nie nadaje się do pisania większych programów, ale do drobnicy wystarcza.
    • dar61 Czyżby zmiana?... 21.09.20, 11:46
      ...2. Od ładnych kilku tygodni w komentarzach tego tu portalu moje wpisy stosujące polskie znaki cudzysłowu są zamieniane na nie tyle znaki anglosaskiego cudzysłowu, ile na znaki pytajnika. Warto, wręcz trzeba ten mankament wykorzenić...

      Pod artykułem redaktora zwącego się Maciej K. - od niedawna Maciek K. wpis cudzysłowu polskiego w komentarzu unaocznił się w wersji ściśle polskiej.
      Zaskakujące.
      Oby tak pozostało na stałe.
      • a_usher Re: Czyżby zmiana?... 22.09.20, 01:53
        1. Na forum możesz wklejać linki. Nie każ mi szukać artykułu po całej Agorze.
        2. To, co widzisz w weekend, się nie liczy. Liczy się to, co przetrwa poniedziałek.
        3. Jedyna realna zmiana, jaką zauważyłem, to wykropkowane wyrazy znajdujące się na czarnej liście zamiast blokowania komentarza. Tu masz przykład:
        next.gazeta.pl/next/7,172690,26315947,rosja-szef-agencji-kosmicznej-oznajmil-na-konferencji-ze-wenus.html#commentId58616143_
        Otwierasz link, wciskasz przycisk "Pokaż komentarze" i powinien przeskoczyć do właściwego miejsca. Na końcu komentarza jest wykropkowany wpierdol. Celowo wysłałem całe słowo, serwer przyjął, a po jakimś czasie odświeżyłem stronę i zżarło cztery litery.
        • dar61 Czyżby zarzut 23.09.20, 13:52
          Może i powinienem podsunąć łącze zwane linką, ale dla tego Maćka-antytalentu ortograficznego mam osobną półkę >>tu<<
          Wpisów od groma - warto sortować od najnowszego - to ten ostatni (21.09.20, 23:27).

          Poza tym ciekawa tutejsza dyskusja, jaką smakowałem, ma się tyle do działań webmasterów tego portalu, co nic.
          Zmiany są punktowe i lokalne - co sam Kum potwierdza, a powinny byłyby być całościowe.
          Na razie nie mogę potwierdzić zmian w drugim moim zarzucie - cyrylicy/ głagolicy/ grażdanki - czy jak tam ją zwać. Chyba raz mi gdzieś w portalu mignęła w swym oryginale, ale na podglądzie jakiegoś Ćwierkacza, nie w cytacie redakcyjnym, jaki byłby zachował oryginał zapisu.
        • a_usher Re: Czyżby zmiana?... 23.09.20, 19:17
          Cudzysłowy na razie żyją. Ciekawe, jak długo:
          wiadomosci.gazeta.pl/wiadomosci/7,114883,26327044,rafal-ziemkiewicz-skrytykowal-ustawe-antyfutrzarska-i-zniknal.html#commentId58645652_
          • dar61 Czyżby skon?... 24.09.20, 09:20
            Nie do końca.

            A spotkałem w portalu, po samej stronie Redakcji - już i w artykule tenże polski począteczny cudzysłów.
            Wszystko więc jest tam niespójne, a algorytmy to lekceważą.

Nie pamiętasz hasła

lub ?

 

Nie masz jeszcze konta? Zarejestruj się

Nakarm Pajacyka