Dodaj do ulubionych

Potyczki z komputerem.

27.05.22, 22:00
Dwie ciekawostki - w zasadzie fakty znane, ale skala okazała się dla mnie zaskakująca.

Pobieram pozostałości po zlikwidowanym FotoForum, ot tak na pamiątkę.
Ściągnąłem pliki źródłowe z informacjami o poszczególnych zdjęciach (trochę ponad 4 300 000)
a z nich wyciągam programikiem w pythonie adresy zdjęć i inne przydatne informacje i tworzę
z tego pliki dla programu aria2c, którym pobieram same zdjęcia (jest ich trochę ponad 8 milionów).

I tutaj dwa zaskoczenia:
- wiadomo, że program antywirusowy potrafi spowolnić system (u mnie Windows 10 i Defender)
ale jak bardzo? Przy przetwarzaniu mojego skryptu w pythonie - o ok. 1700%. Dokładniej biorąc,
skrypt bez antywirusa analizuje ok. 145 stron (po 40 KB tekstu lub nieco więcej) na sekundę,
z włączonym Defenderem - niecałe 8 stron na sekundę. Osiemnaście razy wolniej.

- wiadomo, że dysk elektroniczny jest dużo szybszy od magnetycznego. Ale przy pobieraniu zdjęć
aria2c z serwera różnica zrobiła się kolosalna - jedna partia (dla 500000 stron - ok. miliona zdjęć)
na dysku magnetycznym pobierała się przez 37 godzin (a takich partii mam 9). Obciążenie dysku
cały czas pełne 100%, a transfery żałośnie niskie. Przerobiłem skrypt, żeby pobierał tylko zdjęcia
publikowane na forach. Na SSD pobierałem po 2 partie równocześnie i trwało to poniżej 2 godzin.
Znowu kilkunastokrotna różnica, choć łącze to samo. Czemu - nie mam pojęcia - może fragmentacja,
a może zabójcza okazała się mieszanka małych (miniaturki) i dużych (podglądówki) plików.

Może ktoś zetknął się z innymi, równie spektakularnymi, a trudnymi do przewidzenia i wytłumaczenia,
przypadkami niewydolności systemu?
Obserwuj wątek
    • serenita123 Re: Potyczki z komputerem. 12.06.22, 23:00
      kiedyś, w zamierzchłych czasach Internetu z transferami mierzonymi w Kb/s i Mb (u szczęściarzy) chciałem sobie ściągnąć całą stronę będącą fotogalerią na zasadzie administrowanego forum z adresu www, by móc ją sobie przeglądać offline.
      Nie pamiętam już jakim to kopiowałem programem, ale po ściągnięciu kilkunastu GB danych przez kilka dni ciągle się ciągnęło i ciągle wisiało na 95%, i ciągle, ciągle mieliło... Po ponad tygodniu przerwałem transfer, bo zaczęło to wyglądać na ciągłe zapętlanie się danych i linków wewnętrznej struktury serwera, z którego toto ciągnąłem.
      Tam też dominowały obrazy, obrazki oraz ich miniatury, pod którymi podwiązane były linki do obrazów i linków, które z kolei były kolejnymi linkami do.... itd.itd. I były to odnośniki tak wewnętrzne, jak i do zewnętrznych stron, baz danych, obrazów, adresów poczty i czort wie czego!
      A choć to było jeszcze w czasach, gdy ilości reklam nie były aż tak dramatyczne, jak obecnie, to jednak i one mieszały w tym procesie.
      próbowałem później odpalić tę stronę offline. Bezskutecznie. Gubiły się powiązania. Nawet nie udało się wyciągnąć z tych danych zdjęć, na których mi zależało.
      Stracony czas i energia.
      • wariant_b Re: Potyczki z komputerem. 13.06.22, 00:47
        Żeby się udało strony powinny być statyczne, a my musimy pobrać zawartość
        kartotek serwera i odtworzyć go u siebie. Od dłuższego czasu mało realne.

        Kartoteki ze zdjęciami itp. zapewne mają ustawiony atrybut d771 (drwxr-x--x)
        czyli możemy dostać się do zawartości, jeśli posiadamy wiedzę, że plik o danej
        nam nazwie istnieje w kartotece. Nie mamy możliwości listowania zawartości.
        Skan pokaże ewentualnie to, co było w cache i w linkach.

        W maju zlikwidowano FotoForum gazety i obiecałem użytkowniczkom odzyskać
        kopię zawartości forów - bez żadnej chęci pomocy ze strony Administracji.
        Zdjęcia trzeba było odzyskiwać poprzez wpisy adresów zdjęć na stronach zdjęć
        i znając je imiennie ściągać indywidualnie za pomocą aria2c lub wget - narzędzia
        do kopiowania stron typu WebCopy czy HTTrack były absolutnie nieprzydatne.
        WebCopy nie był w stanie przetworzyć listy skanowanych plików i się wieszał.

        Galerie też okazały się nieprzydatne, bo miały limit wyświetlania do 10000 pozycji,
        a potem w kółko pokazywały te same zdjęcia. A zdjęć (po 2-3 wersje) doliczyłem się
        ponad 8 milionów, w tym ponad 4 miliony z wykazanym użyciem w tych 90 forach.
        Fajna zabawa, no i nieoczekiwane problemy wydajnościowe opisane wcześniej.

Nie pamiętasz hasła

lub ?

 

Nie masz jeszcze konta? Zarejestruj się

Nakarm Pajacyka