Selvitys palvelukatkosta 26.5. - 2.6.2005
Palvelukatkos 26.5.-2.6.2005
Pahoittelemme heti alkuun pitkästä palvelukatkoksesta aiheutunutta vaivaa sekä ongelmia. Tässä tiedotteessa pyrimme kertomaan, mitä oikeasti tapahtui.
Uusien palvelimien nimet ja merkitykset
Lakka on uusi shell-palvelin, Karpalo on NFS-palvelin ja Tyrnistä on tarkoitus tulla myöhemmin hallinnon palvelin. Tyrnille on tarkoitus tulla esimerkiksi yhdistyksen www-sivut, tiedotuksen sähköposti huoltokatkoksien aikana jne. Box-nimeä voi käyttää edelleen tarkoittamaan Lakka ja Karpalo -järjestelmää ja mahdollisesti myös tulevaisuudessa Lakan rinnalle tulevia uusia shell-palvelimia.
Karpalo on tavallista PC-laitteistoa, Lakka taas HP:n ns. oikea palvelin ja Tyrni on suurimmaksi osaksi vanhan Box-palvelimen osista koottu. Lisätietoa laitteistosta löytyy yhdistyksen kotisivuilta.
Lauantai 9.4.2005
Uudet Lakka- ja Karpalo-palvelimet vietiin Nebulan tiloihin ja vanhoista osista asennettiin paikan päällä uusi Tyrni-palvelin. Uutta Lakkaa ja Karpaloa oli testattu etukäteen muutaman viikon ajan, mutta Boxin levyjärjestelmä oli jo liian suuri parempaa testaamista varten. Verkon yli ei pystytty siirtämään käyttäjien kotihakemistoja ja muita tiedostoja.
Sen hetkinen Box-palvelin oli jo viikkoja joutunut olemaan ylikuormitettu, koska aikaisemmalle syksylle/talvelle suunniteltua uutta palvelinta ei oltu saatu hankittua aikataulussa.
Levyjärjestelmässä ja NFS:ssä todettiin tämän jälkeen useita erilaisia häiriöitä, joiden takia palvelimia jouduttiin käynnistämään uudelleen. Tällainen ei ole Kapsin ylläpidossa normaali korjaustapa, mutta esimerkiksi Karpalolla ilmenneeseen ReiserFS-tiedostojärjestelmän vs-3050 -tilanteeseen ei ole muita vaihtoehtoja kuin käynnistää palvelin uudelleen. Osittain näiden ongelmien on oletettu johtuneen avattujen tiedostojen määrästä NFS-osion yli (alkuvaiheessa eräät softat avasivat paljon lokitiedostoja kotihakemistoihin) sekä myöhemmät mahdollisesti ReiserFS-tiedostojärjestelmästä myöhemmin löytyneestä vakavasta virheestä.
Torstai 26.5.2005
Karpalo-palvelimeen lisättiin ylläpidon toimesta kaksi uutta kiintolevyä. Kyseiset levyt olisivat lisänneet varmuuskopioille varattua tilaa. Karpalossa alkoi ilmenemään välittömästi ongelmia sekä BIOS:n että kyseisten kiintolevyjen kanssa. BIOS arpoi käynnistyskiintolevyille uuden järjestyksen sekä joka käynnistyksen yhteydessä näytti käynnistysvalikossa vain seitsemän levyä yhdeksän sijasta. Välillä siis myös käynnistyskiintolevyt olivat listan ulkopuolella.
Kun Karpalo saatiin käynnistettyä kyseisten levyjen kanssa, huomattiin että Linux näyttää vain toisen levyistä. Kun erilaisia variaatioita oli kokeiltu, pääteltiin että toisessa kiintolevyssä olisi vikaa ja päätettiin jättää Karpaloon vain toinen uusista levyistä.
Myöhemmin torstaina Karpalo oli yön aikana kaatunut. Karpaloon meillä ei ole etähallintayhteyttä kuten Lakkaan, joten sitä ei voinut käynnistää uudelleen etänä. Näinollen myöskään Lakka-palvelin ei voinut palvella jäseniä ilman kotihakemistoja ja sähköpostitilaa.
Perjantai 27.5.2005
Perjantaina Karpaloa koetettiin saada kuntoon etänä ja se saatiinkin käynnistettyä joitakin kertoja Nebulan ystävällisellä avustuksella. Silti täydellä kuormalla Karpalo pysyi päällä vain alle puoli minuuttia, mutta palveluita nopeasti alas ajamalla saimme sen pysymään jopa 45 minuuttia pystyssä. Kun testasimme käyttöjärjestelmässä ajettavalla memtest-ohjelmalla muistia, Karpalo kaatui aina samassa kohdassa toisen testin kuluessa. Tästä ryhdyimme epäilemään vikaa muisteissa.
Tässä vaiheessa ylläpidolla kävi mielessä myös SCSI-levyjen hankinta Lakkaan, jolloin Karpalon rooli ei olisi niin kriittinen jäsenpalveluiden suhteen.
Lauantai-sunnuntai 28.-29.5.2005
Päätettiin lähettää ylläpitoryhmä maanantaina paikanpäälle katsomaan ja tutkimaan ongelmaa. Ylläpitoryhmään kuuluivat ylläpidon uusi toiminnanjohtaja Tuomas Salomäki ja vanhempi ylläpidon edustaja Jaakko Heusala.
Ei suoritettu erityisiä toimenpiteitä, koska palvelimen käynnistäminen Nebulan toimesta virka-ajan ulkopuolella maksaa ja jo perjantaina todettiin, ettei Karpalo pysy puolta tuntia pidempään pystyssä.
Maanantai 30.5.2005
Ylläpito pääsi iltapäivällä Nebulalle. Ensimmäisenä ajettiin muistitesti läpi, mutta muisteista ei löytynyt vikaa. Kyseessä oli tällä kertaa sellainen testi, jota ei etänä pystytty ajamaan. Ajallisesti elettiin jo pitkälle maanantai-iltapäivää, joten palvelin otettiin mukaan Nebulalta ja sitä lähettiin korjaamaan erään ylläpitäjän kotiin, koska tällä kertaa kaikki oli tarkoitus korjata lopullisesti.
Myöhemmin illalla ajettiin uudestaan muistitesti, taaskin ilman minkäänlaisia virheilmoituksia. Kone viriteltiin kunnolla päälle ja koitettiin toistaa aikaisempi kaatuminen ohjelmalla, jolla palvelin oli aiemmin kaatunut - palvelimen kuitenkaan kaatumatta.
Samoin palvelimessa ajettiin läpi home-osion tiedostojärjestelmän (ReiserFS) testaus. Tiedostojärjestelmästä löytyi yksi erittäin vakava virhe. Tämän virheen voisi korjata vain ajamalla pitkäkestoinen ja riskialtis operaatio (rebuild tree) tiedostojärjestelmälle. Operaatiota varten ryhdyttiin ottamaan varmuuskopiota toiselle uusista asennetuista kiintolevyistä. Varmuuskopioiden ottamisessa kesti normaaliin tapaan koko yö.
Tiistai 31.5.2005
Tiedostojärjestelmä saatiin korjattua, sillä varauksella ettei joitain tiedostoja olisi pystytty liittämään tiedostojärjestelmään sellaisenaan. Tiistaina ajettiin myös lisää kuormitustestejä ja suoritettiin loppuun levynlisäysoperaatio.
Kello 11:30 hallitus piti ylimääräisen kokouksen, jossa se päätti ylläpidon suosituksesta tilata 4 kpl 146 GB SCSI-levyjä aiemmin tulleen tarjouksen perusteella. Kyseessä oli HP:n lennosta kiinnitettäviä merkkilevyjä Lakka-palvelimeen. Jatkossa Lakkaa ei tarvitse käynnistää uudestaan levyn vaihdon johdosta.
Keskiviikko 1.6.2005
Puolenpäivän tienoilla SCSI-levyt toimitettiin ylläpidolle, joka lähti asentamaan levyjä n. kello 16:00. Levyt olivat HP:n omia hotplug-levyjä, joten niiden asennus sujui ilman ongelmia.
Matkaan lähtenyt ylläpito delegoi asennuksen jälkeen jatkotoimenpiteet muulle ylläpidolle ja lähti takaisin kohti Oulua. Ensimmäisenä ylläpito lisäsi uusille levyille LVM:t (Logical Volume Management), osioi ne ja teki tiedostojärjestelmät niille. Karpalolla ollut kotihakemistopaketin siirto Lakalle aloitettiin myös. Lakalta suljettiin käyttäjien palvelut siirron ajaksi.
Myöhemmin alettiin purkamaan kotihakemistopakettia uusille levyille. Samalla suljettiin sähköpostipalvelut Lakalla, koska myös sähköpostien siirto Karpalolta alkoi. 120 gigan paketin purkaminen kesti koko keskiviikon-torstain välisen yön ja jatkamaan päästiin vasta torstai-aamuna.
Torstai 2.6.2005
Asennusta jatkettiin aamulla kello 06:00, jolloin muuttuneet tiedot ajettiin eilisen varmuuskopion päälle. Tämän jälkeen palvelut lähtivät toimimaan jäsenille n. 08:00-09:00, jonka jälkeen Lakka on toiminut ilman suurempia katkoksia.
Lisätietoa
Ylläpito huomasi jälkikäteen, että osa tulleista sähköposteista oli kadonnut. Sähköpostin varapalvelimilta varmistettiin jo edellisenä viikonloppuna, että sähköposti tulisi talteen katkon aikana. Tässä sattui valitettavasti inhimillinen erehdys sähköpostin säilytysajan tarkistuksen yhteydessä ja tämän johdosta katkoksen aikana yli neljä päivää odottaneet postit palautettiin lähettäjilleen.
Mahdollisesti kadonneista sähköposteista tai tiedostoista voi ottaa yhteyttä ylläpitoon osoitteeseen shell@kapsi.fi.