Scrape languages from lichess listing. (#10)

2023-12-05 14:20:46 -07:00 · 2023-12-05 14:20:46 -07:00 · ef5d296097
parent 82dbef21b6
commit ef5d296097
8 changed files with 152 additions and 12 deletions
--- a/app/main.py
+++ b/app/main.py
@ -8,7 +8,7 @@ import psycopg2
 from app.chesscom import Pipeline as ChesscomPipeline
 from app.database import backup_database
 from app.lichess import Pipeline as LichessPipeline
-from app.site import Site
+from app.types import Site
 # The number of parallel extraction jobs that are run at a time.
 WORKER_COUNT = 10
--- a/app/chesscom.py
+++ b/app/chesscom.py
@ -10,7 +10,7 @@ from bs4 import BeautifulSoup, SoupStrainer, Tag
 from app.pipeline import Extractor as BaseExtractor
 from app.pipeline import Fetcher as BaseFetcher
 from app.pipeline import Pipeline as BasePipeline
-from app.site import Site
+from app.types import Site
 # The number of coach listing pages we will at most iterate through. This number
 # was determined by going to chess.com/coaches?sortBy=alphabetical&page=1 and
@ -156,6 +156,10 @@ class Extractor(BaseExtractor):
            return None
        return src
    def get_languages(self) -> List[str] | None:
        # TODO: Extract using huggingface model.
        return None
    def get_rapid(self) -> int | None:
        return self.stats_json.get("rapid", {}).get("rating")
--- a/app/database.py
+++ b/app/database.py
@ -1,10 +1,10 @@
 import sys
 from datetime import datetime
-from typing import Literal
+from typing import List, Literal
 from typing_extensions import TypedDict
-from app.site import Site
+from app.types import Site
 SCHEMA_NAME = "coach_scraper"
 TABLE_NAME = "export"
@ -15,6 +15,7 @@ RowKey = (
    | Literal["username"]
    | Literal["name"]
    | Literal["image_url"]
    | Literal["languages"]
    | Literal["rapid"]
    | Literal["blitz"]
    | Literal["bullet"]
@ -35,6 +36,8 @@ class Row(TypedDict, total=False):
    name: str
    # Profile image used on the source site.
    image_url: str
    # The list of languages the coach is fluent in.
    languages: List[str]
    # Rapid rating relative to the site they were sourced from.
    rapid: int
    # Blitz rating relative to the site they were sourced from.
@ -90,6 +93,7 @@ def upsert_row(conn, row: Row):
              , username
              , name
              , image_url
              , languages
              , rapid
              , blitz
              , bullet
@ -102,12 +106,14 @@ def upsert_row(conn, row: Row):
              , %s
              , %s
              , %s
              , %s
              )
            ON CONFLICT
              (site, username)
            DO UPDATE SET
              name = EXCLUDED.name,
              image_url = EXCLUDED.image_url,
              languages = EXCLUDED.languages,
              rapid = EXCLUDED.rapid,
              blitz = EXCLUDED.blitz,
              bullet = EXCLUDED.bullet;
@ -117,6 +123,7 @@ def upsert_row(conn, row: Row):
                row["username"],
                row.get("name"),
                row.get("image_url"),
                row.get("languages", []),
                row.get("rapid"),
                row.get("blitz"),
                row.get("bullet"),
--- a/app/lichess.py
+++ b/app/lichess.py
@ -9,7 +9,7 @@ from bs4 import BeautifulSoup, SoupStrainer, Tag
 from app.pipeline import Extractor as BaseExtractor
 from app.pipeline import Fetcher as BaseFetcher
 from app.pipeline import Pipeline as BasePipeline
-from app.site import Site
+from app.types import Site, lang_to_code
 # The number of pages we will at most iterate through. This number was
 # determined by going to https://lichess.org/coach/all/all/alphabetical
@ -161,6 +161,22 @@ class Extractor(BaseExtractor):
            return None
        return src
    def get_languages(self) -> List[str] | None:
        if self.profile_soup is None:
            return None
        tr = self.profile_soup.find("tr", class_="languages")
        if not isinstance(tr, Tag):
            return None
        td = tr.find("td")
        if not isinstance(td, Tag):
            return None
        codes = []
        for lang in [s.strip() for s in tr.get_text().split(",")]:
            if lang in lang_to_code:
                codes.append(lang_to_code[lang])
        return codes
    def get_rapid(self) -> int | None:
        return self._find_rating("rapid")
--- a/app/pipeline.py
+++ b/app/pipeline.py
@ -5,7 +5,7 @@ from typing import Any, List, Tuple
 import aiohttp
 from app.database import Row, RowKey, upsert_row
-from app.site import Site
+from app.types import Site
 class Fetcher:
@ -104,6 +104,9 @@ class Extractor:
    def get_image_url(self) -> str | None:
        raise NotImplementedError()
    def get_languages(self) -> List[str] | None:
        raise NotImplementedError()
    def get_rapid(self) -> int | None:
        raise NotImplementedError()
@ -122,6 +125,7 @@ class Extractor:
        _insert(row, "name", self.get_name())
        _insert(row, "image_url", self.get_image_url())
        _insert(row, "languages", self.get_languages())
        _insert(row, "rapid", self.get_rapid())
        _insert(row, "blitz", self.get_blitz())
        _insert(row, "bullet", self.get_bullet())
--- a/app/site.py
+++ b/app/site.py
@ -1,6 +0,0 @@
 import enum
 class Site(enum.Enum):
    CHESSCOM = "chesscom"
    LICHESS = "lichess"
--- a/app/types.py
+++ b/app/types.py
@ -0,0 +1,114 @@
 import enum
 class Site(enum.Enum):
    CHESSCOM = "chesscom"
    LICHESS = "lichess"
 class Language(enum.Enum):
    en_GB = "English"
    af_ZA = "Afrikaans"
    an_ES = "Aragonés"
    ar_SA = "العربية"
    as_IN = "অসমীয়া"
    av_DA = "авар мацӀ"
    az_AZ = "Azərbaycanca"
    be_BY = "Беларуская"
    bg_BG = "български език"
    bn_BD = "বাংলা"
    br_FR = "Brezhoneg"
    bs_BA = "Bosanski"
    ca_ES = "Català, valencià"
    ckb_IR = "کوردی سۆرانی"
    co_FR = "Corsu"
    cs_CZ = "Čeština"
    cv_CU = "чӑваш чӗлхи"
    cy_GB = "Cymraeg"
    da_DK = "Dansk"
    de_DE = "Deutsch"
    el_GR = "Ελληνικά"
    en_US = "English (US)"
    eo_UY = "Esperanto"
    es_ES = "Español"
    et_EE = "Eesti keel"
    eu_ES = "Euskara"
    fa_IR = "فارسی"
    fi_FI = "Suomen kieli"
    fo_FO = "Føroyskt"
    fr_FR = "Français"
    frp_IT = "Arpitan"
    fy_NL = "Frysk"
    ga_IE = "Gaeilge"
    gd_GB = "Gàidhlig"
    gl_ES = "Galego"
    gsw_CH = "Schwizerdütsch"
    gu_IN = "ગુજરાતી"
    he_IL = "עִבְרִית"
    hi_IN = "हिन्दी, हिंदी"
    hr_HR = "Hrvatski"
    hu_HU = "Magyar"
    hy_AM = "Հայերեն"
    ia_IA = "Interlingua"
    id_ID = "Bahasa Indonesia"
    io_EN = "Ido"
    is_IS = "Íslenska"
    it_IT = "Italiano"
    ja_JP = "日本語"
    jbo_EN = "Lojban"
    jv_ID = "Basa Jawa"
    ka_GE = "ქართული"
    kab_DZ = "Taqvaylit"
    kk_KZ = "қазақша"
    kmr_TR = "Kurdî (Kurmancî)"
    kn_IN = "ಕನ್ನಡ"
    ko_KR = "한국어"
    ky_KG = "кыргызча"
    la_LA = "Lingua Latina"
    lb_LU = "Lëtzebuergesch"
    lt_LT = "Lietuvių kalba"
    lv_LV = "Latviešu valoda"
    mg_MG = "Fiteny malagasy"
    mk_MK = "македонски јази"
    ml_IN = "മലയാളം"
    mn_MN = "монгол"
    mr_IN = "मराठी"
    nb_NO = "Norsk bokmål"
    ne_NP = "नेपाली"
    nl_NL = "Nederlands"
    nn_NO = "Norsk nynorsk"
    pi_IN = "पालि"
    pl_PL = "Polski"
    ps_AF = "پښتو"
    pt_PT = "Português"
    pt_BR = "Português (BR)"
    ro_RO = "Română"
    ru_RU = "русский язык"
    ry_UA = "Русинська бисїда"
    sa_IN = "संस्कृत"
    sk_SK = "Slovenčina"
    sl_SI = "Slovenščina"
    sq_AL = "Shqip"
    sr_SP = "Српски језик"
    sv_SE = "Svenska"
    sw_KE = "Kiswahili"
    ta_IN = "தமிழ்"
    tg_TJ = "тоҷикӣ"
    th_TH = "ไทย"
    tk_TM = "Türkmençe"
    tl_PH = "Tagalog"
    tp_TP = "Toki pona"
    tr_TR = "Türkçe"
    uk_UA = "українська"
    ur_PK = "اُردُو"
    uz_UZ = "oʻzbekcha"
    vi_VN = "Tiếng Việt"
    yo_NG = "Yorùbá"
    zh_CN = "中文"
    zh_TW = "繁體中文"
    zu_ZA = "isiZulu"
 code_to_lang = {lang.name.replace("_", "-"): lang.value for lang in Language}
 lang_to_code = {lang.value: lang.name.replace("_", "-") for lang in Language}
--- a/sql/init.sql
+++ b/sql/init.sql
@ -8,6 +8,7 @@ CREATE TABLE coach_scraper.export
  , username VARCHAR(255) NOT NULL
  , name VARCHAR(255)
  , image_url TEXT
  , languages TEXT[]
  , rapid INT
  , blitz INT
  , bullet INT