استخراج کلمات کلیدی یک یا چند کتاب ( یا هر منبع متنی دیگر)


قبلاً در درسی دیگر، گفتیم که برای فهمیدن ۹۰% از کلمات یک متن یا یک گفتار، باید حدود ۱۲ هزار کلمه از پرکاربردترین کلمات انگلیسی را بلد باشیم.

از طرفی ما انتظار داریم کلمات را با کیفیت خوبی یاد بگیریم. صرف حفظ کردن ترجمه فارسی یک کلمه انگلیسی کافی نیست. لازم است معنی دقیق آن ( به کمک دیکشنری انگلیسی به انگلیسی) را بخوانیم. آن را در قالب جمله یاد بگیریم و تلفظ و املای آن را هم بدانیم.

با توجه به این سخت‌گیری ما برای یادگیری کلمات، مسلط شدن به این ۱۲ هزار کلمه، کار دشوار و زمانبری است.

یکی از کارهای اثربخشی که می‌توانیم انجام دهیم این است که مثلاً حدود سه یا دو هزار کلمه از کلمات رایج زبان انگلیسی را یاد بگیریم. بعد برویم سراغ حوزه یا حوزه‌هایی که مایلیم زبان خود را در آنجا تقویت کنیم و کلمات تخصصی آن حوزه را یاد بگیریم. به عنوان مثال:

  • یک نفر ممکن است زبان انگلیسی را برای مهاجرت بخواهد. چنین شخصی باید کلمات و جملات مربوط به زندگی روزمره و زبان انگلیسی محاوره‌ای را در اولویت قرار دهد.
  • یک نفر پزشک نیاز دارد تمام کلمات تخصصی مربوط به بدن و کلمات و  اصطلاحات حوزه پزشکی را بداند.
  • شخص دیگری ممکن است قصد مهاجرت نداشته باشد اما بخواهد با ادبیات تخصصی بازاریابی یا روانشناسی آشنا باشد.
  • همچنین کسی که قصد دارد تمام کتابهای هری پاتر را بخواند، بهتر است اول چند ده کلمه از کلمات پرتکرار این داستان را ( که در عکس بالا آمده) یاد بگیرید.

روش‌های مختلفی برای انجام این کار یعنی متمرکز شدن روی کلمات یک حوزه وجود دارد. در این درس، یک روش‌ جالب و خلاقانه را یاد می‌گیریم.

پرتکرارترین کلمات تخصصی یک کتاب، کدام‌ کلمات هستند؟

اجازه بدهید اول دو نکته‌ای که بارها به آن اشاره کرده‌ایم را تکرار کنیم و با کنار هم قرار دادن آنها، موضوع اصلی این درس را شروع کنیم:

۱) یکی از منابع مفید یادگیری زبان، لیست‌های رایج‌ترین کلمات زبان انگلیسی هستند. برای نمونه، لیست دو هزار کلمه یا پنج هزار کلمه رایج انگلیسی.

این لیست، خروجی تحقیقات بسیار گسترده روی صدها میلیون کلمه است.

[لینک مرتبط : چند کلمه انگلیسی باید بلد باشیم؟]

۲) خواندن کتاب‌های جذاب و مفید انگلیسی، یکی از بهترین‌ راه‌های تقویت زبان و به ویژه مهارت درک مطلب و افزایش دایره کلمات انگلیسی است.

[لینک مرتبط : خواندن کتاب برای تقویت زبان انگلیسی]

سوال مهمی که اینجا مطرح می‌شود این است که آیا می‌توان قبل از خواندن یک کتاب، رایج‌ترین کلمات آن را استخراج کرد؟

اگر اینکار امکان‌پذیر باشد، می‌توانیم ابتدا مثلاً ۱۰۰-۲۰۰ کلمه از این کلمات را یاد بگیریم و بعد خواندن آن کتاب را شروع کنیم.

اجازه بدهید این موضوع را به کمک یک مثال واقعی به صورت شفاف‌تر توضیح دهیم. متن زیر را در نظر بگیرید:

if current planting rates are ___ with planting ___ satisfied in each ___ and the forests milled at the earliest opportunity, the ___ wood supplies could further increase to about 36 million ___ meters ___ in the ___ ۲۰۰۱-۲۰۱۵. The  ___ ___ wood supply should greatly ___ ___ ___ , even if much is used for ___ production.

تمام کلماتی که در این متن آمده، جز ۲۰۰۰ کلمه رایج انگلیسی هستند و کلماتی که به جای آنها، علامت ___ آمده، جز این لیست نیستند.

یعنی کسی که فقط دو هزار کلمه بلد است، معنی ۸۰% کلمات این متن را می‌فهمد (این عدد برای گفتارها، حدود ۹۰% است چون تنوع کلمات در آنجا کمتر است)

برای آنکه بتواند ۹۰% این متن را بفهمد دو راه دارد:

۱) ۴-۵ هزار کلمه دیگر از لیست پرکاربرد ترین کلمات انگلیسی را یاد بگیرد.

۲) ۵۰۰ کلمه از کلمات تخصصی این حوزه را یاد بگیرد.

یعنی کسی که حدود ۶۰۰۰ کلمه رایج انگلیسی یا ۲۰۰۰ کلمه رایج و ۵۰۰ کلمه تخصصی این حوزه را می‌داند، کلمات زیر از این متن را متوجه می‌شود.

If current planting rates are maintained with planting targets satisfied in each region and the forests milled at the earliest opportunity, the available wood supplies could further increase to about 36 million ___ meters ___ in the period 2001-2015. The ___ available wood supply should greatly exceed domestic requirements, even if much is used for energy production.

پس می‌توان نتیجه گیری کرد که ” قبل از ورود به یک حوزه، بهتر است اول کلمات تخصصی آن حوزه را یاد بگیریم”.

با این روش، راحت‌تر دایره کلمات خود را در این حوزه گسترش می‌دهیم و بخش بیشتری از کتابی که قرار است مطالعه آن را شروع کنیم، برای ما آشنا خواهد بود. در نتیجه مطالعه آن کتاب را ساده‌تر، روان‌تر وسریع‌تر انجام می‌دهیم.

سوالی که ممکن است به ذهن شما برسد این است که آیا می‌توان یک کتاب یا حتی پنج کتاب مرجع و رفرنس مثلاً روانشناسی یا پزشکی را تحلیل کرد و کلمات تخصصی و رایج در این کتابها را استخراج کرد؟

خوشبختانه به کمک ابزارهایی که در اینترنت در دسترس ما هستند، این کار – اگر چه چندان راحت و سریع نیست – امکان‌پذیر است.

در ادامه این درس، نحوه انجام اینکار را یاد می‌گیریم. فرض می‌کنیم که قرار است شروع به مطالعه یک کتاب تخصصی بکنیم اما قبل از اینکار می‌خواهیم اول چند ده کلمه تخصصی آن را استخراج کنیم و یاد بگیریم.

دستورالعمل یافتن کلمات تخصصی یک حوزه

فرض کنید قرار است کلمات تخصصی کتاب Freedom evolves از Daniel Dennett را استخراج کنیم. در زیر مراحل انجام این کار را قدم به قدم توضیح می‌دهیم.

۱) تبدیل کتاب به متن (فایل تکست یا txt) :

ورودی ابزارهای تحلیلی که در زیر با آنها کار می‌کنیم، فایل متنی یا txt است. پس اول باید کتابی که داریم را به فایل txt تبدیل کنیم. ما به کمک ابزارهای رایگان تحت وب، فایل کتاب را تبدیل به فرمت text می‌کنیم.

  • برای مثال اگر فرمت کتاب pdf  باشد، از سایت PDFtoTEXT استفاده می‌کنیم:
  • اگر فرمت آن epub باشد، از این سایت استفاده می‌کنیم: OnlineConverter
  • با جستجوی کلماتی مانند online convert epub to txt ابزارهای متعددی مانند این دو مورد را می‌توانیم پیدا کنیم.

فرمت کتابی که ما در اختیار داریم، pdf است. بنابراین به وسیله سایت بالا، نسخه pdf کتاب Freedom evolves (+) را تبدیل به txt می‌کنیم:

با کلیک روی دکمه DOWNLOAD می‌توانیم فایل تکست این کتاب را دانلود کنیم (دانلود).

۲) استخراج کلمات پرتکرار کتاب:

بعد فایل متنی کتاب را با یک ویرایشگر ساده مانند notepad باز می‌کنیم، کل متن کتاب را انتخاب و کپی می‌کنیم و آن را داخل ابزار The Compleat Lister کپی می‌کنیم:

شاید کنجکاو باشید بدانید تعداد کل کلمات این کتاب چند کلمه است. برای دانستن آن تنها کافیست روی دکمه count کلیک کنید.

بعد با زدن دکمه Submit window لیست کلمات این کتاب بر اساس فراوانی را مشاهده می‌کنیم.

ستون سمت راست، مربوط به لیست کلمات این کتاب بر اساس فراوانی است. همانطور که ‌بینیم، کلمات اول این لیست، the و of  و to و … هستند که احتمالاً در هر متنی جز تکراری ترین کلمات هستند.

۳) حذف کلمات پرتکرار عمومی از این لیست

اما ما بیشتر این کلمات بالای لیست را بلدیم و دنبال کلمات تخصصی این کتاب هستیم. پس باید این کلمات عمومی پرتکرار را از این فایل حذف کنیم.

برای این منظور، کلمات ستون سمت راست ( کلمات بر اساس فراوانی) را انتخاب و کپی می‌کنیم

و داخل ابزار Compleat Text Stripper قرار می‌دهیم:

همانطور که می‌بینیم، لیست این کلمات نامرتب است و اضافات زیادی مانند عددها و علامت _ پشت کلمات دارد. با زدن دکمه‌های زیر فرم بالا، یعنی دکمه‌های Figuers و پنج دکمه کنار آن، این لیست را مرتب‌تر می‌کنیم:

در زیر کادر اصلی عکس بالا، دو کادر کوچک هم وجود دارد. الان قرار است برای حذف کلمات پرتکرار عمومی، از کادر سمت چپ که بالای آن نوشته Remove Specific Words استفاده کنیم.

برای حذف یک کلمه یا چندین کلمه، کافیست آن را وارد این کادر کوچک کنیم و  بعد دکمه Remove these words را بزنیم تا این کلمات از کادر اصلی (یعنی لیست کلمات کتاب) حذف شود.

الان سوال اصلی این است که چه کلماتی را حذف کنیم؟ انتخاب‌های متعددی برای اینکار داریم:

گاهی اگر لیست طولانی از کلمات را وارد این کادر کنیم، به دلایل مختلف از جمله منابع پردازشی سرور، پهنای‌باند اینترنت ما یا تعداد کلمات کتاب، اتفاقی نیفتد؛ یعنی کلمات داخل این کادر از لیست کلمات کتاب حذف نشوند. کاری که می‌توان در این صورت انجام داد این است که هر بار چند صد کلمه را وارد کادر پایین کرد و آنها را حذف کرد. بعد این کار را برای چند صد کلمه بعدی تکرار کرد و این کار را تا آخر انجام داد.

حذف کلمات هم خانواده:

ممکن است برایتان عجیب باشد که چرا کلمات پرکاربردی مانند am و had از لیست بالا حذف نشده‌اند. علت آن این است که مثلاً در لیست ۲۰۰۰ کلمه، فقط نماینده هر خانواده کلمه آمده است. مثلا به جای am و is و are و … مصدر آن یعنی be آمده است. یا به جای has و had و …، فقط have در لیست وجود دارد. به همین ترتیب برای بسیاری از کلمات دیگر.

پس بهتر این است که برای برخی کلمات مانند این دو مورد، لیست خانواده کلمات آنها را هم در این کادر قرار دهیم تا حذف شوند. برای اینکار از ابزار Familizer/Lemmatizer استفاده می‌کنیم:

این ابزار یک کلمه یا لیستی از کلمات را می‌گیرد و کلیه کلمات هم خانواده آن را به ما می‌دهد. برای مثال اگر کلمه be را وارد آن کنیم، نتیجه آن به این صورت خواهد بود:

البته به جای وارد کردن یک کلمه، می‌توانیم تعداد زیادی کلمه، مثلاً دو هزار کلمه رایج انگلیسی را وارد این لیست کنیم:

و تمام کلمات عضو آن خانواده را به دست بیاوریم:

با حذف کردن تمام این موارد، در نهایت به یک لیست مانند لیست زیر می‌رسیم:

این لیست نهایی، همان کلمات تخصصی این کتاب است. همانطور که ‌بینید، کلمات تخصصی این کتاب کاملاً مرتبط به موضوع کتاب هستند.

از این به بعد قبل از خواندن هر کتابی، اینکار را انجام می‌دهیم. بار اول یا چند بار اول ممکن است انجام همه اینکارها زمانبر و سخت باشد اما بعد از آنکه آن را کامل یاد گرفتید، در ۵ تا ۱۵ دقیقه می‌توانید لیست کلمات تخصصی یک کتاب را استخراج کنید.

در بخش‌های مختلف ابزارهایی که گفتیم، گزینه‌ها و امکانات مفید دیگری هم وجود دارد. برای مثال با کلیک روی دکمه count می‌توانیم تعداد کلمات لیست نهایی یا تعداد کلمات کتاب را به دست بیاوریم.

ما در این درس سعی کردیم روی حداقل کارهای لازم برای به دست آوردن لیست کلمات تخصصی یک کتاب را انجام دهیم.

بررسی موارد جزئی‌تر و خاص‌تر را به خود شما واگذار می‌کنیم. اگر هم در مورد مشخصی سوال داشتید، می‌توانید در نظرات زیر این درس آن را مطرح کنید تا در آنجا به صحبت درباره آن مورد مشخص بپردازیم.


قبل از شروع مطالعه کتاب: یادگیری کلمات تخصصی آن

هدف ما از تمام کارهایی که در این درس انجام دادیم این بود که قبل از مطالعه یک کتاب، با یادگیری کلمات پرتکرار آن، تا حد امکان سطح پوشش کلمات آن را برای خود بیشتر کنیم. یعنی کلمات بیشتری از آن را بلد باشیم تا بخش بیشتری از آن را بفهمیم.

بنابراین حال که چنین لیستی را به دست آوردیم، لازم است قبل از شروع به مطالعه کتاب، چند ده یا چند صد کلمه اول این کتاب یا کتابها را ( بسته به سطح دشواری کتاب) یاد بگیریم.

برای انجام اینکار، به روشی که قبلاً یاد گرفتیم، برای این کلمات فلش‌کارت از نوع کلمه جدید درست می‌کنیم.

[درس مرتبط: نحوه درست کردن فلش‌کارت برای کلمات جدید]

بد نیست اشاره‌ای به نمونه جمله‌ای که قرار است برای این کلمات پیدا کنیم، داشته باشیم. برای انتخاب نمونه جمله، هم می‌توانیم از یک دیکشنری مانند لانگمن استفاده کنیم، هم با جستجوی آن کلمه در فایل متنی کتاب ( که در ابتدای این درس به دست آوردیم) و انتخاب یک جمله دلخواه، جمله مناسب‌تر و مرتبط‌تری را پیدا کنیم.

در درس مربوط به یادگیری ۲۰۰۰ کلمه رایج انگلیسی هم در این باره و جزئیات دیگر یادگیری کلمات جدید نکات بیشتری را توضیح دادیم.

قبل از تمام شدن این درس، لازم اشاره کنیم به اینکه تمام آموزش‌های این درس را می‌توان برای هر منبع متنی دیگری انجام داد. مثلاً می‌توان کل زیرنویس‌های یک سریال را به این شیوه پردازش کرد یا حتی با بررسی زیرنویس‌های صدها فیلم و چند گیگابایت زیرنویس، به یک لیست کاربردی از پرکاربردترین کلمات محاوره‌ای زبان انگلیسی رسید.

کتاب مورد علاقه خود را از سایت libgen.lc دانلود کنید و لیست کلمات تخصصی آن را بر اساس آموزش‌های این درس به دست بیاورید.

6 دیدگاه دربارهٔ «استخراج کلمات کلیدی یک یا چند کتاب ( یا هر منبع متنی دیگر)»

  1. ممنون هیوا جان بسیار عالی

    هیوا جان کتابی که انتخاب کردم رو تونستم از سایت زیر که در درسهای دیگه معرفی کرده بودین دانلود کنم

    https://libgen.is/

    فقط مشکلی که هست اینه که فرمت کتاب به صورت epup هست ممنون میشم راهنمایی ام کنید که با چه نرم افزاری میشه کتاب های با فرمت epup رو باز کرد؟

    یک مورد دیگه هم بود که دوست داشتم یاد بگیرم و اون هم اینکه چه طوری می تونیم یک کتاب با فرمت epup رو به فرمت pdf تبدیل کنیم ؟
    البته شما در درس فرمودین که اگر فرمت کتاب به صورت epup بود از سایت زیر برای تبدیل کتاب به text استفاده کنیم.
    https://www.onlineconverter.com/epub-to-txt

    1. سلام همایون جان،
      یکی از مهارت های خیلی ارزشمندی که در این زمینه ها بهمون کمک میکنه مهارت سرچ، یا دقیقتر بگم عادت کردن به استفاده زیاد از گوگل هست.
      مثلاً من باشم سرچ میکنم: نرم افزار باز کردن epub
      سریع به نرم افزاری مثل sumatrapdf می رسیم که خودم هم برای باز کردن این فایلها ازش استفاده میکنم
      روی گوشی هم اپ های مختلفی برای این کار وجود داره مثل epub reader
      مورد دوم رو هم که گفتی با همین سرچ میشه پیدا کرد (میدونم خودت هم همینکارو کردی که به این سایتی که گفتی رسیدی):
      Google: epub to pdf convertor
      ولی به طور کلی من خودم این تبدیل رو انجام نمیدم و همون epub رو استفاده میکنم

      1. سلام هیوا جان ممنون لطف کردین

        بله قطعا همین طوره راستش برای نرم افزاری که بشه باهاش فایل های epup رو باز کرد سرچ کردم و یکی دو نرم افزار رو هم تست کردم اما کار نمی کردن که خب باید بیشتر سرچ می کردم و حتما به توصیه تون عمل می کنم.
        البته شما خودتون هم در درس نکات فنی مربوط به خواندن کتاب هم به نرم افزار sumartapdf اشاره کرده بودین و لینک دانلود از سایت اصلی رو هم قرار داده بودین که خب از همون جا دانلودش کردم

        لینک درس نکات فنی مربوط به خواندن کتاب
        https://www.fluent-forever.ir/%d9%86%da%a9%d8%a7%d8%aa-%d9%81%d9%86%db%8c-%d9%85%d8%b1%d8%a8%d9%88%d8%b7-%d8%a8%d9%87-%d8%ae%d9%88%d8%a7%d9%86%d8%af%d9%86-%da%a9%d8%aa%d8%a7%d8%a8/

        در مورد نرم افزار تبدیل کتاب های با فرمت epup به pdf یکی از دلایل اش این بود که هر چی در نرم افزار sumartapdf تلاش کردم که بتونم کلمات رو سرچ کنم تا بتونم از جملات خود کتابی که مدنظرم هست در ساختن فلش کارت هاش (برای کلمات پرتکرار کتاب بر اساس لیست نهایی ای که با کمک این درس ساختم) استفاده کنم نتونستم و گفتم اگر به pdf تبدیل اش کنم قطعا می تونم کلمات رو سرچ کنم و به جملاتی که کلمه مورد نظر رو در کتاب دارن برسم
        در مورد سرچ کلمات در نرم افزار sumartapdf هم سرچ کردم اما نتونستم راه حلی پیدا کنم و تنها میشد صفحات رو سرچ کرد نه کلمات رو.

  2. من تمامی این مراحل رو برای یک فصل کتاب انجام دادم و به لیست نهایی کلمات تخصصی رسیدم.
    واقعا خیلی مفید بود , مرسی هیوای عزیز توضیحات درس عالی بودن… با روش fluent forever و این ابزارهای فوق العاده کاربردی میشه به یک متخصص در حوزه مد نظر تبدیل شد

  3. سلام هیوا جان اونجایی که گفتی لیست دو هزار کلمه رو انتخاب کنیم و از توی متن حذفش کنیم چطوری این کار رو انجام بدیم من با استفاده از لینکی که معرفی کردی ۲۰۰۰ کلمه رو کپی کردم و میزارم اما کلمات حذف نمیشن؟ انگار باید تک تک کلمات رو بزاری لیستی نمیشه خوب این خیلی طولانی میشه .

    1. سلام معصومه جان، صدتا صدتا یا چند صد تا چند صدتا ( مثلا ۴۰۰) اینکارو انجام بده فکر کنم بشه. برای عددهای بالا مثل دو هزارتا گاهی به درستی عمل نمیکنه.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *