mirastext_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ میراث است.
پیکرهٔ میراث حاوی ۲,۸۳۵,۴۱۴ خبر از ۲۵۰ خبرگزاری فارسی است.
MirasTextReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ میراث است.
پارامترها:
| نام | نوع | توضیحات | پیشفرض |
|---|---|---|---|
filename |
str
|
مسیر فایلِ پیکره. |
اجباری |
docs()
¶
خبرها را برمیگرداند.
خروجی تدریجی:
| نوع | توضیحات |
|---|---|
Dict[str, str]
|
خبر بعدی. |
texts()
¶
فقط متن خبرها را برمیگرداند.
این تابع صرفاً برای راحتی بیشتر تهیه شده وگرنه
با تابع docs()
و دریافت مقدار پراپرتی text نیز
میتوانید همین کار را انجام دهید.
مثالها:
>>> mirastext = MirasTextReader(filename='mirastext.txt')
>>> next(mirastext.texts())[:42] # first 42 characters of fitst text
'ایرانیها چقدر از اینترنت استفاده میکنند؟'
خروجی تدریجی:
| نوع | توضیحات |
|---|---|
str
|
متنِ خبر بعدی. |